Geldigheid van een test: 6 soorten

De volgende zes soorten geldigheid zijn in de volksmond in gebruik, namelijk Gezichtsgeldigheid, Inhoudsvaliditeit, Voorspellende geldigheid, Gelijktijdige, Constructieve en Factoriale geldigheid. Hiervan zijn de inhoud, voorspellende, gelijktijdige en constructvaliditeit de belangrijkste die worden gebruikt op het gebied van psychologie en onderwijs.

Deze worden hieronder besproken:

Type # 1. Geldigheid van het gezicht:

Face Validity voor zover de test lijkt te meten wat moet worden gemeten.

Gezichtsgeldigheid verwijst naar het feit of een test geldig lijkt of niet, oftewel van buitenaf, of de items nu lijken om het vereiste aspect te meten of niet. Als een test meet wat de testautoriteit wil meten, zeggen we dat de test gezichtsgeldigheid heeft. Gezichtsgeldigheid verwijst dus niet naar wat de test meet, maar naar wat de test 'lijkt te meten'. De inhoud van de test mag blijkbaar niet ongepast en irrelevant zijn.

Een test om bijvoorbeeld "Skill addition" te meten, zou alleen items bij toevoeging moeten bevatten. Wanneer iemand de items doorneemt en vindt dat alle items bovendien de vaardigheid meten, kan worden gesteld dat de test door gezicht is gevalideerd.

Hoewel het geen efficiënte methode is om de geldigheid van een test te beoordelen en als zodanig nog niet gebruikelijk is, kan het als eerste stap worden gebruikt om de test te valideren. Nadat de test in gezicht is gevalideerd, kunnen we verder gaan om de geldigheidscoëfficiënt te berekenen.

Bovendien helpt deze methode een testmaker om de testitems aan het doel aan te passen. Wanneer een test snel moet worden geconstrueerd of wanneer er dringend een test nodig is en er geen tijd of ruimte is om de geldigheid door andere efficiënte methoden te bepalen, kan de gezichtsbeperking worden bepaald.

Dit type validiteit is niet adequaat omdat het op gezichtsniveau opereert en daarom als laatste redmiddel kan worden gebruikt.

Type # 2. Geldigheid van de inhoud:

Content Validity een proces waarbij de testitems met de instructiedoelen worden vergeleken.

Inhoudsvaliditeit is het belangrijkste criterium voor de bruikbaarheid van een test, vooral van een prestatietest. Het wordt ook wel Rational Validity of Logical Validity of Curricular Validity of Internal Validity of Intrinsic Validity genoemd.

Inhoudsvaliditeit verwijst naar de mate of mate waarin een test bestaat uit items die het gedrag vertegenwoordigen dat de testproducent wil meten. De mate waarin de items van een test echt representatief zijn voor de hele inhoud en de doelstellingen van het onderwijs, wordt de inhoudsvaliditeit van de test genoemd.

Inhoudsvaliditeit wordt geschat door de relevantie van de testitems te evalueren; dat wil zeggen dat de testitems alle inhoud en gedragsgebieden van het te meten kenmerk naar behoren moeten behandelen. Het geeft een idee van het onderwerp of gedragsverandering.

Op deze manier verwijst contentvaliditeit naar de mate waarin een test items bevat die het gedrag vertegenwoordigen dat we gaan meten. De items van de test moeten alle relevante kenmerken van het hele inhoudsgebied en de doelstellingen in de juiste verhouding bevatten.

Voordat de test wordt samengesteld, bereidt de testfabrikant een tweerichtings-tabel voor van inhoud en doelstellingen, in de volksmond bekend als "specificatietabel".

Stel dat een prestatietest in de wiskunde is voorbereid. Het moet items uit Algebra, Rekenen, Meetkunde, Mensuratie en Goniometrie bevatten en bovendien moeten de items de verschillende gedragsdoelen zoals kennis, begrip, vaardigheid, toepassing enz. Meten. Het is dan ook noodzakelijk dat voldoende gewicht wordt gegeven aan verschillende inhoudsgebieden en doelen.

Een voorbeeld van 'specificatietabel' in Wiskunde wordt getoond in de volgende tabel:

De tabel geeft het monster van te meten leertaken weer. Hoe dichter de testitems overeenkomen met het opgegeven monster, hoe groter de kans op bevredigende inhoudsvaliditeit. Daarom is het wenselijk dat de items in een test worden gescreend door een team van experts. Ze moeten controleren of de plaatsing van de verschillende items in de cellen van de tabel geschikt is en of alle cellen in de tabel voldoende items bevatten.

De toereikendheid moet worden beoordeeld aan de hand van de weging die wordt gegeven aan de verschillende inhoudsgerichte tabel volgens het team van deskundigen dat het curriculum heeft ontworpen.

Enkele algemene punten voor het garanderen van inhoudsvaliditeit worden hieronder gegeven:

1. Test dient het vereiste niveau van studenten, niet boven of onder hun standaard.

2. Taal moet op het niveau van studenten zijn.

3. Alles wat niet in het curriculum staat, mag niet worden opgenomen in testitems.

4. Elk deel van het curriculum moet de noodzakelijke weging krijgen. Meer items moeten worden geselecteerd uit belangrijkere delen van het curriculum.

beperkingen:

1. De weging die aan verschillende delen van de inhoud moet worden gegeven, is subjectief.

2. Het is moeilijk om de perfecte objectieve test te construeren.

3. Inhoudsvaliditeit is niet voldoende of voldoende voor tests van intelligentie, prestatie, houding en tot op zekere hoogte tests van persoonlijkheid.

4. Het gewicht dat wordt gegeven bij verschillende gedragsveranderingen is niet objectief.

Type # 3. Voorspellende geldigheid:

Voorspellende validiteit de mate waarin de test de toekomstige prestaties van studenten voorspelt.

Voorspellende validiteit betreft de voorspellende capaciteit van een test. Het geeft de effectiviteit aan van een test bij het voorspellen of voorspellen van toekomstige uitkomsten in een specifiek gebied. De testgebruiker wenst de toekomstige prestaties van een individu te voorspellen. Testscores kunnen worden gebruikt om toekomstig gedrag of prestaties te voorspellen en worden daarom voorspellende geldigheid genoemd.

Om voorspellende geldigheid te vinden, correleert de tester de testscores met de daaropvolgende prestaties van testee, technisch bekend als "Criterium". Criterium is een onafhankelijke, externe en directe maatstaf van wat de test is ontworpen om te voorspellen of meten. Vandaar dat het ook bekend staat als "Criterium-gerelateerde geldigheid".

De voorspellende of empirische validiteit is door Cureton (1965) gedefinieerd als een schatting van de correlatiecoëfficiënt tussen de testscores en het echte criterium.

Een voorbeeld kan het concept beter verduidelijken.

Voorbeeld:

Medische toelatingstest wordt geconstrueerd en toegediend aan geselecteerde kandidaten voor toelating tot MBBS-cursussen. Op basis van de scores van de kandidaten op deze test, geven we de kandidaten toe.

Na voltooiing van de cursus verschijnen ze bij het laatste MBBS-onderzoek. De scores van het uiteindelijke MBBS-onderzoek zijn het criterium. De scores van ingangstoets en eindexamen (criterium) zijn gecorreleerd. Hoge correlatie impliceert een hoge voorspellende waarde.

Vergelijkbare voorbeelden zoals andere rekruteringstests of ingangstests in Landbouw, Techniek, Bankwezen, Spoorwegen enz. Kunnen hier worden aangehaald, die een hoge voorspellende waarde moeten hebben.

Dat is tests die worden gebruikt voor werving, classificatie en toelatingsexamen moeten een hoge voorspellende waarde hebben. Dit type validiteit wordt soms 'empirische validiteit' of 'statistische validiteit' genoemd, omdat onze evaluatie voornamelijk empirisch en statistisch is.

Beperking:

Als we een geschikte criteriummaat krijgen waarmee onze testresultaten gecorreleerd moeten worden, kunnen we de voorspellende waarde van een test bepalen. Maar het is erg moeilijk om een goed criterium te krijgen. Bovendien kunnen we geen criteriummetingen voor alle soorten psychologische tests krijgen.

Type # 4. Gelijktijdige geldigheid:

Concurrent Validity die de testscores correleert met een andere reeks criteriumscores.

Concurrent validity verwijst naar de mate waarin de testscores overeenkomen met reeds vastgestelde of geaccepteerde prestaties, bekend als criterium. Om de geldigheid van een nieuw geconstrueerde test te kennen, is deze gecorreleerd of vergeleken met enige beschikbare informatie.

Aldus wordt een test gevalideerd tegen een aantal gelijktijdig beschikbare informatie. De scores verkregen uit een nieuw samengestelde test zijn gecorreleerd met vooraf vastgestelde testprestaties. Stel dat we een intelligentietest hebben voorbereid.

We beheren het aan een groep leerlingen. De Stanford-Binet-test wordt ook aan dezelfde groep toegediend. Nu zijn testscores gemaakt op onze nieuw samengestelde test- en testscores gemaakt door leerlingen op de Stanford-Binet Intelligence Test gecorreleerd. Als de correlatiecoëfficiënt hoog is, zou onze intelligentietest een hoge concurrentgelijkheid hebben.

De woordenboekbetekenis van de term 'gelijktijdig' is 'bestaand' of 'klaar op hetzelfde moment'. De term 'concurrente validiteit' wordt dus gebruikt om het proces aan te duiden van het valideren van een nieuwe test door de scores te correleren met een bestaande of beschikbare informatiebron (criterium) die mogelijk kort vóór of kort na de nieuwe test is verkregen.

Om de gelijktijdigheid van een nieuw geconstrueerde prestatietest vast te stellen, zijn de scores gecorreleerd aan de scores die diezelfde studenten hebben behaald in hun recente eerste-eind- of eindstationonderzoek. Aldus wordt een test gevalideerd tegen een aantal gelijktijdig beschikbare informatie. Om een criteriummaat te krijgen, hoeven we niet lang te wachten.

De voorspellende waarde verschilt van concurrente validiteit in de zin dat we in de vorige geldigheid wachten op de toekomst om maatstaf te krijgen. Maar in gemak van gelijktijdige validiteit hoeven we niet te wachten op langere hiaten.

De term 'concurrent' hier impliceert de volgende kenmerken:

1. De twee tests - degene waarvan de validiteit wordt onderzocht en die met bewezen validiteit - zouden hetzelfde inhoudsgebied op een bepaald niveau en hetzelfde doel moeten omvatten;

2. De populatie voor beide tests blijft hetzelfde en de twee tests worden in vrijwel dezelfde omgevingen toegediend; en

3. De prestatiegegevens van beide tests zijn bijna gelijktijdig verkrijgbaar.

Dit type geldigheid wordt ook wel "externe geldigheid" of "functionele geldigheid" genoemd. Concurrente validiteit is relevant voor tests die worden gebruikt voor de diagnose, niet voor het voorspellen van toekomstig succes.

Type # 5. Geldigheid:

Construct Validity De mate waarin de test kan worden gezegd om een theoretisch construct of een psychologische variabele te meten.

Een construct is voornamelijk psychologisch. Meestal verwijst het naar een eigenschap of mentaal proces. Constructvalidatie is het proces waarbij wordt bepaald in hoeverre een bepaalde test de psychologische constructen meet die de testproducent van plan is te meten.

Het geeft aan in hoeverre een test de abstracte attributen of kwaliteiten meet die niet operationeel zijn gedefinieerd.

Gronlund en Linn stellen: "Constructvalidatie kan worden gedefinieerd als het proces om te bepalen in hoeverre de testprestaties kunnen worden geïnterpreteerd in termen van een of meer psychologische constructies."

Ebel en Frisbie beschrijven: "Construct validatie is het proces van het verzamelen van bewijsmateriaal ter ondersteuning van de bewering dat een bepaalde test inderdaad de psychologische constructie meet die de testfabrikanten beoogden te meten."

Constructvaliditeit wordt ook wel 'psychologische validiteit' of 'geldigheid van de eigenschap' of 'logische geldigheid' genoemd. Constructvaliditeit betekent dat de testscores worden onderzocht in termen van een constructie. Het bestudeert de construct of psychologische attributen die een test meet.

De mate waarin de test de persoonlijkheidskenmerken of mentale processen meet zoals gedefinieerd door de testmaker, wordt de constructvaliditeit van de test genoemd.

Bij het bouwen van tests op intelligentie, houding, wiskundige aanleg, kritisch denken, studievaardigheden, angst, logisch redeneren, begrijpend lezen, etc. moeten we kiezen voor constructvaliditeit. Neem bijvoorbeeld 'een test van oprechtheid'.

Voordat een dergelijke test wordt samengesteld, wordt de testmaker geconfronteerd met de vragen:

1. Wat zou de definitie van de term oprechtheid moeten zijn?

2. Welke soorten gedrag zijn te verwachten van iemand die oprecht is?

3. Welk type gedrag maakt onderscheid tussen oprechtheid en onoprechtheid?

Elk construct heeft een onderliggende theorie die kan worden toegepast bij het beschrijven en voorspellen van het gedrag van een leerling.

Gronlund (1981) suggereert de volgende drie stappen voor het bepalen van constructvaliditeit:

(i) Identificeer de constructen waarvan verondersteld wordt dat ze verantwoordelijk zijn voor de testprestaties.

(ii) Leid hypothesen met betrekking tot testprestaties uit de theorie die ten grondslag ligt aan elk construct.

(iii) Verifieer de hypothesen op logische en empirische wijze.

Opgemerkt moet worden dat constructvaliditeit inferentieel is. Het wordt voornamelijk gebruikt als andere soorten validiteit onvoldoende zijn om de geldigheid van de test aan te geven. Constructvaliditeit is meestal betrokken bij die van studiegewoonten, waardering, eerlijkheid, emotionele stabiliteit, sympathie enz.

Type # 6. Factor Geldigheid:

Factoriale validiteit de mate van correlatie van de verschillende factoren met de hele test.

Factorvaliditeit wordt bepaald door een statistische techniek die factoranalyse wordt genoemd. Het maakt gebruik van methoden voor het verklaren van intercorrelaties om factoren (die kunnen worden verwoord als vaardigheden) te identificeren die de test vormen.

Met andere woorden methoden van intercorrelatie en andere statistische methoden worden gebruikt om de faciale validiteit in te schatten. De correlatie van de test met elke factor wordt berekend om het gewicht te bepalen dat door elke factor wordt bijgedragen aan de totale prestatie van de test.

Dit vertelt ons over de factorbelastingen. Deze relatie van de verschillende factoren met de hele test wordt de factoriële validiteit genoemd. Guilford (1950) suggereerde dat factoriële validiteit de duidelijkste beschrijving is van wat een test meet en in elk geval de voorkeur moet krijgen boven andere soorten validiteit.