4 Essentiële criteria voor een goede test

Dit artikel werpt licht op de vier essentiële criteria voor een goede test. De criteria zijn: - 1. Betrouwbaarheid 2. Geldigheid 3. Objectiviteit 4. Bruikbaarheid.

Criterium # 1. Betrouwbaarheid:

De woordenboekbetekenis van betrouwbaarheid is consistentie, afhankelijkheid of vertrouwen. Een meetprocedure is betrouwbaar voorzover herhaalde metingen consistente resultaten voor het individu opleveren.

Een test wordt als betrouwbaar beschouwd als deze bij de opeenvolgende toediening consistente resultaten oplevert. Dus met betrouwbaarheid van een test bedoelen we hoe betrouwbaar of betrouwbaar de test is. Om algemeen uit te drukken, is het betrouwbaar als een meetinstrument consistent meet.

Wanneer een test betrouwbaar is, zullen de scores die door de leden van een groep worden gemaakt bij een nieuwe test met dezelfde test of met alternatieve vormen van dezelfde test, zeer weinig of helemaal niet verschillen van hun oorspronkelijke waarden.

Voorbeeld 1:

Als een getuige dezelfde verklaring aflegt over een kwestie wanneer er herhaaldelijk door een advocaat in de rechtbank om wordt gevraagd, stellen we vertrouwen in zijn verklaring en nemen we zijn verklaring als betrouwbaar.

Voorbeeld 2:

Als een horloge elke dag 10 minuten te laat is in vergelijking met de tijd in Hindustan, kunnen we zeggen dat het horloge een betrouwbaar instrument is.

Voorbeeld 3:

Stel dat we Amit vragen om zijn geboortedatum te vermelden. Hij meldt dat het 13 juli, 1985 was. Na verloop van tijd stelden we dezelfde vraag en hij rapporteerde hetzelfde, namelijk 13 juli 1985.

We kunnen de vraag keer op keer stellen en als het antwoord hetzelfde is, vinden we dat Amit's verklaring betrouwbaar is.

Definities:

1. Thorndike:

Het is de consistentie van een test waarmee het meet wat er gemeten moet worden. Testbetrouwbaarheid wordt meestal beschouwd als de mate waarin de test vrij is van compenserende fouten.

2. Gronlund en Linn:

Betrouwbaarheid verwijst naar de consistentie van metingen, dat wil zeggen, hoe consistente testscores of andere evaluatieresultaten van de ene naar de andere meting zijn.

3. Anastasi:

Betrouwbaarheid verwijst naar de consistentie van scores die door dezelfde personen zijn verkregen bij een hernieuwde controle met dezelfde test bij verschillende gelegenheden of met verschillende sets van equivalente items of onder variabele onderzoekscondities.

4. Davis:

De mate van relatieve precisie van de meting van een set testscores wordt gedefinieerd als betrouwbaarheid.

5. Guilford:

Betrouwbaarheid is de verhouding van de ware variantie in behaalde testscores.

Uit de bovenstaande discussie werd duidelijk dat de betrouwbaarheid van een test de mate is waarin de test bij opeenvolgende toediening van dezelfde populatie hetzelfde resultaat oplevert. Andere condities blijven constant, als dezelfde test bij twee verschillende gelegenheden wordt toegediend aan dezelfde populatie en de scores die de individuen bij beide gelegenheden hebben behaald min of meer gelijk blijven, wordt de test als betrouwbaar beschouwd.

Betrouwbaarheid van een test probeert de volgende vragen te beantwoorden:

(i) Hoe vergelijkbaar zijn de scores van de leerling als ze bij twee verschillende gelegenheden dezelfde test krijgen?

(ii) Hoe zouden de scores variëren als een andere steekproef van equivalente items wordt geselecteerd?

(iii) Hoe zouden de scores verschillen als de test wordt gescoord door een andere scorer?

(iv) Hoe zouden de scores verschillen als de test op verschillende tijdstippen door dezelfde scorer wordt gescoord?

Kenmerken van betrouwbaarheid:

Betrouwbaarheid heeft de volgende kenmerken:

(i) Een schatting van de betrouwbaarheid heeft altijd betrekking op een bepaald type consistentie.

(ii) Het verwijst naar de nauwkeurigheid of precisie van een meetinstrument.

(iii) Betrouwbaarheid verwijst naar de testresultaten en niet naar de test zelf.

(iv) Het is de coëfficiënt van interne consistentie.

(v) De betrouwbaarheid van een reeks metingen is logisch gezien de proportie van de variantie die de ware variantie is.

(vi) Het is de maat voor een variabele fout of toevalsfout of meetfout.

(vii) Betrouwbaarheid is een kwestie van mate. Het bestaat niet in alle of niet-basis.

(viii) Betrouwbaarheid garandeert niet de geldigheid, waarachtigheid of doelgerichtheid van een test.

(ix) Betrouwbaarheid is een noodzakelijke maar niet voldoende voorwaarde voor geldigheid. Een lage betrouwbaarheid kan de geldigheidsgraad die wordt verkregen beperken, maar hoge betrouwbaarheid biedt geen garantie voor een bevredigende mate van geldigheid.

(x) Betrouwbaarheid is primair statistisch van aard in die zin dat de scores verkregen bij twee opeenvolgende keren met elkaar gecorreleerd zijn. Deze correlatiecoëfficiënt staat bekend als zelfcorrelatie en de waarde ervan wordt de 'betrouwbaarheidscoëfficiënt' genoemd.

Betrouwbaarheid en meetfouten:

De definities van betrouwbaarheid kunnen worden gegroepeerd onder drie rubrieken:

(i) Empirisch,

(ii) Logisch, en

(iii) Theoretisch.

(i) Empirisch:

De empirische definities van betrouwbaarheid hebben betrekking op de mate van correlatie tussen twee sets scores op dezelfde test die op dezelfde persoon bij verschillende gelegenheden is toegediend.

(ii) Theoretisch:

De theoretische betekenis verwijst naar de consistentie of precisie van testscores. Het betekent betrouwbaarheid van een testscore.

(iii) Logisch:

De logische betekenis van betrouwbaarheid verwijst naar meetfouten.

Volgende illustratie kan ons helpen het concept van betrouwbaarheid en meetfouten te begrijpen:

Rohit beveiligt bijvoorbeeld 52 in een mentale test. Wat geeft 52 aan? Spreekt het over zijn ware vermogen? Is het zijn ware score? Rohit heeft 52 waarschijnlijk alleen maar kansgemaakt. Het kan dus gebeuren dat Rohit toevallig 52 items van de test kende en dat de items een beetje anders waren geweest, anders zou hij deze score niet hebben behaald.

Al deze vragen houden verband met het feit dat de meting betrekking heeft op enkele soorten fouten, namelijk persoonlijke, constante, variabele en interpretatieve fouten. Deze fout wordt genoemd als meetfouten. Dus terwijl we de betrouwbaarheid van een test bepalen, moeten we rekening houden met het aantal fouten dat aanwezig is in de meting.

Wanneer de betrouwbaarheidscoëfficiënt perfect is (dwz 1, 00), wordt de meting nauwkeurig en is deze vrij van allerlei soorten fouten. Maar meten op elk gebied brengt een aantal fouten met zich mee. Daarom is betrouwbaarheid nooit perfect.

Een score op een test kan worden beschouwd als een index van ware score plus meetfouten.

Totale score of werkelijk behaalde score = True Score + Error Score

Als een score een groot deel van 'echte score' en een klein foutcomponent heeft, is deze hoog; en omgekeerd, als een testscore een klein onderdeel van 'echte score' en grote 'fout'-component heeft, is de betrouwbaarheid ervan laag.

De relaties van de daadwerkelijk behaalde score, werkelijke score en fout kunnen als volgt wiskundig worden uitgedrukt:

X = X _∞ + e

waarin X = Verkregen score voor een persoon op een test.

X _∞ = echte score van dezelfde persoon

e = de variabele (toevals) fouten.

Fouten van meting:

De werkelijke score is het gemiddelde van de behaalde scores op een oneindig aantal parallelle vormen van een test. Elke behaalde score zal meer of minder zijn dan de echte score. De afwijkingen van de verkregen scores van de echte scores worden de "Fouten van de meting" genoemd.

Soms zijn de meetfouten minder en soms meer. Als andere dingen gelijk zijn, zullen de meetfouten kleiner zijn naarmate de meting betrouwbaarder is.

Standaard meetfout:

De meetfouten (dwz de variatie van de verkregen scores van de werkelijke score) worden normaal verdeeld en de standaardafwijking van deze variaties (of meetfouten) wordt aangeduid als "standaard meetfouten".

We kunnen de Standard Error of Measurement (SE of meting) achterhalen wanneer de betrouwbaarheidscoëfficiënt en standaardafwijking van de verdeling wordt gegeven.

De formule om de standaardfout van de meting te berekenen, is als volgt:

waarin σ _sc = de SE van een verkregen score

σ ₁ = de standaarddeviatie van testscores

r ₁₁ = de betrouwbaarheidscoëfficiënt van dezelfde test.

Voorbeeld 4:

In een groep van 300 studenten is de betrouwbaarheidscoëfficiënt van een Aptitude Test in de wiskunde .75, de test M is 80 en de SD van de scoreverdeling is 16. John behaalt een score van 86. Wat is de SE van deze score ?

Oplossing:

Uit de bovenstaande formule vinden we dat

en de kansen zijn ongeveer 2: 1 dat de behaalde score van een individu in de groep van 300 zijn ware waarde niet meer dan ± 8 punten mist (dwz ± 1 SE _sc ). Het .95-betrouwbaarheidsinterval voor de echte score van John is 86 ± 1, 96 x 8 of 70 tot 102.

Generaliseren voor de hele groep van 300 studenten, we mogen verwachten dat ongeveer 1/3 van hun scores een fout is van 8 of meer punten, en 2/3 van de fouten minder dan dit bedrag.

Criterium # 2. Geldigheid:

De woordenboekbetekenis van geldigheid is "goed gebaseerd", "werkzaam", "geluid". Het verwijst naar "waarachtigheid". Aldus is alles wat waarheidsgetrouw is, goed gebaseerd en dat het juiste doel dient, geldig.

Elke test heeft zijn eigen doelstellingen. Het is geconstrueerd voor een specifiek doel en het is geldig voor dat doel. Als een test meet wat hij van plan is te meten, wordt deze als geldig beschouwd. De geldigheid geeft een directe controle over hoe goed de test zijn functies vervult. Geldigheid is de eerste vereiste voor een test die universeel wordt.

Betrouwbaarheid kan noodzakelijk zijn, maar niet voldoende voorwaarde voor geldigheid. Een test kan alleen geldig zijn als deze betrouwbaar is. Het kan betrouwbaar zijn maar kan niet als geldig worden aangemerkt. De relevantie van een test betreft de testmaatregelen en het proces van de maatregelen.

In het kort kunnen we stellen dat een test bedoeld is om de voorspellingsfunctie te dienen en dus is de waarde of validiteit ervan afhankelijk van de mate waarin deze succesvol is in het schatten van de prestaties in sommige soorten van real life-situaties.

Voorbeeld 5:

Stel dat een getuige één verklaring aflegt voor de rechter in een rechtbank. Als hij bij opeenvolgende kruisverhoren of kruisverhoor steeds dezelfde bewering herhaalt, wordt hij als betrouwbaar getuige geroepen.

Zonder twijfel, zijn verklaring kan goed of fout zijn. Wanneer zijn bewering waar is, wordt van hem gezegd dat hij een geldig getuige is. Maar als zijn verklaring consequent verkeerd is, hoewel hij betrouwbaar is, maar niet geldig.

Voorbeeld 6:

Als een horloge 10 minuten voorwaarts blijft staan dan de 'standaardtijd', is het een betrouwbaar tijdsinterval. Omdat het elke dag een consistent resultaat geeft met 10 minuten snel. Ons doel is om de tijd correct te kennen en we konden het niet weten. Het doel is dus niet gediend. Het zal dus niet geldig zijn zoals beoordeeld op 'Standaardtijd'.

Het is dus gebleken dat een test betrouwbaar kan zijn, maar deze is mogelijk niet geldig. Geldige maatregelen of tests zijn echter altijd betrouwbaar. Een test die geldig is voor een bepaald doel, is mogelijk niet geldig voor een ander doel.

Een test die is voorbereid om de rekenvaardigheid van studenten in de wiskunde te meten, kan alleen voor dat doel gelden, maar niet voor het meten van de wiskundige redenering. Geldigheid verwijst dus naar het doel van de test.

Definities:

Anne Anastasi:

Schrijft "de geldigheid van een test betreft wat de test meet en hoe goed het werkt."

Rummel:

"De geldigheid van een evaluatie-apparaat is de mate waarin het meet wat het is bedoeld om te meten."

FS Freeman:

"Een index van geldigheid geeft de graden weer waaraan een test meet wat hij beweert te meten in vergelijking met het geaccepteerde criterium."

LJ Cronbach:

"Validiteit is de mate waarin een test meet wat het beweert te meten."

EF Lindquist:

Validiteit is de nauwkeurigheid waarmee het meet wat bedoeld is om te meten of in welke mate het de onfeilbaarheid benadert bij het meten van wat het beweert te meten.

Uit de voorgaande discussie vormen wij dat validiteit verwijst naar het "eigenlijke doel van de test" en als het doel is vervuld, moet de test als geldig worden beschouwd. Dus een test om geldig te zijn, moet het werk doen dat het wilde doen.

Het concept van validiteit van een toets is daarom vooral een zorg voor de 'basic honesty' van de test. Eerlijkheid in de zin van doen wat je belooft te doen. Om precies te zijn, validiteit verwijst naar hoe goed een hulpmiddel meet wat het van plan is te meten.

Aard van de geldigheid:

1. Validiteit verwijst naar de waarachtigheid of doelgerichtheid van testscores, maar niet naar het instrument zelf.

2. Geldigheid is een kwestie van graad. Het bestaat niet op een alles-of-niets-basis. Een instrument dat is ontworpen voor het meten van een bepaalde vaardigheid kan niet worden beschouwd als perfect geldig of helemaal niet geldig. Het is over het algemeen meer of minder geldig.

3. Het is een maat voor 'constante fout' terwijl betrouwbaarheid de maat is voor 'variabele fout'.

4. Geldigheid garandeert de betrouwbaarheid van een test. Als een test geldig is, moet deze betrouwbaar zijn.

5. Geldigheid is niet van verschillende typen. Het is een unitair concept. Het is gebaseerd op verschillende soorten bewijsmateriaal.

6. Er bestaat niet zoiets als algemene geldigheid. Een test is geldig voor een bepaald doel of situatie, maar is niet geldig voor andere doeleinden. Met andere woorden, een tool is geldig voor een bepaald doel of in een bepaalde situatie; het is niet algemeen geldig.

De resultaten van een woordenschatproef kunnen bijvoorbeeld zeer valide zijn om de woordenschat te testen, maar zijn mogelijk niet zo waardevol om het compositievermogen van de student te testen.

Criterium # 3. Objectiviteit:

Objectiviteit is het belangrijkste kenmerk van een goede test. Het is een voorwaarde voor zowel de geldigheid als de betrouwbaarheid. Objectiviteit van een test betekent de mate waarin verschillende scorers geven, hetzelfde resultaat.

CV Good (1973):

CV Good (1973) definieert objectiviteit in testen als "de mate waarin het instrument vrij is van persoonlijke fouten (persoonlijke vooringenomenheid) die subjectiviteit zijn van de kant van de scorer."

Gronlund en Linn (1995):

"Objectiviteit van een test verwijst naar de mate waarin gelijkaardige competente scoorders dezelfde resultaten behalen."

Er kan dus worden gezegd dat een test als objectief wordt beschouwd wanneer deze de verwijdering van de persoonlijke mening van de scorer en een vooroordeel wegneemt.

Objectiviteit van een test verwijst naar twee aspecten, te weten:

(i) Objectiviteit van de artikelen, en

(ii) Objectiviteit van scoren.

(i) Objectiviteit van de artikelen:

Objectiviteit van de artikelen betekent dat het artikel een duidelijk enkel antwoord moet oproepen. Objectitems mogen niet twee of meer antwoorden hebben. Wanneer de vraag anders wordt gesteld, zal er verschil in score optreden.

Bijvoorbeeld:

"Verklaar het concept van persoonlijkheid."

Hier zullen de scores gegeven door de scorers in grote mate variëren omdat de vraag niet duidelijk de aard van het juiste antwoord aangeeft dat wordt verwacht.

Hier kan het kind alles schrijven dat betrekking heeft op de vraag. Als het antwoord door verschillende examinatoren wordt gescoord, zouden de cijfers zeker variëren.

Dubbelzinnige vragen, gebrek aan goede richting, dubbele vat vragen, vragen met dubbele negatieven, vragen van het brede essay type etc. hebben geen objectiviteit. Er moet dus veel zorg worden betracht bij het inlijsten van de vragen.

(ii) Objectiviteit van scoren:

Een hulpmiddel is objectief als het dezelfde score geeft, zelfs als verschillende scorers het item scoren. Objectiviteit bij scoren kan dus worden beschouwd als consistentie in scoren door verschillende scorers.

Heel vaak vinden we in werkelijke situaties dat de grillen of vooroordelen van de scorer van invloed zijn op de markering. De vragen, gesteld over bepaalde onderwerpen waarvoor de scorer een neiging heeft, kunnen meer punten halen dan de andere vragen.

Dit type irrationeel temperament ten opzichte van het scoresysteem is een soort van zijn / haar subjectieve behandeling van de syllabus, die op zijn beurt het evaluatieproces beïnvloedt. Daarom moet objectiviteit bij de evaluatie worden gewaarborgd voor een nauwkeurige evaluatie.

Tegelijkertijd hoeft subjectiviteit niet te worden veroordeeld en volledig te worden uitgesloten, want zo worden de meeste evaluaties in werkelijkheid gemaakt. Subjectieve beoordeling op basis van zorgvuldige observatie, onbevooroordeeld en onbevooroordeeld denken en logische analyse van situaties en verschijnselen kan ook een nauwkeurige evaluatie opleveren. Dit soort gedisciplineerde subjectiviteit kan zelfs in een schoolsituatie een belangrijke rol spelen.

Criterium # 4. Bruikbaarheid:

Usability-graad waaraan de tool van evaluatie met succes kan worden gebruikt door de testgebruikers.

We hebben inmiddels de drie belangrijkste criteria voor een goede test gelezen: validiteit, betrouwbaarheid en objectiviteit. Een ander belangrijk kenmerk van een tool is de bruikbaarheid of bruikbaarheid. Bij het selecteren van evaluatie-instrumenten moet men op zoek gaan naar bepaalde praktische overwegingen, zoals volledigheid, gemakkelijk beheer en scoring, gemak van interpretatie, beschikbaarheid van vergelijkbare formulieren en testkosten.

Al deze overwegingen wekken een leraar op om evaluatiemiddelen te gebruiken en dergelijke praktische overwegingen worden de "bruikbaarheid" van een evaluatiemiddel genoemd. Met andere woorden, bruikbaarheid betekent de mate waarin het evaluatiemiddel met succes kan worden gebruikt door de leraar en de schoolbeheerders.

(i) Begrijpelijkheid:

De testitems moeten vrij zijn van dubbelzinnigheid. De richting om items en andere richtingen van de test te testen moet duidelijk en begrijpelijk zijn. De aanwijzingen voor het beheer en de aanwijzingen voor scoren moeten duidelijk worden vermeld zodat men ze gemakkelijk kan begrijpen en volgen. Bovendien moet de procedure van testadministratie, scoren en score-interpretatie binnen het bevattingsvermogen van de testgebruiker liggen.

(ii) Eenvoudig beheer:

Het verwijst naar het gemak waarmee een test kan worden toegediend. Elke test heeft zijn eigen voorwaarden voor administratie. Tijdens het selecteren van een test, moet men er een kiezen uit een verzameling testen, die zonder veel voorbereiding en moeilijkheden kan worden toegediend.

een. Gemakkelijk beheer omvat duidelijke en beknopte instructies voor toediening. Om een test eenvoudig te kunnen uitvoeren, moeten de aanwijzingen naar de beheerder en de richting naar de smaak eenvoudig, duidelijk en volledig zijn.

b. Tijd is ook een zeer belangrijke factor. Voor maximale administratie op school is het gebruikelijk dat een test binnen een normale klaslokaalperiode wordt afgenomen.

(iii) Gemakkelijk te scoren:

Een test om beter bruikbaar te zijn moet gemakkelijk te scoren zijn. De scoretoets moet kant en klaar zijn en gemakkelijk te beoordelen zijn. Soms zijn de plaatsen aan de rechterkant van de vragen geoormerkt om antwoorden te geven.

In sommige gevallen worden antwoorden op afzonderlijke bladen gegeven. Een ideale test kan door iedereen worden gescoord of zelfs door een machine, die is voorzien van een scoretoets. Gelijke punten moeten worden toegewezen aan elk item in de test om het scoren gemakkelijker te maken.

Afhankelijk van de haalbaarheid, kunnen zowel handscorende apparaten als machinescores worden geleverd.

(iv) Eenvoudig interpreteren:

Als de verkregen testscores gemakkelijk kunnen worden begrepen en geïnterpreteerd, is een test goed. Voor dit doel moet het testhandboek volledige normen bieden voor de interpretatie van scores, zoals leeftijdsnormen, graadnormen, percentielnormen en standaardscore-normen. De normen vergemakkelijken de interpretatie van testscores.

(v) Opstarten van de test:

De test moet een mooie opstap hebben. Dit moet een goede en aantrekkelijke uitstraling zijn. De letters mogen niet onnodig te klein of te groot zijn. De kwaliteit van het gebruikte papier, de gebruikte typografie en drukwerk, lettergrootte, spatiëring, afbeeldingen en diagrammen, de binding ervan, de ruimte voor de reactie van de leerlingen enz. Moeten worden onderzocht.

(vi) Kosten van de test:

De test moet niet te duur zijn. De kosten moeten tot een minimum worden beperkt, zodat deze op grote schaal kunnen worden gebruikt.