Bepaling van de betrouwbaarheid van een test: 4 methoden

Er zijn vier procedures die algemeen worden gebruikt voor het berekenen van de betrouwbaarheidscoëfficiënt (soms de zelfcorrelatie genoemd) van een test. Dit zijn: 1. Test-Retest (herhaling) 2. Alternatieve of parallelle vormen 3. Split-Half Techniek 4. Rationele gelijkwaardigheid.

1. Test-Retest methode:

Om de betrouwbaarheid te schatten door middel van de test-hertest-methode, wordt dezelfde test twee keer toegediend aan dezelfde groep leerlingen met een bepaald tijdsinterval tussen de twee toedieningen van de test.

De resulterende testscores zijn gecorreleerd en deze correlatiecoëfficiënt verschaft een maatstaf voor stabiliteit, dat wil zeggen, het geeft aan hoe stabiel de testresultaten over een tijdsperiode zijn. Dus het is ook bekend als een maatstaf voor stabiliteit.

De schatting van de betrouwbaarheid varieert in dit geval afhankelijk van de lengte van het toegestane tijdsinterval tussen de twee administraties. De productmoment-methode van correlatie is een significante methode voor het schatten van de betrouwbaarheid van twee sets scores.

Een hoge correlatie tussen twee sets scores geeft dus aan dat de test betrouwbaar is. Betekent dat het aantoont dat de scores verkregen bij de eerste toediening lijken op de scores behaald in de tweede toediening van dezelfde test.

Bij deze methode speelt het tijdsinterval een belangrijke rol. Als het een dag of twee te klein is, wordt de consistentie van de resultaten beïnvloed door het overloopeffect, dat wil zeggen dat de leerlingen enkele van de resultaten van de eerste toediening tot de tweede onthouden.

Als het tijdsinterval een jaar lang is, worden de resultaten niet alleen beïnvloed door de ongelijkheid van testprocedures en -voorwaarden, maar ook door de feitelijke veranderingen in de leerlingen in die periode.

De tijdsinterval van hertesten mag niet langer zijn dan zes maanden. Tijdsverschil van twee weken herhaling geeft een nauwkeurige betrouwbaarheidsindex.

voordelen:

Zelfcorrelatie of test-hertest-methode, voor het schatten van de betrouwbaarheid coëfficiënt wordt over het algemeen gebruikt. Het is het waard om gemakkelijk in verschillende situaties te gebruiken. Een test van voldoende lengte kan worden gebruikt na een interval van vele dagen tussen opeenvolgende testen.

nadelen:

1. Als de test onmiddellijk wordt herhaald, zullen veel proefpersonen hun eerste antwoorden terughalen en hun tijd aan nieuw materiaal besteden, waardoor hun scores worden verhoogd - soms met een goede deal.

2. Naast directe geheugeneffecten, zal oefenen en het zelfvertrouwen veroorzaakt door bekendheid met het materiaal vrijwel zeker scores beïnvloeden wanneer de test voor de tweede keer wordt afgelegd.

3. De aldus verkregen betrouwbaarheidsindex is minder nauwkeurig.

4. Als het interval tussen de tests vrij lang (meer dan zes maanden) is, zullen de groeifactor en volwassenheid de scores beïnvloeden en neigt het ertoe de betrouwbaarheidsindex te verlagen.

5. Als de test onmiddellijk of na een korte tijdsverschil wordt herhaald, is er mogelijk sprake van overdrachtseffect / overdrachtseffect / geheugen / oefeneffect.

6. Bij het herhalen van dezelfde test, in dezelfde groep een tweede keer, worden de studenten ongeïnteresseerd en nemen ze dus niet graag van harte deel.

7. Soms wordt de uniformiteit niet behouden, wat ook van invloed is op de testscores.

8. Kansen om enkele vragen te bespreken na de eerste toediening, wat de scores bij de tweede toediening kan verhogen, wat de betrouwbaarheid beïnvloedt.

2. Alternatieve of parallelle formulierensysteem:

Het schatten van de betrouwbaarheid door middel van de equivalente formuliermethode omvat het gebruik van twee verschillende, maar equivalente vormen van de test. Parallelle vormbetrouwbaarheid is ook bekend als alternatieve vormbetrouwbaarheid of equivalente vormbetrouwbaarheid of vergelijkbare vormbetrouwbaarheid.

In deze methode worden twee parallelle of equivalente vormen van een test gebruikt. Met parallelle vormen bedoelen we dat de vormen gelijkwaardig zijn voor zover het de inhoud, doelstellingen, opmaak, moeilijkheidsgraad en onderscheidende waarde van items, lengte van de test, enz. Betreft.

Parallelle tests hebben gelijke gemiddelde scores, varianties en onderlinge co-relaties tussen items. Dat wil zeggen, twee parallelle vormen moeten in alle opzichten homogeen of soortgelijk zijn, maar geen duplicatie van testitems. Laat de twee vormen formulier A en vorm B zijn

De betrouwbaarheidscoëfficiënt kan worden beschouwd als de coëfficiëntcorrelatie tussen de scores op twee equivalente testvormen. De twee equivalente vormen zijn mogelijk vergelijkbaar qua inhoud, graad, geteste mentale processen en moeilijkheidsgraad en andere aspecten.

Eén vorm van de toets wordt op de studenten afgenomen en bij afronding wordt onmiddellijk een andere testvorm aan dezelfde groep geleverd. De scores, aldus verkregen, zijn gecorreleerd hetgeen de schatting van betrouwbaarheid geeft. De gevonden betrouwbaarheid wordt dus gelijkwaardigheidscoëfficiënt genoemd.

Gulliksen 1950: heeft parallelle tests gedefinieerd als tests met gelijke middelen, gelijke variantie en gelijke inter-relaties.

Guilford: de alternatieve formuliermethode geeft zowel de gelijkwaardigheid van inhoud als de stabiliteit van de prestaties aan.

voordelen:

Deze procedure heeft bepaalde voordelen ten opzichte van de test-hertest-methode:

1. Hier wordt dezelfde test niet herhaald.

2. Geheugen, oefenen, carryover-effecten en recall-factoren worden geminimaliseerd en hebben geen effect op de scores.

3. De betrouwbaarheidscoëfficiënt die door deze methode wordt verkregen, is een maat voor zowel de temporele stabiliteit als de consistentie van de respons op verschillende itemmonsters of testvormen. Deze methode combineert dus twee soorten betrouwbaarheid.

4. Nuttig voor de betrouwbaarheid van prestatietests.

5. Deze methode is een van de geschikte methoden om de betrouwbaarheid van educatieve en psychologische tests te bepalen.

beperkingen:

1. Het is moeilijk om twee parallelle vormen van een test te hebben. In bepaalde situaties (bijv. In Rorschach) is het bijna onmogelijk.

2. Wanneer de tests niet precies gelijk zijn in termen van moeilijkheidsgraad, lengte, kan de vergelijking tussen twee sets scores verkregen uit deze tests leiden tot onjuiste beslissingen.

3. Oefen- en overdrachtsfactoren kunnen niet volledig worden beheerst.

4. Bovendien zorgt het gelijktijdig toedienen van twee vormen voor verveling. Dat is de reden waarom mensen de voorkeur geven aan dergelijke methoden waarbij slechts één toediening van de test vereist is.

5. De testvoorwaarden tijdens het toedienen van formulier B zijn mogelijk niet hetzelfde. Bovendien hebben de teelballen op beide momenten van toediening mogelijk niet dezelfde fysieke, mentale of emotionele toestand.

6. Testscores van de tweede vorm van de test zijn over het algemeen hoog.

Hoewel moeilijke, zorgvuldig en voorzichtig geconstrueerde parallelle vormen ons redelijkerwijs een bevredigende mate van betrouwbaarheid zouden geven. Voor goed gemaakte gestandaardiseerde tests is de methode met parallelle vormen meestal de meest bevredigende manier om de betrouwbaarheid te bepalen.

3. Gesplitste-halve methode of onderverdeelde testmethode:

Split-half methode is een verbetering ten opzichte van de eerdere twee methoden, en het gaat zowel om de kenmerken van stabiliteit en gelijkwaardigheid. De hierboven besproken twee methoden voor het schatten van betrouwbaarheid lijken soms moeilijk.

Het is misschien niet mogelijk om dezelfde test twee keer te gebruiken en om een ​​equivalente testvorm te krijgen. Om deze problemen te overwinnen en om het geheugeneffect te verminderen en om de test te bezuinigen, is het daarom wenselijk de betrouwbaarheid te schatten door een enkele toediening van de test.

Bij deze methode wordt de test eenmaal op het monster toegediend en is het de meest geschikte methode voor homogene tests. Deze methode biedt de interne consistentie van een testscores.

Alle items van de test zijn over het algemeen gerangschikt in oplopende volgorde van moeilijkheid en worden eenmaal op monster toegediend. Na toediening van de test wordt deze verdeeld in twee vergelijkbare of vergelijkbare of gelijke delen of helften.

De scores zijn gerangschikt of zijn gemaakt in twee sets verkregen uit oneven aantallen items en zelfs aantallen items afzonderlijk. Als voorbeeld wordt een test van 100 items toegediend.

De scores van individuen op basis van 50 items van oneven getallen als 1, 3, 5, .. 99 en scores op basis van even nummers 2, 4, 6 ... 10 zijn afzonderlijk gerangschikt. In deel 'A' worden oneven nummers toegewezen en deel 'B' zal bestaan ​​uit even aantal items.

Na het behalen van twee scores op oneven en even aantallen testitems, wordt de correlatiecoëfficiënt berekend. Het is echt een correlatie tussen twee equivalente helften van scores verkregen in een vergadering. Om de betrouwbaarheid te schatten, wordt Spearman-Brown Prophecy-formule gebruikt.

De Spearman-Brown-formule wordt gegeven door:

waarin r 11 = de betrouwbaarheid van de hele test.

r 11/22 = de correlatiecoëfficiënt tussen twee halve testen.

Voorbeeld 1:

Een test bevat 100 items. Al deze items zijn gerangschikt in volgorde van moeilijkheidsgraad, van de eerste tot de honderdste. Studenten beantwoorden de test en de test wordt gescoord.

De scores worden door de studenten verkregen in oneven aantal items en zelfs het aantal items wordt afzonderlijk opgeteld. De correlatiecoëfficiënt die tussen deze twee sets scores wordt gevonden, is 0, 8.

De betrouwbaarheid van de hele test (of)

Bij gebruik van deze formule moet in gedachten worden gehouden dat de variantie van oneven en even helften gelijk moet zijn, dat wil zeggen

Als het niet mogelijk is, kunnen de formules van Flanagan en Rulon worden gebruikt. Deze formules zijn eenvoudiger en omvatten geen berekening van de correlatiecoëfficiënt tussen twee helften.

voordelen:

1. Hier herhalen we de test niet of gebruiken we de parallelle vorm ervan en dus wordt de testee niet twee keer getest. Als zodanig is het overdrachteffect of oefeneffect er niet.

2. Bij deze methode worden de fluctuaties van het individuele vermogen, vanwege de omgevings- of fysieke omstandigheden, geminimaliseerd.

3. Door een enkele toediening van de test interfereren de dagelijkse functies en problemen niet.

4. Moeite met het bouwen van parallelle vormen van testen is geëlimineerd.

beperkingen:

1. Een test kan op verschillende manieren in twee gelijke helften worden verdeeld en de correlatiecoëfficiënt kan in beide gevallen verschillen.

2. Deze methode kan niet worden gebruikt voor het schatten van de betrouwbaarheid van snelheidstests.

3. Aangezien het meestal éénmaal wordt toegediend, kunnen de kansfouten de scores op de twee helften op dezelfde manier beïnvloeden en daardoor de betrouwbaarheidscoëfficiënt te hoog maken.

4. Deze methode kan niet worden gebruikt bij vermogenstests en heterogene tests.

Ondanks al deze beperkingen wordt de split-half-methode beschouwd als de beste van alle methoden voor het meten van de testbetrouwbaarheid, omdat de gegevens voor het bepalen van de betrouwbaarheid soms worden verkregen en dus de tijd, arbeid en moeilijkheden in geval van een tweede of herhaalde toediening.

4. Methode van rationele gelijkwaardigheid:

Deze methode staat ook bekend als "Kuder-Richardson Betrouwbaarheid" of "Inter-Item Consistentie". Het is een methode op basis van één administratie. Het is gebaseerd op consistentie van reacties op alle items.

De meest gebruikelijke manier om consistentie tussen items te vinden, is door de formule die is ontwikkeld door Kuder en Richardson (1937). Met deze methode kan de onderlinge correlatie van de items van de test en de correlatie van elk item met alle items van de test worden berekend. J. Cronbach noemde het coëfficiënt van interne consistentie.

Bij deze methode wordt aangenomen dat alle items dezelfde of een gelijke moeilijkheidswaarde hebben, de correlatie tussen de items gelijk is, alle items in essentie hetzelfde vermogen meten en de test homogeen van aard is.

Net als de split-half-methode biedt deze methode ook een mate van interne consistentie.

De meest populaire formule is Kuder-Richardson, oftewel KR-21, die hieronder wordt weergegeven:

q = - p

p = 1 - q

Een voorbeeld helpt ons om p en q te berekenen.

Voorbeeld 2:

60 studenten verschenen een test en van hen hebben 40 studenten een correct antwoord gegeven op een bepaald item van de test.

p = 40/60 = 2/3

Dit betekent dat een gedeelte van de studenten correct antwoord heeft gegeven op een bepaald item van de test. In welke 20 studenten een onjuist antwoord op dat item hebben gegeven.

Dus q = 20/60 of 1 - 40/60

Voor elk item moeten we de waarde van p en q achterhalen en dan wordt pq over alle items gesommeerd om Σpq te krijgen. Vermenigvuldig p en q voor elk item en som voor alle items. Dit geeft Σpq.

voordelen:

1. Deze coëfficiënt geeft enkele aanwijzingen over hoe intern consistent of homogeen de items van de tests zijn.

2. Rationele gelijkwaardigheid is superieur aan de halve techniek in bepaalde theoretische aspecten, maar het feitelijke verschil in betrouwbaarheidscoëfficiënten dat door de twee methoden wordt gevonden, is vaak te verwaarlozen.

3. Split-half-methode meet eenvoudigweg de gelijkwaardigheid, maar de rationele-equivalentiemethode meet zowel de gelijkwaardigheid als de homogeniteit.

4. Economische methode omdat de test eenmaal wordt toegediend.

5. Het vereist geen toediening van twee equivalente testvormen noch vereist het om de tests in twee gelijke helften te splitsen.

beperkingen:

1. De met deze methode verkregen coëfficiënt is over het algemeen iets minder dan de coëfficiënten die door andere methoden worden verkregen.

2. Als de items van de tests niet erg homogeen zijn, levert deze methode een lagere betrouwbaarheidscoëfficiënt op.

3. Kuder-Richardson en split-half methode zijn niet geschikt voor snelheidstest.

4. Verschillende KR-formule levert verschillende betrouwbaarheidsindex op.