Vereisten van industriële voorspellers: validiteit en betrouwbaarheid

De twee belangrijkste vereisten voor elke voorspeller zijn validiteit en betrouwbaarheid. In de industriële omgeving bestaan verschillende soorten of typen geldigheid, hoewel degene die de meeste voorkeur heeft, voorspellende geldigheid wordt genoemd. Er zijn ook verschillende soorten betrouwbaarheidsmaatregelen. De bezorgdheid over betrouwbaarheid en validiteit is niet beperkt tot voorspellers, maar is ook van toepassing op criteria.

geldigheid:

De geldigheid van een voorspeller kan over het algemeen worden gedefinieerd als de mate waarin de voorspeller bepaalde doelen van de gebruiker bereikt door te meten wat wordt verondersteld te worden gemeten. De specifieke soort van geldigheid hangt dus af van het specifieke doel van de gebruiker in elke situatie.

Voorspellende geldigheid:

Het doel van de gebruiker is om zijn meetinstrument te gebruiken om de toekomstige prestaties van werknemers op een andere variabele (criterium) te voorspellen. Voorspellende validiteit wordt statistisch vastgesteld door middel van correlatie en regressie. Het belangrijke onderscheid tussen predictieve validiteit is er een van een tijddement. Predictorscores worden op een bepaald moment verkregen op individuen (bijv. Huurperiode) en criteriumscores worden op een later tijdstip (bijvoorbeeld aan het einde van zes maanden) verkregen.

De resulterende relatie vertegenwoordigt dus echt de "voorspellende" kracht van het instrument. Voorspellende validiteit is het belangrijkste type geldigheid in selectie, aangezien dit het enige type is dat de selectiesituatie echt dupliceert. Een andere naam die soms wordt gebruikt voor voorspellende validiteit is de validiteit van de follow-up.

Concurrente validiteit:

Het doel hier, althans in theorie, zou moeten zijn om de huidige prestaties van werknemers op een of andere criteriummaat te schatten op basis van scores op de voorspeller. Concurrent validiteit wordt ook vastgesteld met behulp van correlatie- en regressietechnieken, maar zonder tijdsvertraging tussen het verkrijgen van voorspellings- en criteriumscores. Een steekproef van huidige werknemers wordt gebruikt om de relatie tussen de voorspeller en het criterium vast te stellen, en vervolgens kan de resulterende regressie worden toegepast door voorspellingsscores te verkrijgen voor de resterende functiehouders.

Met andere woorden, we zijn geïnteresseerd in het voorspellen van de huidige status van mensen, niet hun status op een later tijdstip. Het is uitermate belangrijk om erop te wijzen dat hoge concurrente validiteit niet garant staat voor een hoge voorspellende waarde. Helaas wordt concurrentiegelijkheid te vaak gebruikt in de industrie als een vervanging voor voorspellende validiteit.

Het management is soms niet bereid om te wachten op de tijd die de voorspellende methode vereist, en beseft misschien niet dat huidige werknemers een fundamenteel andere populatie van werknemers van sollicitanten kunnen vertegenwoordigen. Werknemers die op dit moment in dienst zijn, hebben de screening overleefd, zowel bij indiensttreding als bij continuïteit, en de armere werknemers die zijn aangenomen, zijn mogelijk vrijwillig of op verzoek vertrokken. Dit maakt het erg moeilijk om gelijktijdige validaties te generaliseren naar een voorspellende validiteitssituatie.

Inhoudsvaliditeit:

Wanneer de validator aanneemt dat zijn voorspeller representatief is voor een bepaalde klasse van situaties, is hij betrokken bij inhoudvaliditeit. Hij heeft een specifiek idee over het soort kennis, vaardigheden, houding of prestaties dat door het meetinstrument moet worden afgetapt, en hij beschouwt het instrument als geldig in de mate dat de inhoud ervan representatief is voor wat hij wil aanboren. Inhoudsvaliditeit is over het algemeen niet meetbaar in statistische of kwantitatieve zin.

Men vindt het grootste gebruik van de inhoudvaliditeit bij gebruikers van prestatietests, zoals eindexamens in een hbo-opleiding. Een eindexamen kan alleen worden beschouwd als inhoudsvaliditeit als het voldoende wordt weergegeven (bemonsterd), in termen van de items, de inhoud van de cursus. Als het geen dekking van cursusmateriaal zou zijn, zou het zeker niet als een geschikte test kunnen worden beschouwd om te gebruiken voor een eindexamen, dat wil zeggen, het zou geen inhoudgeldigheid hebben.

Construct Validity:

Met dit type geldigheid wenst de gebruiker de mate af te leiden waarin de personen die worden geëvalueerd over een eigenschap of kwaliteit (constructie) beschikken waarvan wordt aangenomen dat ze worden weerspiegeld in de testprestaties. De algemene procedure omvat het toedienen van verschillende testinstrumenten die logisch lijken om hetzelfde construct te meten en vervolgens de relaties tussen deze meetwaarden te observeren. Constructiteitsvaliditeit is in aanzienlijke mate niet gebruikt door de industriële psycholoog; het wordt vaker gebruikt in theoretische dan in pragmatische situaties.

Synthetische geldigheid:

Men zou synthetische validiteit kunnen beschouwen als "veronderstelde" voorspellende geldigheid. Stel dat we een test hebben die in een aantal situaties een hoge voorspellende relatie heeft met verschillende prestatiecriteria van industriële voormannen. Veronderstel verder dat een kleine fabriek een test wil gebruiken bij het selecteren van voormannen, maar te weinig voormannen werken in de fabriek om zelfs een gelijktijdige validiteitsstudie uit te voeren. Deze installatie kan besluiten om de test te gebruiken zonder enige formele statistische evaluatie, ervan uitgaande dat is aangetoond dat het succesvol is in andere, grotere fabrieken.

Deze procedure kan alleen als geldig worden beschouwd als:

(1) De taak van de voorman in deze fabriek is vergelijkbaar met die van de ploegbazen die betrokken zijn bij de statistische evaluatie van de test, en

(2) De aanvragers van de voorman van deze fabriek zijn typisch (komen uit dezelfde populatie) als de aanvragers van de voormannen in de grotere fabrieken. Synthetische validiteit zou alleen in de plaats moeten komen van voorspellende validiteit met het volledige bewustzijn van de mogelijke beperkingen.

Gezichtsgeldigheid:

Een ander soort validiteit die vaak wordt gebruikt om een test te beschrijven, betreft de mate waarin een gebruiker geïnteresseerd is in het "goed" hebben van zijn test voor de testpersoon. Sollicitanten raken vaak van streek als de voorspellingsinstrumenten die ze moeten volgen, weinig of geen verband lijken te houden met de baan waarvoor ze solliciteren. Als iemand bijvoorbeeld mensen selecteert voor een machinistpositie en een test van rekenvaardigheid wordt gebruikt als een voorspeller, moeten de testitems omgaan met getallen die worden toegepast op mechanische problemen in plaats van dat ze in algemenere bewoordingen worden gesteld, zoals het kopen van appels of sinaasappelen.

Als de aanvrager de relevantie van de voorspeller voor de functie waarvoor hij solliciteert niet ziet, zoals vaak gebeurt bij persoonlijkheidstests, kan hij een ernstig verlies in motivatie in de testsituatie ondergaan, spottend worden, of aan de andere kant, onzeker voelen. Dit schaadt niet alleen het selectieprogramma, maar kan ook het imago van het bedrijf schaden en het imago van tests in een industriële omgeving schaden. De auteurs zouden een gissing riskeren dat een deel van de slechte publiciteit die gebruikers van selectie-apparaten in de industrie ontvangen, te wijten kan zijn aan het feit dat de gebruiker de noodzaak voor zijn tests om gezichtsgeldigheid te hebben, over het hoofd ziet.

Leeftijdsbesteding en werkervaring en hun effect op de geldigheid:

Onderzoek naar de prestaties van werknemers bij een bepaalde taak laat vaak een duidelijk verband zien tussen variabelen als leeftijd en ervaring en het criterium. Hoe complexer de taak, hoe meer dit soort relaties waarschijnlijk bestaat. Voor veel banen is een aanzienlijke hoeveelheid ervaring nodig voordat werknemers bekwaam worden in hun werk. De correlatie tussen dit soort variabelen en criteria voor het succes van een baan vormen een serieus probleem bij de selectie. Voorzichtigheid is geboden, vooral als men de gelijktijdige geldigheidsprocedure gebruikt als een middel om het nut van een voorspellingsapparaat vast te stellen.

Als er bijvoorbeeld een hoge correlatie bestaat tussen het criterium en de tijdsduur op het werk, hoe moet dan een hoge concurrentgeldigheidscoëfficiënt worden geïnterpreteerd? Betekent dit dat de voorspeller echt de verschillen in bekwaamheid tussen werknemers weerspiegelt, gemeten aan de hand van het "" criterium, of zijn werknemers verschillen voornamelijk te wijten aan de praktijkervaring? Als dit het laatste is, dan is het enige dat de voorspeller gaat bereiken, het onderscheid maken tussen deze werknemers met een lange ambtstermijn en degenen die recenter zijn aangenomen.

De waargenomen validiteit is over het algemeen een overschatting van de voorspellende efficiëntie van het selectie-instrument. In feite, tenzij men duidelijk kan aantonen dat de voorspeller niet gecorreleerd is met kenmerken zoals leeftijd en ambtstermijn die zelf bepalende factoren kunnen zijn voor de taakuitvoering, moeten alle gelijktijdige validiteiten verkregen met die voorspeller zeer verdacht zijn.

Om dit punt te illustreren, moet de situatie worden beschouwd waarin iemand een criterium, een voorspeller en een criteriegerelateerde variabele heeft, zoals baanbezit, die in grote mate verantwoordelijk is voor de verschillen in vaardigheden die door werknemers op het criterium worden weergegeven, als volgt:

C + D = Waargenomen gelijktijdigheid van predictor

D = Bedrag van "tenure-free" criteriumvariantie verwerkt door de predictor

C = Bedrag van "tenure-defined" criteriumvariantie verwerkt door predictor

De waargenomen validiteit is over het algemeen, maar niet altijd, een overschatting van de ware validiteit, aangezien:

De echte of onbevooroordeelde gelijkheidsvaliditeit, die de correlatie weergeeft tussen voorspeller en criterium die volledig vrij is van de invloed van baanbezit, wordt gegeven door de vergelijking:

De correlatie (r _true ) zoals weergegeven in het diagram geeft op de manier van de afbeelding feitelijk weer wat in de statistiek bekend staat als een "gedeeltelijke" correlatiecoëfficiënt. Het rapporteert de correlatie tussen voorspeller en criterium nadat de effecten van baanbezit zijn verwijderd uit zowel de voorspellingscijfers als de criteriumscores van huidige werknemers. Het is belangrijk dat tenure-effecten worden verwijderd uit zowel criterium als predictor in de concurrente situatie.

Als deze effecten niet statistisch worden verwijderd van het criterium, zullen we uiteindelijk de invloed van tenure voorspellen in plaats van jobprestaties, met weinig of geen relevantie voor predictieve validiteit. Als functiewerkingseffecten niet worden verwijderd uit de voorspeller, kunnen we ook een geldigheidscoëfficiënt verkrijgen die niet relevant kan worden geacht voor een waarheidsgetrouw voorspellende situatie.

Zeker de problemen van criterium en predictor gecorreleerde variabelen in de gelijktijdige instelling illustreren enkele van de ernstige beperkingen die betrokken zijn bij deze methode van validatie. Er kan veilig gesteld worden dat er absoluut geen gelijke vervanging is voor het type geldigheid dat bekend staat als voorspellende waarde bij het construeren en gebruiken van een selectie-instrument.

Betrouwbaarheid:

In algemene termen gaat het geldigheidsconcept over wat wordt gemeten door een meetinstrument. Een tweede en misschien wel even belangrijk kenmerk van voorspellers is de noodzaak om de consistentie van de meetwaarde te kennen, ongeacht wat er wordt gemeten. Anders gezegd, we moeten de mate van stabiliteit van elk meetinstrument vaststellen; de meting verkregen van een voorspeller moet consistent zijn. De mate waarin een meetinstrument consistent of stabiel is en telkens indien nodig dezelfde scores oplevert, wordt gedefinieerd als de betrouwbaarheid van dat testinstrument.

Net als de validiteit wordt betrouwbaarheid meestal gemeten met behulp van de correlatiecoëfficiënt. Aangezien betrouwbare metingen stabiliteit van de ene situatie naar de andere impliceren, moet een betrouwbaar instrument ofwel dezelfde scores of ten minste vergelijkbare classificaties van personen in twee situaties opleveren. Door de correlatie te berekenen, verkrijgen we een wiskundige uitdrukking van de mate waarin dat gebeurt.

Een betrouwbaar meetinstrument is dus een instrument waarop individuen bij herhaalde metingen dezelfde score (of bijna hetzelfde) krijgen. Wanneer de correlatiecoëfficiënt wordt gebruikt om de gelijkenis van scores voor een groep mensen op twee toepassingen van dezelfde meetwaarde te meten, wordt dit een betrouwbaarheidscoëfficiënt genoemd.

Het feitelijke proces waarmee iemand de betrouwbaarheid van een maatregel kan beoordelen, hangt van talrijke factoren af. Er zijn drie belangrijke "soorten" van betrouwbaarheid, die elk hun eigen voor- en nadelen hebben. Ze zijn voldoende verschillend in hun onderliggende logica om elk in detail te onderzoeken.

De drie technieken voor het verkrijgen van instrumentbetrouwbaarheid zijn:

(1) herhaalde maatregelen bij dezelfde personen met dezelfde test of hetzelfde instrument,

(2) meting op dezelfde personen met twee "equivalente" vormen van het meetinstrument, en

(3) Scheiding van de meetinrichting in twee of meer equivalente delen en onderlinge correlatie van deze "deel" -scores.

Alvorens elke methode te overwegen, moeten we op een specifiekere manier bepaalde soorten betrouwbaarheid of stabiliteit van de meting onderzoeken, die we mogelijk onder verschillende omstandigheden zouden interesseren.

Laten we aannemen dat elke keer dat we een meetinstrument gebruiken om de score van een persoon te verkrijgen, de ontvangen score een functie is van verschillende factoren, als volgt:

X _i = X _true + X- _fout

Waar

X _i = Waargenomen score voor persoon i op test

X _true = _juiste score voor persoon i op test-dit is de werkelijke hoeveelheid kwaliteit gemeten door de test die persoon die ik echt bezit.

X- _fout = foutscore voor persoon i op test: dit is het bedrag dat de score van die persoon heeft beïnvloed door het werken met verschillende toevals- of tijdfactoren.

Als alle meetinstrumenten en meetmethoden "foutloos" zouden zijn, dan zouden we altijd de echte scores van mensen verkrijgen, en de correlatie tussen twee metingen op dezelfde groep mensen zou altijd + 1, 00 of perfecte betrouwbaarheid zijn (ervan uitgaande dat er geen verandering is in de echte scores zijn te verwachten). Helaas is zo'n foutloze meting nooit volledig beschikbaar, omdat er een breed scala aan dingen is? Draag op elk moment bij aan de prestaties.

Dus, xi kan groter zijn dan of kleiner zijn dan X _true voor elke specifieke meting, en correlaties berekend tussen metingen zijn altijd kleiner dan één. In termen van onze picturale representatie van de variantie van de prestaties van mensen op een meetinstrument, of het nu een test of interview, voorspeller of criterium is, kan deze totale variantie worden verdeeld in de twee hoofdcomponenten van ware variantie en foutvariantie.

Waar totale variantie = totale variabiliteit van waargenomen testscores

Ware variantie = variabiliteit van mensen in termen van hun ware hoeveelheden van de karakteristiek die wordt gemeten

Foutvariantie = variabiliteit van foutscores van mensen

Betrouwbaarheid kan worden gedefinieerd als een verhouding tussen ware variantie en totale variantie, of

Hoe groter het aandeel van de ware score-variantie, of omgekeerd, hoe kleiner de hoeveelheid foutvariantie aanwezig in het meetproces, hoe groter de betrouwbaarheid van de meting. De kritieke factor die de drie belangrijkste procedures voor het bepalen van de betrouwbaarheid differentieert, is bezig te besluiten wat als foutvariantie moet worden beschouwd en wat als ware of systematische variantie moet worden beschouwd. Er is geen enkele betrouwbaarheid voor een test. Integendeel, de betrouwbaarheid zal afhangen van de behoeften van het moment.

De psycholoog kan bijvoorbeeld een van de volgende soorten vragen over het meetproces stellen:

1. Hoe nauwkeurig kan ik mensen met deze test op elk moment meten?

2. Hoe nauwkeurig zijn de maatregelen die vandaag met deze test worden genomen representatief voor dezelfde personen op een later tijdstip?

3. Hoe nauwkeurig zullen de scores op deze test het ware vermogen van deze mensen zijn voor het kenmerk dat door de test wordt bemonsterd?

Alle drie zijn legitieme betrouwbaarheidsvragen. Elk plaatst echter een enigszins verschillende nadruk op verschillende bronnen van foutvariatie in testscores.

Deze bronnen van foutvariatie zijn uitgedrukt door Thorndike en Hagen (1963) als:

1. Variatie door de test op een bepaald moment

2. Variatie in het individu van tijdsperiode tot tijdsperiode

3. Variatie vanwege de specifieke steekproef van taken die is gekozen om de kwaliteit te vertegenwoordigen die wordt gemeten

Laten we nu elke betrouwbaarheidsmethode onderzoeken, rekening houdend met de foutenbronnen, zodat we kunnen bepalen hoe elke methode elke bron behandelt.

Test-hertest methode:

Een voor de hand liggende methode om de stabiliteit te evalueren bestaat uit het tweemaal meten van dezelfde persoon met hetzelfde meetinstrument. Dit type betrouwbaarheid omvat variantiebronnen 1 en 2 als fout. Dus de resulterende betrouwbaarheid is er een die de stabiliteit meet van de echte score in de tijd. Er zijn talloze problemen met de test-hertest-methode die wordt gecreëerd door de personen tweemaal te laten meten op dezelfde test.

Bijvoorbeeld, tenzij de tijdsperiode tamelijk lang is tussen toedieningen, zal de variabele van een geheugenfactor waarschijnlijk de reacties van mensen op de tweede toediening beïnvloeden. Een andere moeilijkheid is dat variatie als gevolg van de specifieke steekproef van taken of gekozen items wordt behandeld als een systematische variantie die bijdraagt aan de betrouwbaarheid.

Dus elke persoon die toevallig meer antwoorden wist simpelweg omdat een paar van de testitems aangeraakt, bijvoorbeeld, op een hobby van die persoon, zou ook de voorkeur genieten in de tweede administratie omdat dezelfde items, in plaats van een nieuwe steekproef, is gebruikt. Hij zou daarom hoog moeten scoren op beide testen vanwege variantiebron 3 die wordt behandeld als ware variantie.

Parallelle testmethode:

Eén manier om te voorkomen dat foutbron 3 als ware variantie is, is om twee volledig vergelijkbare of "equivalente" vormen van het meetinstrument te gebruiken. Deze twee formulieren moeten zo identiek mogelijk zijn, behalve dat specifieke items of vragen op elk formulier niet hetzelfde zouden zijn, hoewel ze elk een vergelijkbare steekproef van gekozen items zouden vertegenwoordigen. Eén vorm kan onmiddellijk na de andere worden toegediend of ze kunnen met intervallen op afstand worden toegediend, afhankelijk van of men zich bezighoudt met het als foutvariantie opnemen van variantiebron 2.

Dit soort betrouwbaarheid, wanneer tests op afstand worden gebruikt, vertegenwoordigt de meest rigoureuze evaluatie van stabiliteit die kan worden gemaakt. Het is echter vaak onmogelijk of op zijn best extreem moeilijk om alternatieve vormen van een meetinstrument te construeren.

Hoe construeer je twee alternatieve maar equivalente vormen van een maatstaf voor werkprestaties of twee alternatieve vormen van een persoonlijke geschiedenisvorm? In veel gevallen niet zonder aanzienlijke problemen. Dit gebrek aan een echt vergelijkbaar meetinstrument heeft ertoe geleid dat psychologen op zoek zijn naar aanvullende methoden voor het beoordelen van de betrouwbaarheid naast de test-hertest- en parallelvormprocedures.

Onderverdeelde testmethode:

De derde belangrijke betrouwbaarheidsmethode wordt vaak een maat voor de interne consistentie van een meettoestel genoemd. Het geeft een indicatie van de mate waarin mensen hetzelfde scoren, ten opzichte van elkaar, op verschillende onderverdelingen van het totale instrument. Deze methode is waarschijnlijk de meest gebruikte methode om de betrouwbaarheid te meten, omdat het vereist dat slechts één formulier wordt geconstrueerd en toch geen herhaalde toedieningen van die vorm vereist.

De mechaniek is heel eenvoudig. In de meest basale vorm is de interne consistentie methode de parallelle vormen procedure waarbij de parallelle vormen twee helften van dezelfde test zijn. Deze tussentoetsen zijn zo geselecteerd dat ze zo gelijkwaardig mogelijk zijn, hoewel de test vaak eenvoudig in twee helften wordt verdeeld door alle oneven genummerde items in de ene helft en alle even genummerde items in de andere helft te plaatsen. Dit wordt de oneven-even versie van de gedeelde helft techniek genoemd.

Het is belangrijk om te onthouden dat de scheiding van de totale test in equivalente helften alleen optreedt bij het scoren van die test, niet bij het toedienen ervan. Omdat de twee subtests elk slechts half zo lang zijn als het origineel, vertegenwoordigen ze elk een voorbeeld van gedrag dat slechts de helft groter is dan de totale test. Dus de correlatie (betrouwbaarheid) tussen helften is waarschijnlijk een onderschatting van de betrouwbaarheid van scores op basis van de hele test.

Om een schatting te krijgen van wat de betrouwbaarheid van de volledige test is, kan de Spearman-Brown-profetieformule als volgt worden toegepast:

_rtt = 2r _½½ / 1 + r _½½

waar _rtt = betrouwbaarheid van de totale test (geschat)

r _1/2 _1/2 = waargenomen correlatie tussen de twee helften van de test.

Als de waargenomen correlatie tussen de helften bijvoorbeeld 0, 40 was, zou de Prophecy Formula de betrouwbaarheid van de volledige test schatten als:

_rtt = 2 (0.40) / 1 + 0. 40 = 0.80 / 1.40 = 0.57

De methode met de gespleten helft biedt dus een methode voor het schatten van de betrouwbaarheid met een enkele test en een enkele toediening. Er zijn echter bepaalde nadelen aan het gebruik ervan. Wanneer men een test heeft die hoofdzakelijk snelheidsfactoren omvat (zoals bepaalde eenvoudige administratieve tests), geeft de alternatieve halve procedure een onecht hoog resultaat.

Aangezien snelheidstests meestal eenvoudige items betreffen, is het alleen de vraag of daarop werd gereageerd en of ze correct of incorrect waren. Het splitsen van de test op een oneven-even basis zou bijvoorbeeld resulteren in vrijwel identieke scores voor beide helften - dus een hoge positieve correlatie.

Kuder-Richardson-methode:

Een andere versie van de split-half-methode wordt vaak gebruikt voor het meten van de betrouwbaarheid. Gerelateerd aan een statistische techniek die bekend staat als de analyse van variantie, is de meest voorkomende vorm ervan de Kuder-Richardson-procedure. De Kuder-Richardson (KR) -methode is ook een interne consistentiebetrouwbaarheid die in essentie elk testitem als een subtest behandelt, zodat in plaats van twee helften er n subtests zijn, waarbij n het totale aantal items op het meetinstrument is. De KR-techniek komt overeen met het berekenen van alle mogelijke correlaties tussen paren testitems (er zullen n [n - l] / 2 van dergelijke paren zijn), waarbij het gemiddelde van deze items wordt genomen en het resultaat wordt aangepast met behulp van de Spearman-Brown-profetieformule

Waar

_rtt = geschatte betrouwbaarheid van de totale test

r _ii = gemiddelde correlatie tussen items

K = aantal paren items

Net als bij de procedure voor het splitsen van halve formulieren, negeert de Kuder-Richardson-procedure variantbron 2 en is niet geschikt voor snelheidstests.

Een samenvattende vergelijking wordt gegeven in Tabel 2.4. Deze tabel toont de verschillende betrouwbaarheidsmethoden en vergelijkt ze in termen van de soorten variaties die ze bevatten als foutvariantie.