Het nut van een selectie-instrument in industrieën bepalen

Het nut van een voorspellingsapparaat is de mate waarin het gebruik ervan de kwaliteit verbetert van de mensen die worden geselecteerd, meer dan wat er zou zijn gebeurd als dat apparaat niet was gebruikt. Geldigheid en betrouwbaarheid, die beide een belangrijke rol spelen bij het bepalen van het nut van een selectie-instrument. Daarnaast zijn er echter verschillende andere factoren die even kritisch zijn bij het bepalen van het nut in elke situatie waarbij sprake is van groepsselectie.

Deze extra variabelen zijn:

(1) Criteriumbetrouwbaarheid,

(2) Criteriumrelevantie,

(3) De selectieratio, en

(4) Het percentage huidige werknemers dat als succesvol wordt beschouwd.

De lezer moet er rekening mee houden dat groepsvoorspelling het proces is om systematisch een deelsteekproef te selecteren van aanvragers die meer geneigd zijn om gemiddeld te slagen dan de groep als geheel of een subgroep die willekeurig uit het geheel is geselecteerd. Dit verschilt van het proces van individuele voorspelling waarbij het gaat om het voorspellen van de kans op succes van een bepaalde persoon in plaats van een groep personen.

Er zijn natuurlijk selectiesituaties die zowel groeps- als individuele aspecten van selectie betreffen. Een voorbeeld is een selectieprogramma dat wordt gebruikt door de marine van de Verenigde Staten bij de selectie van vluchtcadetten. De marine gebruikt groepsvoorspellingstechnieken voorafgaand aan en tijdens de verschillende fasen van vliegtraining.

Daarnaast is het ook noodzakelijk dat voorspellingen worden gedaan voor een specifieke cadet en zijn individuele kans op succes in het programma. De behoefte aan deze laatste soorten voorspellingen komt voor wanneer het record van een cadet tijdens de training slecht genoeg was om hem voor een beoordelingsbord te brengen. Voor dit marine-programma worden dezelfde basisvoorspellers gebruikt voor zowel de groep als de individuele voorspellingen.

Voorspelor Geldigheid:

De primaire statistische index die de bruikbaarheid van een voorspellingsinstrument beïnvloedt, is de geldigheid ervan. Hoewel zal worden aangetoond dat lage en zelfs nulgeldigheidssituaties nog steeds kunnen resulteren in behoorlijk geslaagde selectie onder speciale omstandigheden, blijft de geldigheidscoëfficiënt de centrale variabele in selectie. Neem ter illustratie de diagrammen in figuur 2.10, waarin twee verschillende relaties met de voorspeller-criterium worden getoond, één met een geldigheid van 0, 00 en de ander met een geldigheid van 0, 70. In beide gevallen is een cut-off score op de voorspeller vastgesteld die ons in staat stelt om de top 50 procent van de mensen die de test doen te nemen.

Welke voorspeller resulteert in de grootste toename van de gemiddelde criteriumscore van de geselecteerde groep ten opzichte van wat is bereikt met eerdere methoden (dat wil zeggen willekeurige selectie)? Als we eerst naar voorspeller A kijken in termen van hoe de mensen alleen op de criteriumdimensie worden gedistribueerd, merken we dat de gemiddelde criteriumscore van de "geaccepteerde" groep exact dezelfde is als die van de "afgewezen" groep. Dat wil zeggen, de mensen die worden geaccepteerd door de bovenste helft van de scores op test A te nemen, hebben meestal geen hogere criteriumscores dan de laagste 50 procent van de scoorders op test A, zoals weergegeven in figuur 2.11.

Als we echter naar voorspeller B kijken, krijgen we een heel ander beeld. We kunnen meteen zien dat die mensen boven de grens het criterium beter lijken te doen dan degenen onder de grens. Dat wil zeggen, de mensen boven de grens hebben een hogere gemiddelde criteriumscore dan de onderstaande. Dit wordt getoond in Figuur 2.12, die opnieuw de drie distributies van criteriumwaarden toont.

Zo lijken we ons eerste algemene principe in testnut te hebben: gegeven elke willekeurig gedefinieerde afsluiting van een test, hoe hoger de geldigheid, hoe groter de toename van de gemiddelde criteriumscore voor de geselecteerde groep ten opzichte van die waargenomen voor de totale groep.

Met andere woorden, het verschil:

(X _{geselecteerde groep} ) - (X _{totale groep} )

zal toenemen in directe verhouding tot de testvaliditeit. Inderdaad kan algebraïsch worden aangetoond dat dit zo is (later zullen we bepaalde uitzonderingen op dit eerste principe zien). Onlangs hebben Naylor en Shine (1965) een reeks tabellen gepubliceerd die een eenvoudige berekening bieden van de toename van de gemiddelde criteriumscore die zal worden behaald met elke test, aangezien de testvaliditeit en het testafsluitingpunt kunnen worden gespecificeerd. Deze tabel staat in de appendix, samen met uitleg en voorbeelden van het gebruik ervan.

Selectieverhouding en percentage succesvolle werknemers:

Twee andere variabelen die een belangrijke rol spelen bij het bepalen van de bruikbaarheid van een voorspeller, zijn de selectieratio en het percentage huidige werknemers dat als succesvol wordt beschouwd. De lezer zal zich herinneren dat de bruikbaarheid van een voorspeller werd gedefinieerd als de verbetering in kwaliteit van de hires verkregen met behulp van een voorspellingsapparaat in vergelijking met de huidige selectiemethoden.

Kwaliteit wordt meestal gedefinieerd in termen van (1) de gemiddelde criteriumscore van de groep, of (2) in termen van het deel van de mensen in die groep dat criteriumscores heeft boven een waarde die als minimaal wordt beschouwd, zodat iemand wees een succesvolle werknemer. Voor elke gegeven verkregen geldigheidscoëfficiënt tussen criterium en de voorspeller, zal een manipulatie van ofwel de selectieratio en / of een verandering in het percentage van huidige werknemers dat als succesvol wordt beschouwd resulteren in duidelijke veranderingen in de resulterende kwaliteit van de ingehuurde (geselecteerde) werknemers.

Selectieverhouding:

Eenvoudig beschreven, kan de selectieverhouding (SR) worden uitgedrukt als:

n / N = SR

Waarbij n = aantal vacatures

N = aantal sollicitanten beschikbaar voor plaatsing

Als de SR gelijk is aan of groter is dan 1, 00, heeft het gebruik van een selectie-apparaat weinig zin. Met meer vacatures dan sollicitanten, bevindt de aanvrager zich op de markt van een verkoper waar het bedrijf zijn diensten mogelijk moet kopen, ongeacht zijn kwaliteit. Als de SR echter minder dan 1, 00 is, zijn er meer sollicitanten dan functies en is de werkgever in staat om selectief te zijn in termen van wie hij inhuurt.

De manier waarop de SR het selectieproces kan beïnvloeden kan het beste worden aangetoond door te verwijzen naar Figuur 2.13. In figuur 2.13a wordt een spreidingsdiagram van scores weergegeven dat ongeveer de vorm is die kon worden verwacht bij een grote steekproef van personen en een correlatie tussen voorspeller en criterium van 0, 70 (hoe hoger de correlatie, hoe dichter de spreidingsplot is nadert een rechte lijn, hoe lager de correlatie, hoe dichter de spreidingsplot een cirkel nadert). Het deel van het ovaal dat gearceerd is, vertegenwoordigt het aandeel aanvragers dat daadwerkelijk is aangenomen, namelijk de SR. In figuur 2.13a wordt een SR van 100 gepresenteerd; er is een vacature voor elke sollicitant, dus alles wordt ingehuurd.

In deel b van figuur 2.13 zien we wat er gebeurt met de gemiddelde kwaliteit van degenen die worden ingehuurd als de SR 0.80 wordt. Aangezien er slechts banen zijn voor 80 procent van de aanvragers, zal de werkgever logischerwijze de 80 procent huren met de hoogste voorspellerscores, aangezien de voorspeller sterk gerelateerd is aan de daaropvolgende prestatiecriteria.

Deze 80 procent wordt vertegenwoordigd door het gearceerde gebied van het ovaal dat rechts van het afgesneden punt op de voorspeller valt. Omdat die worden geëlimineerd hebben over het algemeen lage criteriumscores, is het gemakkelijk om te zien hoe de gemiddelde criteriumscore voor mensen met een SR van 0, 80 hoger is dan wanneer een willekeurige groep sollicitanten op banen werd geplaatst zoals in Figuur 2.13a. Deze toename in gemiddelde kwaliteit wordt nog dramatischer weergegeven in Afbeelding 2.13c, die een SR van 0.20 illustreert. Geconfronteerd met een situatie waarin er tien sollicitanten zijn voor elke twee banen, is de werkgever "behoorlijk aan het zitten" - hij kan nu de top 20 procent van de artiesten selecteren. Deze personen worden weergegeven door het gearceerde gebied van het ovaal dat rechts van de afsnijding valt in figuur 2.13c. Het verschil in de gemiddelde kwaliteit van de criteriumscore voor deze geselecteerde subgroep in tegenstelling tot die van de hele groep is erg groot. De voordelen voor de werkgever in termen van dollars in deze situatie moeten zeker aanzienlijk zijn.

Het algemene principe dat een lagere selectieratio altijd zal resulteren in werknemers met een hogere kwaliteit, geldt zolang de relatie tussen de voorspeller en het criterium een waarde groter is dan nul (negatieve of positieve r's zijn even effectief als ze van gelijke omvang zijn) . In feite kan worden aangetoond dat het principe van de selectieverhouding in sommige gevallen effectief kan worden gebruikt, zelfs als alle aanvragers moeten worden ingehuurd. Dit kan gebeuren als er ten minste twee taken zijn, elk met een aantal openingen en elk een eigen voorspeller heeft met meer dan nul validiteit.

Percentage van huidige werknemers die succesvol zijn:

In onze discussie over validiteit en de SR hebben we tot nu toe aangenomen dat het criterium continu is en dus hoe hoger de criteriumscore, des te bevredigender wordt de werknemer geacht te zijn. Laten we eens aannemen dat er een criteriascore bestaat die bepaalt of een werknemer tevreden of onbevredigend is, dat wil zeggen, als hij boven een norm presteert, wordt hij als bevredigend beschouwd en als hij onder deze norm presteert, wordt hij als onbevredigend beschouwd. De diagrammen in figuur 2.14 illustreren dit.

In deel a wordt een relatie van ongeveer 0, 70 tussen het criterium en de voorspeller getoond. Merk op dat de horizontale lijn, die de criterium-cut-off wordt genoemd, alle werknemers in twee groepen verdeelt: diegenen die als succesvol worden beschouwd en die als niet succesvol worden beschouwd. Zo'n afsnijding zal natuurlijk nogal willekeurig van aard moeten zijn. In veel gevallen is het echter niet zo moeilijk om tot enige consensus te komen over minimaal aanvaardbare prestaties.

Deel b van figuur 2.14 toont dezelfde gegevens met een predictor-cut-off op basis van een selectieverhouding van ongeveer 0, 5. Het laatste deel van de figuur toont beide cut-offs samen. Wanneer op deze wijze gecombineerd, wordt het mogelijk om onderscheid te maken tussen de verschillende subgedeelten van de gegevens die worden gevormd door de kruising van de twee afsnijlijnen.

Deel A. De aanvragers die zich rechts van de testscore-grens bevinden en boven de criteriumafsluiting worden echte positieven genoemd. Zij zijn degenen die volgens de test succesvol moeten zijn en die inderdaad volgens het criterium succesvol zullen zijn. Ze vertegenwoordigen de juiste beslissingen op basis van de test.

Deel B. Dit segment omvat de aanvragers die scores hebben die lager zijn dan de voorspeller-cut-off en onder de criterium-cut-off. De echte negatieven genoemd, deze aanvragers, net als de echte positieven, vertegenwoordigen de juiste beslissingen op basis van de voorspeller.

Deel C. Deze aanvragers hebben scores onder de grenswaarde voor de voorspeller maar boven de drempelwaarde voor het criterium. Deze mensen zouden niet worden ingehuurd als wervingsbeslissingen op de test waren gebaseerd, ondanks het feit dat hun uiteindelijke criteriascore hoog genoeg was om hen in de bevredigende categorie te plaatsen. Dit is een soort fout of fout die optreedt bij het testen en wordt nep-negatieven genoemd.

Deel D. Het laatste segment van het ovaal bestaat uit sollicitanten die zouden worden aangenomen, maar vervolgens achteraf niet tevreden zouden zijn met hun werk. Deze personen vertegenwoordigen ook "fouten" in het selectieproces en staan bekend als valse positieven.

Verschillende betekenisvolle verhoudingen kunnen worden geconstrueerd met behulp van de verschillende delen van figuur 2.14c. Bijvoorbeeld,

(1) C + D / A + B

Dit is een verhouding van het aantal fouten in selectie tot het aantal correct geplaatste werknemers. De grootte van deze verhouding is afhankelijk van alle drie de variabelen: de locatie van de criteriumuitsluiting, de locatie van de predicaatuitschakeling en de geldigheidscoëfficiënt. Niet alleen is de omvang van deze verhouding beïnvloed door deze variabelen, maar ook de relatieve omvang van de twee soorten fouten, C en D. Gewoonlijk is de werkgever meer bezig met het minimaliseren van valse positieven dan dat hij zich zorgen maakt over het aantal valse negatieven .

Dit wordt vaak aangegrepen door diegenen die tegen testen zijn, omdat het een van de grootste kwaden is van wetenschappelijke selectie via tests, namelijk dat sommige mensen worden afgewezen die succesvol zouden zijn in hun baan als ze de kans krijgen om zichzelf te bewijzen. De lezer zal voor zichzelf de voor- en nadelen van dit probleem moeten bespreken - de auteurs wijzen alleen op de moeilijkheid.

De auteurs haasten zich echter om toe te voegen dat industriële psychologen net zo sociaal kunnen denken als hun critici. Industriële psychologen hebben over het algemeen de data om het hele verhaal te vertellen, terwijl sommige critici zonder enige gegevens slechts "huilen" over één fout.

Een andere belangrijkheidsverhouding wordt gegeven door

(2) A + C / A + B + C + D = procent momenteel succesvol

Dit vertegenwoordigt het percentage van de huidige werknemers die tevredenstellend zijn. Het is een basispercentage dat de mate van succes uitdrukt die wordt verkregen met welke selectiemethode ook werd gebruikt voorafgaand aan de introductie van de voorspeller. De derde verhouding,

(3) A / A + D = percentage succesvol met behulp van voorspeller is een uitdrukking van het aandeel ingehuurde kandidaten dat succesvol zal zijn als men de voorspeller gebruikt als hulpmiddel bij de selectie, samen met de methoden die momenteel worden gebruikt. In de mate dat (3) groter is dan (2), voegt de predictor iets toe aan het selectieproces.

Bij het vergelijken van de relatieve grootte van (2) en (3) kunnen enkele algemene principes worden genoemd:

1. Voor elke specifieke geldigheids- en criteriumafsluiting zal een vermindering van de SR leiden tot een toename van de effectieve geldigheid. Zo kan men de lage statistische validiteit compenseren als men selectief kan zijn bij zijn aanwervingen.

2. Voor een bepaalde statistische validiteit en selectieverhouding geldt dat hoe kleiner het percentage huidige werknemers als bevredigend wordt beschouwd, hoe groter het percentage toename van tevredenstellende aanvragers verkregen met behulp van de voorspeller. Met andere woorden, als we het verschil tussen verhoudingen (2) en (3) als definiëren

Nut = A + C - A + C / A + B + C + D = procent toename effectiviteit

Als effectiviteit wordt gedefinieerd als het percentage successen dat wordt gebruikt, wordt het grootste voordeel behaald onder de omstandigheden waarin het slechtste werk wordt gedaan, een logisch gevolg. Er zijn natuurlijk uitzonderingen. Overweeg bijvoorbeeld figuur 2.15.

Let op uit figuur 2.15 dat het niet uitmaakt welke van de drie verschillende selectieverhoudingen die men gebruikt, 100 procent van alle ingehuurde sollicitanten uiteindelijk als voldoende zal worden beoordeeld. Dus hier is één situatie waarbij grote veranderingen in de selectieverhoudingen geen consequenties hebben.

Taylor-Russell Tafels:

Een gedetailleerde uitdrukking van de exacte relaties tussen de grootte van de geldigheidscoëfficiënt, de selectieratio en het percentage momenteel bevredigende werknemers is opgesteld door Taylor en Russell (1939). Onder gegeven geldigheidsvoorwaarden, selectieverhouding en tevredenstellend percentage, laten hun tabellen toe om het percentage van aanstellingen te bepalen dat bevredigend zal zijn met behulp van de voorspeller in samenhang met de huidige werkwijzen.

De Naylor-Shine-tabellen die worden besproken in de sectie over de geldigheid van voorspellers, lijken echter verschillende voordelen te hebben ten opzichte van de Taylor-Russell-tabellen. De Naylor-Shine-tabellen zijn geformuleerd in termen van verschillen in gemiddelde criteriumscore tussen de geselecteerde groep en de oorspronkelijke groep; Taylor en Russell gebruiken verschillen in het percentage succesvol tussen de geselecteerde groep en de oorspronkelijke groep.

De Naylor-Shine-tabellen lijken dus een zinvollere index van testnut te geven. Ook vereist het gebruik van de Taylor-Russell-tabellen dat de werknemers in twee groepen worden verdeeld, 'succesvol' en 'mislukt', door een willekeurig punt op de criteriatiedimensie te selecteren dat 'minimaal bevredigende prestaties' vertegenwoordigt. De Naylor-Shine-tabellen vereisen geen enkele beslissing van dit soort voor hun gebruik en zijn daarom meer algemeen van toepassing.

Een opmerking van voorzichtigheid. Zowel de Naylor-Shine-tafels als de Taylor-Russell-tafels hebben bepaalde beperkingen die erg belangrijk zijn. Beide methoden voor het evalueren van het testhulpprogramma zijn gebaseerd op de veronderstellingen dat (1) de relatie tussen voorspeller en criterium lineair is, en (2) de gebruikte geldigheidscoëfficiënt die is verkregen door gelijktijdige validiteitsprocedures.

Smith (1948) en anderen hebben gewezen op de gevaren die bestaan als men tabellen zoals Taylor en Russell probeert te gebruiken onder omstandigheden waarbij de relatie niet lineair is tussen de voorspeller en het criterium. Een dergelijke relatie wordt getoond in figuur 2.16. Wanneer dergelijke niet-lineaire relaties bestaan, zijn beide tabellen volledig ongeschikt voor het bepalen van het testhulpprogramma.

Het feit dat beide tabellen uitgaan van een geldigheidscoëfficiënt op basis van gelijktijdige validatieprocedures, kan een verrassing zijn, omdat eerder werd opgemerkt dat concurrentgeldigheid geen bijzonder goed alternatief was voor voorspellende validiteit. Testprogramma houdt echter het bepalen in van de toename van de gemiddelde criteriumscore (Naylor-Shine-tabellen) of het percentage succesvolle werknemers (Taylor-Russell-tabellen) in vergelijking met het huidige aantal huidige werknemers. De basis spreidingsplot is gebaseerd op huidige werknemers ingehuurd door de normale selectieprocedures - het typische paradigma voor gelijktijdige validiteit.

Betrouwbaarheid van Predictor en Criterium:

Betrouwbaarheid van het criterium en van de voorspeller zijn ook belangrijk, vooral omdat ze de grootte van de geldigheidscoëfficiënt die kan worden verkregen beïnvloeden of beperken. Er is een elementaire algebraïsche relatie die bestaat tussen validiteit en de betrouwbaarheid van de voorspeller en het criterium dat dat is

r _pc (verkregen) = r _pc (waar) √r _pp xr _cc

Waar

r _pc (verkregen) = waargenomen correlatie (geldigheid) tussen de voorspeller en het criterium

r _pc (true) = "echte" correlatie (geldigheid) tussen de voorspeller en het criterium

r _pp = betrouwbaarheid van de voorspeller

r _cc = betrouwbaarheid van criterium

Bemerk van de bovenstaande relatie dat alleen als r _pp en r _pcc eenheid zijn (perfecte betrouwbaarheid) de verkregen validiteit gelijk zal zijn aan de ware geldigheid. Naarmate de betrouwbaarheid van de twee meetwaarden afneemt, neemt ook de verkregen validiteit af. Stel bijvoorbeeld dat r _{pc (true)} = 0.06, r _pp = r _pcc = 0.08, dan r _{pc (verkregen)} = 0.06 √0.80 x 0.80 = 0.60 (0.80) = 0.48. Merk ook op dat als de betrouwbaarheid van de voorspeller of het criterium nul is, de validiteit ook nul zal zijn.

Criterium Relevantie:

De relevantie van een criterium heeft weinig te maken met de feitelijke empirische bruikbaarheid van een voorspellingsinstrument, hoewel het veel te maken heeft met het logische nut ervan.