Geforceerde keuzesystemen: gebruikt voor het verkrijgen van functioneringsgesprekken

Een van de meest populaire methoden voor het verkrijgen van functioneringsoordelen is door middel van de techniek die bekend staat als 'gedwongen keuze'. Deze beoordelingsmethode, die voortkwam uit de gebruikelijke problemen bij de ontwikkeling van persoonlijkheidsmeetinstrumenten, werd snel aangepast voor gebruik tijdens de uitvoering taxatie.

Historisch gezien lijkt de methode te zijn ontstaan ​​met Horst in de vroege jaren 1940, en werd ook gebruikt door Wherry op ongeveer dezelfde tijd. De methode is in veel verschillende situaties en voor uiteenlopende doeleinden gebruikt. In een uitstekende kritiek op de gedwongen-keuzemethode vat Zavala (1965, blz. 117) het volgende samen:

De FC-techniek is gebruikt voor het beoordelen van professioneel personeel zoals luchtmachtofficieren en militairen (Gough, 1958; Wherry, 1959), snelwegpolitiepersoneel en politieagenten (Peres, 1959; Stander, 1960), ingenieurs (Lepkowski, 1963), leerkrachten (Leftwich, 1962; Tolle en Murray, 1958) en artsen (Newman en Howell, 1961; Newman, Howell en Harris, 1957). Het FC-concept is ook gebruikt voor het ontwikkelen van tests voor het beoordelen of meten van interesses (Bendig, 1958; Peel, 1961), leiderschap en supervisie (Izard en Rosenberg, 1958; Wollack, 1959) en attitudes van werknemers (Miller en Gekoski, 1959) .

Gordon (1951), Denton (1954) en Hatch (1962) hebben FC-technieken gebruikt om de persoonlijkheid te meten en om empathische maatregelen te verkrijgen. De FC-benadering is ook gebruikt bij problemen met betrekking tot signaaldetecteerbaarheid en auditieve drempels (Lukaszew-ski en Elliott, 1962; Swets, 1959). Blackwell (1952) gebruikte de FC-methode voor de psychofysische meting van sensorische functies. Webster (1959) ontwikkelde een figuurvoorkeurstest met behulp van de FC-techniek.

Bouw van beoordelingsschaal met dwangkeuze:

Guilford (1954, blz. 275) heeft heel duidelijk aangegeven welke stappen moeten worden genomen om een ​​instrument met geforceerde keuze te ontwikkelen, zo duidelijk dat het de moeite waard is om hier te herhalen.

Hij stelt de volgende acht stappen voor:

1. Beschrijvingen worden verkregen van personen die worden erkend als zijnde in de hoogste en laagste extremen van het prestatie-continuüm voor de betreffende groep die moet worden beoordeeld.

2. Beschrijvingen worden geanalyseerd in eenvoudige gedragskwaliteiten, vermeld in zeer korte zinnen of zinsneden of door kenmerknamen, die elementen kunnen worden genoemd die worden gebruikt om items te construeren.

3. Voor elk element worden twee waarden empirisch bepaald: een discriminatiewaarde en een voorkeurswaarde. De discriminatiewaarde is een index van geldigheid, en de voorkeurswaarde is een index van de mate waarin de kwaliteit wordt gewaardeerd door mensen zoals de beoordelaars die het instrument zullen gebruiken.

4. Bij het vormen van een item worden elementen gepaard. Twee uitspraken of termen met ongeveer dezelfde hoge voorkeurswaarde zijn gekoppeld, waarvan er één geldig is en de andere niet. Beide moeten "gezichtsvaliditeit" hebben voor de beoordelaar, dat wil zeggen dat de beoordelaar moet denken dat beide gunstig zijn voor superieure prestaties in de beoordeelde groep. Twee uitspraken of termen met een ongeveer even lage voorkeurwaarde zijn ook gepaard, waarbij de ene geldig is en de andere niet.

5. Twee paar stellingen, een paar met een hoge voorkeurswaarde en een paar met een lage voorkeurswaarde, worden gecombineerd in een tetrad om een ​​item te vormen. De reden voor dit soort combinatie is dat, hoewel de gemiddelde beoordelaar geen bezwaar heeft tegen het kiezen van een van de twee gunstige beschrijvingen voor een persoon die hij kent, hij er soms voor terugdeinst om een ​​van de twee ongunstige beschrijvingen te kiezen. Soms wordt een vijfde, neutrale beschrijving toegevoegd om een ​​pentad te vormen, maar dit komt minder vaak voor.

Een voorbeeld van een tetrad volgt:

zorgeloos

Ernstige-minded

Energiek

Snobistisch

De kenmerken "serieus" en "energiek" zouden dezelfde voorkeurswaarde hebben, omdat ze ongeveer even vaak werden toegepast als gunstige eigenschappen bij het beschrijven van het type personeel voor wie de schaal werd ontwikkeld. Het kenmerk "serieus genomen" bleek echter van toepassing te zijn, aangezien het significant vaker op de groep met een hoog criterium werd toegepast dan op de groep met een laag criterium. De eigenschappen "slordig" en "snobistisch" werden even impopulair bevonden, maar "onzorgvuldig" discrimineert de lage van de hoge criteriumgroep.

6. De instructie aan de beoordelaar is voorbereid. De beoordelaar moet reageren op elke tetrad als een item, zeggende welke van de vier best bij de beoordelaar past en welke van de vier het minst geschikt is.

7. Een experimentele vorm van het instrument wordt uitgeprobeerd in een steekproef waarvoor een extern criterium bestaat, om de antwoorden te valideren wanneer de beschrijvingen zijn opgesteld in deze vorm. Discriminerende responsen worden bepaald en, indien gewenst, worden differentiaalgewichten toegewezen.

8. Een scoringssleutel is bedacht, gebaseerd op de resultaten in stap 7. Gewoonlijk krijgt een geldig gunstig kenmerk dat is gemarkeerd als meest beschrijvend voor de beoordelaar een positief gewicht, ook een geldig, ongunstig kenmerk dat als minst beschrijvend wordt beoordeeld.

Achtergrond:

Natuurlijk is uit de bovenstaande beschrijving de logica van de naam "geforceerde" keuze onmiddellijk duidelijk, doordat de beoordelaar voortdurend wordt gedwongen om te kiezen uit even gunstige (of ongunstige) alternatieven. Dit zou verhinderen dat de beoordelaar opzettelijk alleen de meest gunstige eigenschappen controleert bij het beoordelen van die werknemers aan wie hij misschien een zekere mate van vriendjespolitiek wenst te tonen.

Als hij zijn antwoorden strikt kiest op basis van hoe gunstig ze lijken te zijn, dan zal hij in theorie geen enkele reden hebben om de ene eigenschap boven de andere in een paar te selecteren, omdat ze op deze basis zijn gelijkgesteld. Dus, zijn keuze zou willekeurig zijn en bij toeval, zal hij uiteindelijk de onderscheidende eigenschap halveren.

Aangezien elk tetrad één gunstig paar heeft (met een positieve discriminator erin) en één ongunstig paar (met een, negatieve discriminator erin), zou een willekeurige selectie in elk paar betekenen dat de beoordelaar de neiging zou hebben om een ​​gunstige discriminator te kiezen ongeveer de helft van de tijd en een ongunstige discriminator ongeveer de helft van de tijd.

Een willekeurige of toevalscore zou dus nul zijn (aangenomen dat we een +1 geven voor elke positieve discriminator en een -1 voor elke gecontroleerde negatieve discriminator). In de mate dat de beoordelaar echt probeert een nauwkeurige beoordeling van de werknemer te geven, zal hij geneigd zijn om eigenschappen te selecteren die discrimineren in het positieve paar en niet om kenmerken te selecteren die discrimineren in het negatieve paar (ervan uitgaande dat hij een goede werknemer beoordeelt) .

Als hij een arme werknemer beoordeelt, zou zijn patroon worden omgekeerd omdat hij de neiging zou hebben vaker het onderscheidende kenmerk te selecteren dan het toeval van het negatieve paar en het niet-onderscheidende kenmerk vaker te selecteren dan het toeval in het positieve paar. Goede werkers moeten dus eindigen met hoge positieve scores en arme werknemers met hoge negatieve scores.

Gedwongen keuze indices:

De sleutel tot een succesvolle keuze voor gedwongen keuze ligt in de verschillende soorten indexen die voor elk kenmerk worden verkregen voordat de definitieve versie van de beoordelingsschaal wordt samengesteld.

De verschillende indices zijn als volgt:

A. Discriminerende indices

B. Vergelijking van indexen

1. Voorkeurindex

2. Favourability-index

3. Belangsindex

4. Wenselijkheidsindex

Discriminative Indices:

De discriminerende index is eenvoudigweg een maat voor de mate waarin een eigenschap wordt gevonden om onderscheid te maken tussen goede en arme werknemers. Alle indices die normaal worden gebruikt voor itemanalyse zijn potentieel geschikt om te gebruiken als maatstaven voor trait-criminaliteit, omdat men zich uitsluitend bezighoudt met de validiteit van elk kenmerk bij het voorspellen van hoe goed een werknemer zou kunnen zijn. Voor een bespreking van itemanalysemethoden, raadpleegt u basistekst in psychologische tests.

Gelijkwaardige indices:

De grondgedachte van het gedwongen-keuzesysteem vereist dat eigenschappen zo worden gepaard dat ze even "aantrekkelijk" zijn voor de beoordelaar. Met andere woorden, één eigenschap moet niet meer van een kenmerk bezitten dat ertoe zou leiden dat het over de andere eigenschap wordt gepikt door een beoordelaar die een voorkeur heeft voor het beïnvloeden van zijn antwoorden. Selectie van kenmerken in elk paar is uitsluitend gebaseerd op hun onderscheidende kracht in plaats van in termen van een stereotype van de populatie over de eigenschappen zelf.

We worden meteen geleid naar het probleem om te proberen te bepalen welke soorten eigenschappen van eigenschappen de neiging hebben om de reactie van een beoordelaar te beïnvloeden die zijn antwoorden wil vertekenen.

Vier van dergelijke kenmerken kunnen als potentieel belangrijk worden beschouwd:

1. Voorkeur voor een eigenschap:

Dit kan het best worden gedefinieerd als de algemene tendens voor beoordelaars om het kenmerk met alle mensen te gebruiken, ongeacht of ze goede of arme werknemers zijn. Sisson (1948) definieerde deze eigenschap als "de mate waarin mensen in het algemeen geneigd zijn om dit te gebruiken bij het beschrijven van andere mensen." In zekere zin is de voorkeur van een eigenschap een maat voor het algemeen karakter van een eigenschap in het beschrijvende vocabulaire van beoordelaars. Het gelijktrekken van paren van eigenschappen in termen van hun algemene voorkeur lijkt zeker een logische stap als men probeert vreemde artikeleigenschappen te verwijderen die waarschijnlijk de keuze van een beoordelaar zouden beïnvloeden.

2. Favourability van een eigenschap:

Kenmerken verschillen duidelijk in termen van hun schijnbare gunstigheid wanneer ze als descriptor van mensen worden gebruikt. Zoals gezegd koppelt het format voor gedwongen keuze meestal twee gunstige eigenschappen met twee ongunstige eigenschappen. Het is ook belangrijk dat de twee gunstige eigenschappen even gunstig lijken en de twee ongunstige eigenschappen even ongunstig, of de beoordelaar kan in de verleiding komen om de gunstigste in elk paar te selecteren in een poging om de koers er zo goed mogelijk uit te laten zien.

Trage favourability is waarschijnlijk de meest gebruikte index voor het gelijkstellen van paren van gedwongen keuzes. Het is een index die relatief eenvoudig te verkrijgen is door een aantal beoordelaars elk kenmerk te laten beoordelen in termen van de geschiktheid ervan voor de persoon die het gaat gebruiken om de gemiddelde schaalwaarde te beschrijven en te gebruiken als de gunstigheidsindex.

3. Belangindex:

Deze index is genoemd door Zavala (1965) en is een maat voor "het belang van de verklaring als een kwalificatie voor de betreffende positie" (Zavala, 1965, blz. 118). Deze index erkent dat een persoon met een neiging tot voorkeur meer geneigd is om een ​​specifieke situatie als een referentiekader te gebruiken dan als een meer algemene referentie. Dat wil zeggen, een beoordelaar die een prijs wil zien er goed uitzien, kan eerder geneigd zijn om die specifieke eigenschap te kiezen waarvan hij denkt dat die het belangrijkst is voor de taak in kwestie, dan dat hij die eigenschap kiest die de meest gunstige algemene descriptor is.

De keuze van de beoordelaar voor welk kenmerk het beste is om te gebruiken, is daarom waarschijnlijk specifiek voor een baan. Om eigenschappen voor hun belang met succes gelijk te stellen, is het noodzakelijk dat belangenschaalwaarden worden verkregen (meestal op dezelfde algemene manier dat men de waarden van de verrijkingsschaal verkrijgt) voor elke verschillende ratingsituatie - een taak die soms moeilijk te vinden kan zijn bereiken.

4. Wenselijkheidsindex:

Het begrip sociale wenselijkheid werd besproken als een invloed bij het bepalen van de reacties van individuen op persoonlijkheidsinventarissen. Het effect van deze eigenschap is waarschijnlijk net zo belangrijk in beoordelingssituaties. Onderscheid maken tussen gunstige en sociale wenselijkheid is niet altijd gemakkelijk.

Zeker, eigenschappen die als gunstig worden beoordeeld, kunnen ook als sociaal wenselijk worden beschouwd. Het onderscheid kan worden geïllustreerd door te kijken naar de wenselijkheid van een eigenschap als intelligentie die redelijk hoog zou kunnen zijn, terwijl de sociale wenselijkheid ervan enigszins lager zou kunnen uitvallen vanwege een algemene culturele reactie tegen "eggheads", enz.

Referentiekaders:

Niet alleen zijn er verschillende indices die kunnen worden gebruikt om paren eigenschappen in een geforceerd keuzeformaat gelijk te stellen, maar er zijn ook verschillende instructiesets of referentiekaders die aan de beoordelaars kunnen worden gegeven bij het verkrijgen van schaalwaarden voor gelijkwaardige doeleinden . Het gevolg is dat verschillende instructies nogal kritisch zijn.

Als iemand bijvoorbeeld geïnteresseerd is in het verkrijgen van belangindexen, kan hij de juryleden een van de volgende instructies geven:

(I) Geeft elke eigenschap een score op basis van hoe belangrijk u denkt dat eigenschap is voor succesvolle werkprestaties, of

(2) Geef elke eigenschap een score op basis van hoe belangrijk je denkt dat de beoordelaar die uiteindelijk de schaal gebruikt, de eigenschap zal voelen voor succesvolle werkprestaties.

In de eerste plaats verkrijgt men schaalwaarden op basis van het referentiekader van de beoordelaars. In het tweede geval worden de juryleden gevraagd om zichzelf in de 'schoenen' te plaatsen van de persoon die uiteindelijk zal worden gevraagd om het instrument voor functioneringsbeoordeling te gebruiken en om beslissingen te nemen alsof zij die persoon zijn. De waarden van de belangrijkheidsschaal verkregen onder deze twee sets voorwaarden kunnen heel verschillend zijn.

De "Ideal-Man" -strategie:

Een gerelateerd probleem met betrekking tot de referentiekolom is de rater-strategie die wordt aangeduid als de "ideal-man" -strategie. Een zeer typische manier om reacties op een beoordelingsschaal met gedwongen keuze te beïnvloeden, is dat de beoordelaar zijn beste werker selecteert en zijn kenmerken mentaal vervangt door die van de werknemer die hij daadwerkelijk beoordeelt en die hij goed wil scoren.

Als hij geen werknemer heeft die goed genoeg is om als leidraad bij het beoordelen te worden gebruikt, kan de beoordelaar een mentaal beeld van een ideale werknemer trekken en dit gebruiken als zijn referentiekader bij het maken van zijn beoordelingen. Dit soort opzettelijke vertekening is buitengewoon moeilijk om mee om te gaan, omdat de beoordelaar in zekere zin geen aandacht besteedt aan de kenmerkeneigenschappen waartegen de gedwongen keuze-schaal de neiging heeft zich te beschermen.

Dat wil zeggen, de beoordelaar heeft de neiging om een ​​"eerlijke" taak van beoordeling uit te voeren, behalve de "man" die hij beoordeelt wanneer hij de schaal voltooit, is een heel andere persoon dan degene die hij geacht wordt te beoordelen. Wanneer een beoordelaar slim genoeg is om deze beoordelingsstrategie toe te passen als een methode om de prestatiescores van zijn vrienden, enz. Te verhogen, is er weinig dat kan worden gedaan om de resulterende bias te vermijden, zelfs bij gedwongen keuze.

Onderzoek naar de dwangkeuzemethode:

De methode van gedwongen keuze is sinds de introductie in de jaren 40 van de vorige eeuw onderwerp van veel onderzoek. Zoals met veel nieuwere methoden, bleek het enigszins minder genezing te zijn dan velen hadden gehoopt, maar het lijkt nog steeds een van de meest effectieve manieren om raterbias te verminderen die beschikbaar is voor de industriële psycholoog. Een kort overzicht van enkele van de bevindingen die verschillende aspecten van de gedwongen-keuzemethode behandelen, geeft een idee van de algemene status van de methode.

Formaat geforceerde keuze:

In wat als een van de klassieke studies over de gedwongen-keuzemethode is beschouwd, vergeleken Highland en Berkshire (1951) zes verschillende soorten itemformaten in termen van (1) hun oneven even betrouwbare betrouwbaarheid, (2) hun gevoeligheid voor vooringenomenheid wanneer beoordelaars de opdracht kregen om een ​​hoge score te verzekeren, (3) hun geldigheid tegen een criterium dat is samengesteld uit instructeursrangschikkingen van de studenten, en (4) hun algemene populariteit zoals bepaald door de beoordelaars.

De zes verschillende soorten gebruikte itemformaten waren:

1. Twee uitspraken per item, ofwel gunstig ofwel beide ongunstig. Rater werd gevraagd de meest beschrijvende van het paar uitspraken te selecteren.

2. Drie stellingen per item, ofwel allemaal gunstig ofwel allemaal ongunstig. Rater werd gevraagd om de meest en de minst beschrijvende verklaring te selecteren.

3. Vier verklaringen per item, allemaal gunstig. Rater werd gevraagd om de twee meest beschrijvende uitspraken te selecteren.

4. Vier verklaringen per item, allemaal gunstig. Rater werd gevraagd om de meest beschrijvende en de minst beschrijvende te selecteren.

5. Vier verklaringen per item, twee gunstige en twee ongunstige. Rater werd gevraagd om zowel de meest als de minst beschrijvende uitspraken te selecteren.

6. Vijf uitspraken per item, twee gunstige, twee ongunstige en één neutrale. Rater werd gevraagd om zowel de meest als de minst beschrijvende uitspraken te selecteren.

De resultaten van het onderzoek leidden Highland en Berkshire tot de volgende conclusies:

Betrouwbaarheid:

Alle formaten leidden tot hoge betrouwbaarheidscoëfficiënten, hoewel de formaten 5 en 6 kunnen worden beschouwd als de beste resultaten voor dit criterium.

geldigheid:

Format 4 werd over het algemeen het meest geldig bevonden, met format 3 met een sterke tweede. Dit geeft aan dat het gebruik van alleen gunstige alternatieven de geldigheid lijkt te beïnvloeden.

Rater voorkeur:

De voorkeur van de beoordelaars voor de zes formaten als (van de meest naar de minst gewenste) 3, 1, 6, 5, 4 en 2.

Gevoeligheid voor vertekening:

De vormen verschilden aanzienlijk in termen van de mate waarin ze bestand waren tegen opzettelijke pogingen tot voorspanning. De volgorde van bias-weerstand (van meest tot minst) was 3, 2, 1, 4, 5 en 6.

Highland en Berkshire suggereren dat formaat 3 de beste is van de zes bestudeerde wanneer de vier hierboven genoemde criteria worden beschouwd.

Vergelijkende geldigheid van geforceerde keuze:

In het onderzoek van Highland en Berkshire werden verschillende vormen van gedwongen keuze onder elkaar onderzocht. Een even belangrijke vraag betreft de validiteit en betrouwbaarheid van de methode in vergelijking met andere functioneringsgesprekken.

Bij het beoordelen van de studies die beweerden het voordeel van gedwongen keuze in termen van geldigheid te onderzoeken, formuleert Zavala (1965) de volgende punten:

1. Te veel studies naar de geldigheid van gedwongen keuzes hebben de neiging om andere vormen van beoordeling als criterium te gebruiken. Dit is waarschijnlijk meer een betrouwbaarheidsmaatstaf dan een geldigheidsmaat.

2. De meeste vergelijkende studies lijken een lichte superioriteit te vertonen voor gedwongen keuze ten opzichte van conventionele ratingmethoden.

3. Hoe langer de beoordelingsschalen, hoe beter de methode van gedwongen keuze is om superieur te zijn.

4. De geldigheid van een 'geforceerde keuze'-schaal is waarschijnlijk ook een functie van het soort equatoringsindex dat wordt gebruikt bij het samenstellen van de items.

Gevoeligheid voor vooringenomenheid:

Hoewel de kwestie van de validiteit waarschijnlijk de belangrijkste is die kan worden gebruikt om de methode van gedwongen keuze te evalueren, is de vraag in hoeverre de methode onderhevig is aan vertekening of opzettelijke vervorming ook van cruciaal belang. Inderdaad, de methode was specifiek ontworpen om responsvertekening te verminderen, omdat responsvertekening de validiteit meestal vermindert.

Het bewijs voor de effectiviteit van de gedwongen keuzeprocedure als bias-reductiemiddel is enigszins dubbelzinnig. Er lijkt weinig twijfel over te bestaan ​​dat faken mogelijk blijft onder een krachtkeuzeformaat, zoals aangegeven door Sisson (1948), Howe (1960) en Howe en Silverstein (1960).

Er lijkt echter substantieel bewijs te zijn dat de mate van fakability wordt verminderd door items met een gedwongen keuze. Karr (1959), Taylor en Wherry (1951), en Izard en Rosenberg (1958) bieden drie voorbeelden van onderzoekstudies die wijzen op een weerstand tegen faken door gedwongen keuze die groter is dan die van andere soorten schalen.

Waters (1965) heeft onlangs gesuggereerd dat een van de grootste problemen met onderzoek naar de fakability van gedwongen keuze is geweest dat de "set" om de test die is vastgesteld te vervalsen, gewoonlijk verschilde van de "set" waaronder de gelijkende indices waren oorspronkelijk verkregen. De indices zijn dus nooit echt helemaal geschikt voor de feitelijke taxatiesituatie. Hij suggereert dat er drie verschillende responssets zijn waaronder indexcijfers kunnen worden verkregen (ongeacht welke index wordt gebruikt).

1. Eerlijke beoordeling:

Beantwoorden als de respondent echt gelooft dat de verklaring van toepassing is op de persoon die wordt geëvalueerd

2. Sociale aanvaardbaarheid:

Antwoord zo dat het acceptabel lijkt voor jezelf en voor anderen in het algemeen

3. Succes uiterlijk:

Beantwoorden zodat de persoon lijkt te beschikken over de kwaliteiten die nodig of wenselijk zijn in relatie tot een bepaalde baan of activiteit

Verder wordt door Waters geopperd dat fakability-onderzoeken kunnen worden geclassificeerd in drie algemene klassen, afhankelijk van hoe de respons die is ingesteld en de groepssamenstelling zijn gevarieerd.

Om te citeren uit Waters (1965, blz. 189), hebben we:

1. Fakability-onderzoeken:

Sets en groepen die minstens vergelijkbaar zijn in de situaties waarin de aantrekkelijkheidsindices worden verkregen en de schaal wordt beheerd.

2. Generalisatiestudies:

Sets of groepen, maar niet beide, veranderden van de situatie waarin de aantrekkelijkheidsindices worden verkregen naar de situatie waarin de schaal wordt beheerd.

3. Uitbreidingsstudies:

Beide sets en groepen veranderden van de situatie waarin de aantrekkelijkheidsindices worden verkregen voor de situatie waarin de schaal wordt beheerd.

Fakability-onderzoeken moeten niet worden verward met de laatste soorten onderzoeken. Zij zijn het enige type dat rechtstreeks een test geeft voor hoe adequaat de indexen zijn voor het uitvoeren van hun werk. De laatste twee evalueren eenvoudigweg de algemeenheid van de index voor andere situaties. Helaas zijn volgens Waters de meeste fakabiliteitsstudies tot op heden hetzij generalisatie- of uitbreidingsstudies geweest; er is een sterke behoefte aan onderzoek dat de fakability-vraag rechtstreeks aanpakt.

Norman Study:

Een van de interessantere studies over het probleem van fake en detectie van gedwongen keuzes is de studie van Norman (1963). Hij hield zich bezig met de dynamiek van itempopulariteit en item-discriminatie-indexen onder normale omstandigheden en onder vervelende omstandigheden. Daarnaast was hij geïnteresseerd in het bepalen in hoeverre namaak, als het toch zou plaatsvinden, kon worden gecontroleerd en / of gedetecteerd.

De belangrijkste bevindingen van het onderzoek met betrekking tot het gedrag van de indices van populariteit en discriminatie worden hieronder gegeven:

1. Discriminatie-indexen onder normale en nep-omstandigheden waren ongeveer gecorreleerd

2. Populariteitsindices onder normale en nep-omstandigheden waren laag gecorreleerd (0, 24 en 0, 23).

3. Betrouwbaarheid van discriminatie-indices onder fake omstandigheden was nul.

4. De betrouwbaarheid van discriminatie-indices was onder normale omstandigheden matig hoog.

5. Betrouwbaarheid van populariteitsindices was bijna perfect onder zowel normale als nep-condities (0, 97 en 0, 98).

De laatste van deze resultaten (nummer 5 vinden) impliceert dat het verschil in populariteit tussen normale en valse condities ook zeer betrouwbaar moet zijn (dat bevinding nummer 2, dat zegt dat er substantiële verschillen zijn, kan worden gewijzigd om te impliceren dat dergelijke verschillen betrouwbaar zijn en consequent). Dit werd echter niet direct in het onderzoek beoordeeld.

Norman suggereert vervolgens een procedure voor het ontwikkelen van een geforceerd-keuzeapparaat dat hetzelfde gemiddelde zal hebben onder nep-omstandigheden, aangezien het onder normale omstandigheden een kleiner verschil zal hebben onder valse omstandigheden en een zeer gevoelige detectieschaal heeft voor het identificeren van fakers.

Om dit te bereiken schetst hij de volgende stappen:

1. Selecteer items met hoge discriminatie-indexen onder normale omstandigheden (selecteer meer dan uiteindelijk nodig zal zijn).

2. Rangorde rangorde de geselecteerde items in termen van de grootte van hun verschillen in populariteit onder de normale en de nep-voorwaarden (zie nummer 2 in bovenstaande lijst).

3. Selecteer items van beide zijden van nul (zoveel als gewenst), waarbij u ervoor zorgt dat de algebraïsche som van verschillen in populariteit gelijk is aan nul wanneer deze is voltooid.

Stap 3 zorgt ervoor (aangezien we weten dat verschillen in populariteit betrouwbaar zijn) dat de gemiddelde testscore van mensen onder de normale omstandigheden gelijk zal zijn aan die onder de nep-omstandigheden. Dit gebeurt omdat het gemiddelde van de verdeling van testscores gelijk is aan de som van de itempopulariteiten. Dus gemiddelde scores onder normale en nep-omstandigheden worden gelijkgesteld. Testen die met deze procedure zijn geconstrueerd, hebben ook de neiging variaties van hun testscore-uitkeringen te vertonen wanneer ze onder een set worden gezet om nep te zijn. Dit is een uitkomst die de mogelijkheid verkleint dat mensen die geneigd zijn om nep te worden hoog genoeg scores krijgen om geaccepteerd te worden.

Neem ter illustratie het onderstaande diagram (afbeelding 7.4) waarin we de verdeling van de testscores onder normale omstandigheden hebben weergegeven. (7.4a), de verdeling van testscores onder een set naar nep (7.4b) en een samengestelde distributie bestaande uit fakers en non-fakers (7.4c).

Onderzoek van figuur 7.4c geeft een indicatie van het controlerende effect dat deze methode uitoefent op opzettelijke fakers. In de gebruikelijke evaluatie van prestaties zijn we geïnteresseerd in het belonen van mensen die hoog scoren op het formulier voor gedwongen keuze. Omdat de variantie van de nepdistributie wordt verkleind, kan men de best scorende personen selecteren (die rechts van de cut-offlijn in 7.4c) zonder het risico dat teveel fakers worden opgenomen in de geselecteerde of beloonde groep.

Figuur 7.5 toont vijf verschillende empirische demonstraties van deze beperking in variantie verkregen in de Norman-studie.

Een laatste kenmerk van de Norman-methode is dat het heel eenvoudig is om een ​​"detectie" -schaal te construeren om te bepalen wie nep is en wie niet.

Eén bevat eenvoudig een aantal items op de schaal die aan de volgende vereisten voldoen:

1. Ze moeten bijna nul geldigheid hebben voor de criteriumvariabelen.

2. Ze moeten een grote verschuiving in populariteit hebben getoond van de normale naar de nep-toestand.

3. Hun populariteit onder de normale omstandigheden moet zeer hoog of zeer laag zijn.

Men construeert dan een sleutel die het niet-frequente antwoord scoort onder de normale conditie voor elk item (dat wil zeggen, de frequente respons onder de nep-voorwaarde), omdat één respons neigingen heeft om faken aan te duiden en het andere antwoord normaal respons aangeeft.

Een andere manier om deze detectiepunten te beschrijven, is dat hun populariteit correleert met de neiging om nep te zijn. Figuur 7.6 toont de verdelingen van scores op de detectorschaal verkregen door Norman onder normale en onder fake omstandigheden. Let op de grote verschuiving van scores wanneer mensen werden gevraagd om nep. Een afkappunt van ongeveer 20 zou de meeste fakers identificeren zonder valselijk veel van de normals te beschuldigen.