Evnetester har betydelig verdi i rekrutteringssammenheng, men mange som kunne dratt nytte av dem bruker dem ikke fordi de ikke liker tanken på å måle intelligensen til fremtidige ansatte.
Det er noe klinisk og veldig personlig over IQ, kognitive evner og intelligens. Av denne grunn oppfatter mange at bruken av evnetester er et minefelt av etiske og praktiske problemer og blir avskrekket fra å bruke dem. Denne holdningen er ofte basert på en sammenblanding av ulike verktøy og begreper.
I denne artikkelen går jeg gjennom forskjellene mellom IQ-tester og evnetester, også kalt general mental ability-tester (GMA-tester) eller arbeidspsykologiske tester. Jeg vil diskutere de ulike testenes funksjon, bruk og nytteverdi.
La oss først gå gjennom hva forskjellene ikke er.
Forskjellen er ikke hva testene måler. Både IQ-tester og evnetester måler intelligens. Noen leverandører presenterer sine evnetester som noe mer spesifikt. Altså at det er ulike tester av ulike evner, som for eksempel ordforråd, resonnering og logisk tenking. Men disse blir som oftest lagt sammen til et tall, i likhet med deltestene i en IQ-test.
Formålet til testen
Både evnetester og IQ-tester er gjenstand for de samme psykometriske prinsippene for måling av intellektuelle evner, og begge er avhengig av validitet og reliabilitet på samme måte. Begge bruker også standardisert skåring for å sammenligne ulike testtakere og for å sammenligne en testtaker med en normgruppe.
Selv om det ofte brukes forskjellige skalaer, er dette ikke en forskjell. IQ-skalaen har et gjennomsnitt på 100 og et standardavvik (et mål på spredning) på 15. Evnetest-skalaer pleier å være kategorier med ni, ti, eller en kontinuerlig skala med 0 som gjennomsnitt og standardavvik på 1. Forskjellene i skalabruk er ikke en forskjell mellom testene, fordi resultater fra én skala kan enkelt overføres til en annen skala, som fahrenheit og celsius. Hvis du vil, kan du skalere skostørrelsen din til en IQ-skala.
Forskjellen mellom IQ-tester og evnetester til bruk i rekruttering handler derimot helt og holdent om formålet til testen. Formålet til en IQ-test er å måle intelligensen til testtakeren, og er utviklet for å brukes av psykologer til å diagnostisere kognitive funksjonshemminger og måle læringsforutsetninger.
Formålet krever meget høy presisjon. Hvis man skal avgjøre hvorvidt en testtaker har rett på spesialundervisning, regnes som strafferettslig tilregnelig eller har utviklet hjernesykdommer, er det ikke godt nok med et grovt omtrentlig mål. Konsekvensene for den enkelte kan være enorme fordi testresultatet ofte brukes som eneste, eller det viktigste, kriteriet for å ta en alvorlig beslutning.
Betydningen av presisjon
Presisjon oppnås med å bruke godt validerte spørsmål og flere deltester som dekker hele spekteret av flytende og krystallisert intelligens. En av de mest brukte, Weschler Intelligence Scale, har femten deltester fordelt på fire kategorier. Hvis en testtaker skårer høyt på en deltest, vil vedkommende mest sannsynligvis skåre høyt på andre også, men dekningsgraden av flere kognitive evner reduserer tilfeldig målefeil og øker reliabiliteten til det overordnede målet.
I tillegg er en IQ-test møysommelig normert på et representativt utvalg. Det vil si at det foreligger et stort arbeid for å sikre at testens gjennomsnittlige resultat er tilnærmet likt gjennomsnittet hvis vi hadde testet alle i Norge. Av disse grunnene foreligger det også strenge regler for hvordan en IQ-test skal utvikles og brukes.
En evnetest måler også intelligens, men formålet er primært å si noe om kandidatens forventede arbeidsprestasjoner, sammenlignet med andre kandidater. Resultatene fra evnetester brukes sammen med flere andre verktøy, som intervju og arbeidsprøver, for å danne seg et bilde av kandidatene som har søkt på jobben. Alle resultatene plusses til slutt sammen inn i en helhetlig variabel som kandidatene blir rangert etter. Dette gir utslag i flere forskjeller mellom IQ-tester og evnetester. Først og fremst, en evnetest trenger ikke å være normert i et representativt utvalg. En evnetest taper ingenting på å ha et gjennomsnitt langt fra normen i populasjonen fordi man ikke skal tolke individuelle skårer, kun sammenligne kandidater med hverandre.
Et eksempel er BOMAT fra Hogrefe, som er normert på tyske akademikere. De fleste skårer under snittet, og det er mindre interessant å tolke individuelle resultater. Den fungerer derimot fint i rekrutteringssammenheng, når man skal sammenligne ulike kandidater. Noen få evnetester har noenlunde representative utvalg og to eller flere deltester som gjør at resultatene skal kunne si noe om hver enkelt testtaker sin intelligens.
Men resultatene er vesentlig mer omtrentlige enn resultatet fra en IQ-test fordi de ikke har samme presisjon, bredde eller standard for normering. Det vil si at resultatet fra en evnetest i rekruttering kun er et grovt mål på kandidatens intelligens.
Hvordan kan det ha seg at resultatene er brukbare på tross av dette, og hva vil egentlig verdien av å bytte ut evnetesten med en full IQ-test være?
Disse spørsmålene kan vi best besvare og demonstrere ved å simulere data fra en tenkt rekrutteringskontekst.
Vi tar utgangpunkt i en rekrutteringsprosess med 100 søkere og ti ledige stillinger. Vi simulerer en sammenheng mellom intelligens og jobbprestasjon med en korrelasjon på 0,35 basert på den mest oppdaterte forskningen (Sackett mfl., 2022). Her er det viktig å nevne at denne tilsynelatende moderate sammenhengen er vesentlig bedre enn de vanligste verktøyene i rekruttering som ustrukturerte intervju, erfaring og interesser. I tillegg er det verdt å nevne at sammenhengen mellom jobbprestasjoner og intelligens øker i jobber med høy kompleksitet, og i jobber hvor kandidatene stiller relativt likt i trening, erfaring og utdanning.
Resultatene vises i Figur 1. De ti kandidatene med best jobbprestasjon er markert med navn. Som det fremgår av figuren, er det en tydelig trend hvor kandidater med høy intelligens tenderer til å ha høyere arbeidsprestasjon. Men, det fremgår også tydelig at det er mange måter å oppnå høy arbeidsprestasjon på.
Å finne kandidatene med best jobbprestasjon
I rekrutteringssammenheng, hvor vi skal si noe om fremtidens jobbprestasjoner, er det en stor mengde tilfeldigheter som gjør at vi aldri vil klare å oppnå objektivt høy treffsikkerhet, uansett verktøy som brukes. Vi simulerer også at intelligensen måles med tre tester. En meget presis IQ-test, en evnetest (GMA) og en selvlaget evnetest (lavpresisjon-GMA). Evnetesten representerer en typisk test brukt i rekrutteringssammenheng og er mindre presis enn en IQ-test. Den selvlagede evnetesten har vesentlig mindre presisjon enn både IQ-testen og evnetesten. Testresultatene og den sanne intelligensen for de ti kandidatene med høyest jobbprestasjoner vises i høyre panel i Figur 1.

FIGUR 1: Simulert sammenheng mellom intelligens og jobbprestasjoner for 100 kandidater og presisjon til tre ulike tester av intelligens for toppkandidatene.
Som det også fremgår, er resultatene fra IQ-testen tett opptil kandidatens sanne intelligens, mens GMA testen varierer mer, og lavpresisjon-GMA testen har store avvik fra den sanne intelligensen. For noen kandidater er den sanne intelligensen og resultatet fra de tre testene noenlunde likt, mens for andre er det store avvik. Forskjellen mellom alle de 100 kandidatens sanne intelligens og testresultat er illustrert i venstre panel i Figur 2.
Forskjellen mellom IQ-testen og kandidatens sanne intelligens kan aksepteres på 1,6 poeng, nesten alle kandidatene er innenfor tre poeng, og den maksimale forskjellen er fem poeng. Det er mindre forskjeller mellom IQ-testen og intelligens enn det er mellom intelligens og GMA (der forskjellen er 3,4 poeng). Lavpresisjonstesten har et meget høy gjennomsnittlig forskjell på 6.1 poeng.
Resultatene viser at både GMA-testen, og lavpresisjon-GMA ikke fungerer godt som verktøy hvis formålet er å estimere kandidatens intelligens. Men dette er ikke formålet med evnetester. Formålet er å si noe om jobbprestasjonen, og siden denne er moderat assosiert med intelligens, er det viktig å ta stilling til om IQ-testen sin høyere presisjon er verdt kostnaden for å finne kandidatene med best jobbprestasjon.
Panelet til høyre i Figur 2 viser den gjennomsnittlige jobbprestasjonen til hele utvalget, samt de ti beste kandidaten rangert etter intelligens, IQ-testen, GMA-testen og lavpresisjon GMA-testen. Konfidensintervallet kan tolkes som at vi er 95 prosent sikker på at den sanne gjennomsnittlige jobbprestasjonen er innenfor intervallet.

FIGUR 2: Forskjellskåren mellom sann intelligens og tre måle av dem og den gjennomsnittlige jobbprestasjonen til hele utvalget og toppkandidatene, rangert etter intelligens/test.
Som det vises i Figur 2, har de ti toppkandidatene rangert med den sanne intelligensen høyest jobbprestasjon, men dette vet man selvsagt ikke i den virkelige verden.
Kandidatene rangert etter IQ-testen har høyest arbeidsprestasjon, sammenlignet med de to evnetestene, men forskjellene er små. IQ-testen resulterer i fem prosent bedre jobbprestasjon, sammenlignet med gjennomsnittet av alle kandidatene.
GMA-testen er fire prosent bedre og lavpresisjon GMA-testen tre prosent bedre. Den store overlappen mellom konfidensintervallene mellom toppkandidatene, rangert etter de tre testene, viser også at kan de er ganske like i jobbprestasjon. Korrelasjonen mellom prestasjoner i jobben og de tre målene på intelligens er også nærmest identiske.
Hvordan kan så store forskjeller i presisjon resultere i så små forskjeller i prediktiv kraft?
Forklaringen ligger i at jobbprestasjon ikke er tett nok knyttet til intelligens til at forskjeller i intelligensmålet skal skape store forskjeller i prediktiv presisjon. I dette avsnittet passer det fint å nevne at kostnaden for å gjennomføre en presis IQ-test er mellom 6000 og 7000 kroner, som må gjennomføres hos en autorisert psykolog og er vesentlig mer strevsomt for kandidatene, sammenlignet med evnetester. Evnetester koster en brøkdel av en IQ-test og kan ofte gjennomføres hjemme. Den økte presisjonen i en IQ-test er for de aller fleste aktører ikke verdt kostnaden. I tillegg har evnetestene en annen fordel.
En paradoksal fordel
Man kan (og bør) si til kandidatene at resultatet fra testen kun er et omtrentlig estimat av deres intelligens og at de ikke tolkes på samme måte som en IQ-test. Nøkkelen for å sikre en god kandidatopplevelse med evnetester ligger i å tydelig få frem at man ikke er så veldig interessert i den enkeltes intelligens, at dette ikke er eneste kriteriet for ansettelse og at resultatene behandles konfidensielt.
Dette er også årsaken til at resultatene fra evnetester ofte oppgis som mer brede kategorier. Det lavere presisjonsnivået er her en paradoksal fordel. Det er ikke nok presisjon til å entydig svare på mange spørsmål som: Er jeg under gjennomsnittet dum? Er jeg smartere enn venninnen min? Evnetester tar bort noen av de etiske og praktiske problemene, men beholder mesteparten av verdien til en IQ-test.
Kandidatene kan med fordel få en tilbakemelding om hvordan de gjorde det på testen, men det bør legges vekt på at resultatet kun er en omtrentlig indikasjon på kandidatens kognitive evnenivå.
Tilbakemeldingen kan også formuleres som brede kategorier, og si noe om hvilke deltester som gikk bra og mindre bra. Hvis kandidatene er mer nysgjerrig på sin egen intelligens, kan de oppsøke en nevropsykolog og ta en full IQ-test.
Kilder
Sackett, P. R., Zhang, C., Berry, C. M. & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068. doi:10.1037/apl0000994