Men fortsatt kan de færreste av studentene forklare hva en p-verdi betyr. Flere av lærerne som har undervist dem i årenes løp, og som vanemessig publiserer forskningsrapporter pepret med p-verdier, kan det heller ikke.
Er det et problem? Ja, mener mange. Skjønt, det verste er kanskje ikke at vi sliter med å forklare hva en p-verdi betyr, men heller at vi, i psykologien og i noen andre fag, fortsetter å bruke en hypotesetestingsrutine som ikke henger på greip.
Hva slags argumenter er det som ligger bak en slik påstand? Først skal vi se på i hvilke sammenhenger en regner ut p-verdien, og deretter hva den faktisk sier oss. Deretter skal vi undersøke hva som er kjernen i en av de vanligste og mest alvorlige misforståelsene vedrørende denne.
Hypotesetestingens (u)logikk
Forskning handler blant annet om å ta rede på hvor mye tiltro vi skal ha til ulike påstander – hypoteser – om virkeligheten. Et ledd i denne virksomheten er å «teste» hypotesene. Prinsipielt kan dette gjøres på ulike måter, men i praksis foregår det, i hvert fall i psykologien, i hovedsak etter et nokså fastlåst knippe uskrevne regler. Sammen er de kjent som nullhypotesetesting eller signifikanstesting (ofte forkortet NHST, for «null hypothesis significance testing»1). Logikken er som følger (basert på Trafimow, 2003):
- Vi har en hypotese vi ønsker å teste. Det kan være hva som helst, for eksempel at det er en sammenheng mellom utadvendthet og intelligens. Denne hypotesen kalles gjerne for forskningshypotesen, og betegnes med H1.
- Med utgangspunkt i forskningshypotesen formulerer vi en nullhypotese. Nullhypotesen skal formuleres som en logisk negasjon av forskningshypotesen, og de to skal sammen uttømme mulighetsrommet, for eksempel at det ikke er en sammenheng mellom utadvendthet og intelligens. Nullhypotesen betegnes gjerne H0.
- Tredje skritt er å gjøre et representativt utvalg observasjoner, altså samle inn data. Vi kan for eksempel måle utadvendthet og intelligens i et utvalg personer fra populasjonen vi er interessert i, og så regne ut en korrelasjonskoeffisient (et mål på sammenheng mellom to variabler).
- Samtidig regner vi ut sannsynligheten for å få det resultatet vi faktisk har fått (eller et mer ekstremt et), hvis vi antar at nullhypotesen er sann. Vi regner altså ut P(D|H0) (leses som «sannsynligheten for data, gitt nullhypotesen»), og det er dette som er den berømte p-verdien.
- Hvis p-verdien – sannsynligheten for data gitt nullhypotesen, P(D|H0) – er under en viss verdi (normalt 0,05), så sier vi at resultatet er «statistisk signifikant», og vi slutter at H0 sannsynligvis ikke er sann, og gjerne også at H1 derfor er sannsynliggjort.
Mange studenter opplever dette som vanskelig å bli fortrolig med, vanskelig å forstå og dermed vanskelig å lære. Det er kanskje ikke så rart. Når vi er interessert i hvor mye tiltro vi skal ha til H1, hvorfor regner vi da ut sannsynligheten for å få gitte data under en antakelse om at dens negasjon er sann? Sa du «innvikla», sa du? Dette kan noen og enhver stusse på i klare øyeblikk. Geoff Cumming, forfatter av læreboka Understanding the New Statistics (Cumming, 2012), berømmer alle som synes dette er rart. Svaret er vel at vi regner ut nettopp P(D|H0) og ikke noe annet, fordi denne verdien faktisk er nokså enkel å regne ut.
Køen av kritikere av denne logikken er lang, og katalogen over innvendinger mot NHST er fyldig og variert (se f.eks. Cohen, 1994, eller Westover, Westover & Bianchi, 2011, for lesbare fremstillinger). Innvendingene har som regel å gjøre med at veien fra p-verdien vår, altså fra P(D|H0) og til P(H1), er for lang, og at vi, med bare NHST til å hjelpe oss, rett og slett ikke kan ta oss fra den ene til den andre på logisk lovlig vis. Dermed tar vi snarveier, med det resultat at vi snubler ut i en krattskog av skumle feilslutninger. Her skal vi ta for oss én av disse angivelige feilslutningene, som trolig også utgjør den vanligste misforståelsen hva angår p-verdien.
P(D|H0) er ikke P(H0|D)
Et av problemene med p-verdien er at den ikke forteller oss det vi aller helst vil vite. Det vi jo vil vite, er hvor sannsynlig nullhypotesen (og dens logiske motsats, forskningshypotesen) er. Og dataene vi samler inn i undersøkelser og eksperimenter, samler vi jo inn nettopp fordi vi vil at de skal kunne fortelle oss noe om dette. Det vi vil vite, er altså sannsynligheten for H0 gitt data: P(H0|D). Men, som vi har sett, gir p-verdien oss sannsynligheten for data gitt nullhypotesen: P(D|H0).
For å se hvorfor disse to størrelsene er forskjellige, kan vi låne et eksempel fra Cumming (2012, s. 27). Gitt at noen leser denne teksten, så er det veldig sannsynlig at de også kan snakke norsk: P (snakker norsk | leser denne teksten) = nesten 1. Derimot er det, til tross for Psykologisk.no sin stadig økende popularitet, ganske lite sannsynlig at man leser denne teksten gitt at man snakker norsk: P (leser denne teksten | snakker norsk) = bare litt over 0.
Den p-verdien vi får ut av NHST-prosedyren, er altså noe helt annet enn det vi egentlig vil ha. Det vi vil ha – sannsynligheten for hypotesen gitt data, P(H0|D) – er definert av Bayes’ læresetning, som vi har stiftet bekjentskap med i en tidligere utgave av denne spalten. Selv om flere nå enn før argumenterer for at det nettopp er Bayes’ læresetning, og ikke NHST, som bør være kjernen i våre statistiske analyser av forskningsdata, er heller ikke det noen enkel eller uproblematisk løsning. For å beregne P(H0|D) med Bayes’ læresetning trenger vi nemlig opplysninger vi sjelden har. For eksempel vet vi sjelden hva P(H0) i utgangspunktet er.
I følge kritikerne er det akkurat her vi svært ofte trør feil på veien fra data til kunnskap. Cohen (1994) formulerer det slik: «[NHST-prosedyren] forteller oss ikke det vi vil vite, og vi vil så veldig gjerne vite det vi vil vite, at vi, i desperasjon, likevel tror at den gjør det!» (s. 997, min oversettelse). Vi tar P(D|H0) for å være P(H0|D), selv om dette er ren ønsketenkning. Med andre ord, vi tror feilaktig at p-verdien er sannsynligheten for at H0 er sann. Det er denne feilslutningen som begås i punkt 5 i prosedyrebeskrivelsen over.
Verre enn vi tror?
Men, altså … Er dette egentlig så ille, da? Intuisjonen vår synes å trekke oss sterkt i retning av denne angivelige feilslutningen. Hvis det er veldig lite sannsynlig at vi kunne få det resultatet vi har fått – en slik sammenheng eller forskjell – under en antakelse om at nullhypotesen er sann, så virker det nokså tilforlatelig å slutte at nullhypotesen dermed sannsynligvis ikke er sann.
Intuisjoner til tross, dette er og blir en ugyldig slutning. Dette innrømmer også noen av de som forsvarer NHST-prosedyren. Det er en kjensgjerning at P(D|H0) ikke er det samme som P(H0|D), men enkelte har ment at det likevel er forsvarlig å bruke NHST. De har blant annet argument med at P(D|H0) i det minste korrelerer med P(H0|D). Dessverre er det lite som tyder på at den korrelasjonen er noe særlig å skryte av. David Trafimow og Stephen Rice (2009) ved New Mexico State University har undersøkt sammenhengen mellom ulike verdier av P(D|H0) og P(H0|D) i fiktive datasett med god spredning av verdier på alle de størrelsene som inngår i Bayes’ læresetning. De finner at korrelasjonen i beste fall er moderat, og trolig ofte i realiteten nokså liten. Det betyr at P(D|H0) ikke bare er et litt usikkert utgangspunkt for å forutsi P(H0|D), men et temmelig dårlig et.
Dermed kan det se ut til at NHST er et lite egnet hjelpemiddel når vi forsøker å ta rede på hvor mye tiltro vi skal ha til våre hypoteser.
Hva gjør vi da?
NHST-prosedyren har i mange tiår vært gjenstand for hard kritikk, men vi fortsetter å bruke den til tross for de påpekte svakhetene. Hvorfor er det slik? Bør vi ikke slutte med NHST?
Det er nærliggende å tro at nåværende signifikanstesting har med intellektuell latskap å gjøre.
Men det er vel nærliggende å tro at motviljen mot å erstatte NHST også har med intellektuell latskap å gjøre. Og kanskje synes vi i tillegg at det er litt utrygt å gi slipp på vår statistiske barnetro, selv om vi innerst inne innser at den er en smule absurd.
Jeg synes vi skylder både oss selv og faget vårt å i det minste ta et lite skritt i retning av en løsrivelse fra NHST. Vi kunne jo begynne med å anerkjenne at de problemene både blivende og erfarne psykologifagfolk har med å forstå og forklare betydningen av p-verdien, har sitt utspring i det faktum at NHST-prosedyren, slik den vanligvis praktiseres, bygger på en feilslutning.
Kilder
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003. doi:10.1037/0003-066x.49.12.997
Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. Hove, England: Taylor & Francis Group.
Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. I G. Keren og A. Lewis (red.), A handbook for data analysis in the behavioral sciences (bind 1, s. 311–339). Hillsdale, NJ: Erlbaum.
Kruschke, J. K. (2010). Doing Bayesian data analysis: A tutorial with R and BUGS. Burlington, MA: Academic Press.
Trafimow, D. (2003). Hypothesis testing and theory evaluation at the boundaries: Surprising insights from Bayes’s theorem. Psychological Review, 110(3), 526–535. doi:10.1037/0033-295X.110.3.526
Trafimow, D. & Rice, S. (2009). A test of the null hypothesis significance testing procedure correlation argument. Journal of General Psychology, 136(3), 261–269. doi:10.3200/GENP.136.3.261-270
Westover, M. B., Westover, K. & Bianchi, M. (2011). Significance testing as perverse probabilistic reasoning. BMC Medicine, 9, 1–20. doi:10.1186/1741-7015-9-20
- Egentlig stammer dagens NHST fra to ulike måter å tenke på: Ronald Fischers signifikanstesting, og Neyman og Pearsons nullhypotesetesting. Den moderne overleveringen er en slags hybrid av de to, og her ligger noe av problemet med den, mener kritikerne (se f.eks. Gigerenzer, 1993). [↩]