• Nyheter
    • Pluss-innhold
    • Arbeidsliv
    • Psykologi-folk
    • Nye bøker
    • Podkaster og videoer
      • Pia og psyken
      • Psykologlunsj
      • Psykologisk salong
      • Videoer
  • Ideer
    • Ytringer
    • Bokutdrag
    • Spalter
      • Forebygg depresjon med Arne Holte
      • Fra terapirommet med Kirsti Jareg
      • Hverdagspsykologi med Eirik Hørthe
      • Kjærleik & liv med Anne Marie Fosse Teigen
      • Kritisk tenkning med Torstein Låg
      • Menneskets natur med Leif Edward Ottesen Kennair
      • Gutta fra Psykologlunsj
      • Månedens klassiker
  • Aktiviteter
  • Stillinger
  • Bli abonnent
  • Kontakt oss
    • Vil du annonsere?
    • Send innlegg
    • Ansatte
Meny
  • Nyheter
    • Pluss-innhold
    • Arbeidsliv
    • Psykologi-folk
    • Nye bøker
    • Podkaster og videoer
      • Pia og psyken
      • Psykologlunsj
      • Psykologisk salong
      • Videoer
  • Ideer
    • Ytringer
    • Bokutdrag
    • Spalter
      • Forebygg depresjon med Arne Holte
      • Fra terapirommet med Kirsti Jareg
      • Hverdagspsykologi med Eirik Hørthe
      • Kjærleik & liv med Anne Marie Fosse Teigen
      • Kritisk tenkning med Torstein Låg
      • Menneskets natur med Leif Edward Ottesen Kennair
      • Gutta fra Psykologlunsj
      • Månedens klassiker
  • Aktiviteter
  • Stillinger
  • Bli abonnent
  • Kontakt oss
    • Vil du annonsere?
    • Send innlegg
    • Ansatte
Søk
Lukk
Kritisk tenkning med Torstein Låg

Vis meg din p-verdi, og … hva så?

Den mest brukte prosedyren i psykologisk forskning bygger på en gedigen feilslutning, skriver Torstein Låg.

SANNSYNLIGHETSREGNING: Kanskje synes vi forskere i psykologi at det er litt utrygt å gi slipp på vår statistiske barnetro, selv om vi innerst inne innser at signifikanstestingen vi driver med, er en smule absurd, skriver Torstein Låg. Illustrasjon: SCFiasco / Flickr.

Torstein Låg

Sist oppdatert: 15.08.16  |  Publisert: 15.08.16

Forfatterinfo

Torstein Låg

Torstein Låg er fagansvarlig for psykologi, psykiatri og filosofi på Universitetsbiblioteket ved UiT Norges arktiske universitet. Han er utdannet psykolog og har doktorgrad i kognitiv psykologi. De faglige interessene hans favner vidt, men ofte knytter de seg til hvordan vi forstår, misforstår, bruker og misbruker informasjon.

Hva betyr egentlig p < .05? Hva forteller en p-verdi oss? Disse spørsmålene får alle psykologistudenter bryne seg på i løpet av sitt første metodekurs. År senere, etter noen titalls studiepoeng i statistikk og metode, kan de aller fleste av dem spytte ut p-verdier over en lav sko ved hjelp av brukervennlig programvare.

Men fortsatt kan de færreste av studentene forklare hva en p-verdi betyr. Flere av lærerne som har undervist dem i årenes løp, og som vanemessig publiserer forskningsrapporter pepret med p-verdier, kan det heller ikke.

Er det et problem? Ja, mener mange. Skjønt, det verste er kanskje ikke at vi sliter med å forklare hva en p-verdi betyr, men heller at vi, i psykologien og i noen andre fag, fortsetter å bruke en hypotesetestingsrutine som ikke henger på greip.

Hva slags argumenter er det som ligger bak en slik påstand? Først skal vi se på i hvilke sammenhenger en regner ut p-verdien, og deretter hva den faktisk sier oss. Deretter skal vi undersøke hva som er kjernen i en av de vanligste og mest alvorlige misforståelsene vedrørende denne.

Hypotesetestingens (u)logikk

Forskning handler blant annet om å ta rede på hvor mye tiltro vi skal ha til ulike påstander – hypoteser – om virkeligheten. Et ledd i denne virksomheten er å «teste» hypotesene. Prinsipielt kan dette gjøres på ulike måter, men i praksis foregår det, i hvert fall i psykologien, i hovedsak etter et nokså fastlåst knippe uskrevne regler. Sammen er de kjent som nullhypotesetesting eller signifikanstesting (ofte forkortet NHST, for «null hypothesis significance testing»1). Logikken er som følger (basert på Trafimow, 2003):

  1. Vi har en hypotese vi ønsker å teste. Det kan være hva som helst, for eksempel at det er en sammenheng mellom utadvendthet og intelligens. Denne hypotesen kalles gjerne for forskningshypotesen, og betegnes med H1.
  2. Med utgangspunkt i forskningshypotesen formulerer vi en nullhypotese. Nullhypotesen skal formuleres som en logisk negasjon av forskningshypotesen, og de to skal sammen uttømme mulighetsrommet, for eksempel at det ikke er en sammenheng mellom utadvendthet og intelligens. Nullhypotesen betegnes gjerne H0.
  3. Tredje skritt er å gjøre et representativt utvalg observasjoner, altså samle inn data. Vi kan for eksempel måle utadvendthet og intelligens i et utvalg personer fra populasjonen vi er interessert i, og så regne ut en korrelasjonskoeffisient (et mål på sammenheng mellom to variabler).
  4. Samtidig regner vi ut sannsynligheten for å få det resultatet vi faktisk har fått (eller et mer ekstremt et), hvis vi antar at nullhypotesen er sann. Vi regner altså ut P(D|H0) (leses som «sannsynligheten for data, gitt nullhypotesen»), og det er dette som er den berømte p-verdien.
  5. Hvis p-verdien – sannsynligheten for data gitt nullhypotesen, P(D|H0) – er under en viss verdi (normalt 0,05), så sier vi at resultatet er «statistisk signifikant», og vi slutter at H0 sannsynligvis ikke er sann, og gjerne også at H1 derfor er sannsynliggjort.

Mange studenter opplever dette som vanskelig å bli fortrolig med, vanskelig å forstå og dermed vanskelig å lære. Det er kanskje ikke så rart. Når vi er interessert i hvor mye tiltro vi skal ha til H1, hvorfor regner vi da ut sannsynligheten for å få gitte data under en antakelse om at dens negasjon er sann? Sa du «innvikla», sa du? Dette kan noen og enhver stusse på i klare øyeblikk. Geoff Cumming, forfatter av læreboka Understanding the New Statistics (Cumming, 2012), berømmer alle som synes dette er rart. Svaret er vel at vi regner ut nettopp P(D|H0) og ikke noe annet, fordi denne verdien faktisk er nokså enkel å regne ut.

Køen av kritikere av denne logikken er lang, og katalogen over innvendinger mot NHST er fyldig og variert (se f.eks. Cohen, 1994, eller Westover, Westover & Bianchi, 2011, for lesbare fremstillinger). Innvendingene har som regel å gjøre med at veien fra p-verdien vår, altså fra P(D|H0) og til P(H1), er for lang, og at vi, med bare NHST til å hjelpe oss, rett og slett ikke kan ta oss fra den ene til den andre på logisk lovlig vis. Dermed tar vi snarveier, med det resultat at vi snubler ut i en krattskog av skumle feilslutninger. Her skal vi ta for oss én av disse angivelige feilslutningene, som trolig også utgjør den vanligste misforståelsen hva angår p-verdien.

P(D|H0) er ikke P(H0|D)

Et av problemene med p-verdien er at den ikke forteller oss det vi aller helst vil vite. Det vi jo vil vite, er hvor sannsynlig nullhypotesen (og dens logiske motsats, forskningshypotesen) er. Og dataene vi samler inn i undersøkelser og eksperimenter, samler vi jo inn nettopp fordi vi vil at de skal kunne fortelle oss noe om dette. Det vi vil vite, er altså sannsynligheten for H0 gitt data: P(H0|D). Men, som vi har sett, gir p-verdien oss sannsynligheten for data gitt nullhypotesen: P(D|H0).

For å se hvorfor disse to størrelsene er forskjellige, kan vi låne et eksempel fra Cumming (2012, s. 27). Gitt at noen leser denne teksten, så er det veldig sannsynlig at de også kan snakke norsk: P (snakker norsk | leser denne teksten) = nesten 1. Derimot er det, til tross for Psykologisk.no sin stadig økende popularitet, ganske lite sannsynlig at man leser denne teksten gitt at man snakker norsk: P (leser denne teksten | snakker norsk) = bare litt over 0.

Den p-verdien vi får ut av NHST-prosedyren, er altså noe helt annet enn det vi egentlig vil ha. Det vi vil ha – sannsynligheten for hypotesen gitt data, P(H0|D) – er definert av Bayes’ læresetning, som vi har stiftet bekjentskap med i en tidligere utgave av denne spalten. Selv om flere nå enn før argumenterer for at det nettopp er Bayes’ læresetning, og ikke NHST, som bør være kjernen i våre statistiske analyser av forskningsdata, er heller ikke det noen enkel eller uproblematisk løsning. For å beregne P(H0|D) med Bayes’ læresetning trenger vi nemlig opplysninger vi sjelden har. For eksempel vet vi sjelden hva P(H0) i utgangspunktet er.

I følge kritikerne er det akkurat her vi svært ofte trør feil på veien fra data til kunnskap. Cohen (1994) formulerer det slik: «[NHST-prosedyren] forteller oss ikke det vi vil vite, og vi vil så veldig gjerne vite det vi vil vite, at vi, i desperasjon, likevel tror at den gjør det!» (s. 997, min oversettelse). Vi tar P(D|H0) for å være P(H0|D), selv om dette er ren ønsketenkning. Med andre ord, vi tror feilaktig at p-verdien er sannsynligheten for at H0 er sann. Det er denne feilslutningen som begås i punkt 5 i prosedyrebeskrivelsen over.

Verre enn vi tror?

Men, altså … Er dette egentlig så ille, da? Intuisjonen vår synes å trekke oss sterkt i retning av denne angivelige feilslutningen. Hvis det er veldig lite sannsynlig at vi kunne få det resultatet vi har fått – en slik sammenheng eller forskjell – under en antakelse om at nullhypotesen er sann, så virker det nokså tilforlatelig å slutte at nullhypotesen dermed sannsynligvis ikke er sann.

Intuisjoner til tross, dette er og blir en ugyldig slutning. Dette innrømmer også noen av de som forsvarer NHST-prosedyren. Det er en kjensgjerning at P(D|H0) ikke er det samme som P(H0|D), men enkelte har ment at det likevel er forsvarlig å bruke NHST. De har blant annet argument med at P(D|H0) i det minste korrelerer med P(H0|D). Dessverre er det lite som tyder på at den korrelasjonen er noe særlig å skryte av. David Trafimow og Stephen Rice (2009) ved New Mexico State University har undersøkt sammenhengen mellom ulike verdier av P(D|H0) og P(H0|D) i fiktive datasett med god spredning av verdier på alle de størrelsene som inngår i Bayes’ læresetning. De finner at korrelasjonen i beste fall er moderat, og trolig ofte i realiteten nokså liten. Det betyr at P(D|H0) ikke bare er et litt usikkert utgangspunkt for å forutsi P(H0|D), men et temmelig dårlig et.

Dermed kan det se ut til at NHST er et lite egnet hjelpemiddel når vi forsøker å ta rede på hvor mye tiltro vi skal ha til våre hypoteser.

Hva gjør vi da?

NHST-prosedyren har i mange tiår vært gjenstand for hard kritikk, men vi fortsetter å bruke den til tross for de påpekte svakhetene. Hvorfor er det slik? Bør vi ikke slutte med NHST?

Det er nærliggende å tro at nåværende signifikans­testing har med intellektuell latskap å gjøre.

En utfordring er muligens at de mest aktuelle alternativene, for eksempel analyser basert på Bayes’ læresetning (se f.eks. Kruschke, 2010) eller en tilnærming som vektlegger effektstørrelser, konfidensintervaller og metaanalyser (se f.eks. Cumming, 2012), heller ikke er uproblematiske.

Men det er vel nærliggende å tro at motviljen mot å erstatte NHST også har med intellektuell latskap å gjøre. Og kanskje synes vi i tillegg at det er litt utrygt å gi slipp på vår statistiske barnetro, selv om vi innerst inne innser at den er en smule absurd.

Jeg synes vi skylder både oss selv og faget vårt å i det minste ta et lite skritt i retning av en løsrivelse fra NHST. Vi kunne jo begynne med å anerkjenne at de problemene både blivende og erfarne psykologifagfolk har med å forstå og forklare betydningen av p-verdien, har sitt utspring i det faktum at NHST-prosedyren, slik den vanligvis praktiseres, bygger på en feilslutning.

Kilder

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003. doi:10.1037/0003-066x.49.12.997

Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. Hove, England: Taylor & Francis Group.

Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. I G. Keren og A. Lewis (red.), A handbook for data analysis in the behavioral sciences (bind 1, s. 311–339). Hillsdale, NJ: Erlbaum.

Kruschke, J. K. (2010). Doing Bayesian data analysis: A tutorial with R and BUGS. Burlington, MA: Academic Press.

Trafimow, D. (2003). Hypothesis testing and theory evaluation at the boundaries: Surprising insights from Bayes’s theorem. Psychological Review, 110(3), 526–535. doi:10.1037/0033-295X.110.3.526

Trafimow, D. & Rice, S. (2009). A test of the null hypothesis significance testing procedure correlation argument. Journal of General Psychology, 136(3), 261–269. doi:10.3200/GENP.136.3.261-270

Westover, M. B., Westover, K. & Bianchi, M. (2011). Significance testing as perverse probabilistic reasoning. BMC Medicine, 9, 1–20. doi:10.1186/1741-7015-9-20

  1. Egentlig stammer dagens NHST fra to ulike måter å tenke på: Ronald Fischers signifikanstesting, og Neyman og Pearsons nullhypotesetesting. Den moderne overleveringen er en slags hybrid av de to, og her ligger noe av problemet med den, mener kritikerne (se f.eks. Gigerenzer, 1993). [↩]

Siste saker

Da psykologien kom til Norge

  • Pluss, Ukas klassiker

Mistet legeautorisasjonen: – Vil med garanti føre til mer depresjon, rus og illegale hormoner

  • Nyheter, Pluss

Frustrert sykepleier: – Jobber for å leve, lever ikke for å jobbe

  • Nyheter, Pluss

Helse- og omsorgsministeren: – Det vil bli færre ansatte

  • Nyheter, Pluss

La oss knuse myter om spiseforstyrrelser

  • Bokutdrag, Nyheter

Unge samer opplever trakassering og hets. Bunner fordommene i uvitenhet?

  • Nyheter, Pluss

Narsissismens ABC

  • Nyheter, Ytringer

Psykologforeningen: – Utilstrekkelig behandling av pasientene er et stort problem

  • Nyheter, Pluss

Foreslår å kutte behandlinger uten «god nok» dokumentert effekt

  • Nyheter, Pluss

Hva er «den magiske sko-illusjonen»? Og hvorfor fungerer den annerledes for personer med spiseforstyrrelser?

  • Nyheter, Pluss

Studenter som opplever mening i livet, drikker mindre

  • Nyheter, Pluss

Julianne kjemper for mødrene: – Våre behov blir redusert til fordel for grønne tall i budsjettet

  • Nyheter, Pluss

Mest lest

– Den vanligste personlighets­forstyrrelsen er lettest å overse

    Gaslighting: – En ondskapsfull teknikk for å ta kontroll over et annet menneske

      Oppdaget mulig årsak til emosjonelt ustabil personlighets­forstyrrelse

        Visse livsstiler øker faren for demens betraktelig

          Sinte voksne barn

            Nevroforsker om ADHD-diagnosen: – Det er ikke en enhetlig tilstand

              Dette skjer med oss når vi opplever det mystiske fenomenet dissosiasjon

                En bestemt oppførsel hos barn kan være tegn på senere angstlidelse

                  – Psykisk vold dreper kjærlighet

                    Slik utnytter narsissisten din emosjonelle intelligens

                      Pia la om kostholdet og ble kvitt angsten

                        De tre søylene for god psykisk helse

                          Tegnene på at du sliter med kronisk stress

                            Med én enkel påstand kan du nå avsløre om noen lyver

                              Tre faktorer kan svært presist forutsi psykiske lidelser

                                Hva skal til for å komme over et traume?

                                  Nye følelsesfunn i dypet av høysensitive hjerner

                                    Slik er kjærlighetslivet med en narsissist


                                      Redaksjonen anbefaler

                                      Monologiske mennesker

                                      • Fra terapirommet med Kirsti Jareg, Pluss

                                      Kast månedskortet til bekymringsbussen

                                      • Gutta fra Psykologlunsj

                                      La oss teste en hypotese om sjalusi

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      De fire temperamentene fra antikken

                                      • Pluss, Ukas klassiker

                                      Hva er melankoli?

                                      • Hverdagspsykologi med Eirik Hørthe, Pluss

                                      Småtinget

                                      • Kjærleik & liv med Anne Marie Fosse Teigen

                                      Frenologi: Den gangen folk trodde hodeskallen var nøkkelen til psyken

                                      • Pluss, Ukas klassiker

                                      Godt nok, er det bra nok? En øvelse i anti-perfeksjonisme*

                                      • Hverdagspsykologi med Eirik Hørthe

                                      Har du fokus?

                                      • Kritisk tenkning med Torstein Låg

                                      Rasisme er ikke en del av vår natur

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      Superbrillene som redder nattesøvnen

                                      • Gutta fra Psykologlunsj

                                      Tre av Freuds merkeligste ideer

                                      • Pluss, Ukas klassiker

                                      Torstein Låg

                                      Torstein Låg er fagansvarlig for psykologi, psykiatri og filosofi på Universitetsbiblioteket ved UiT Norges arktiske universitet. Han er utdannet psykolog og har doktorgrad i kognitiv psykologi. De faglige interessene hans favner vidt, men ofte knytter de seg til hvordan vi forstår, misforstår, bruker og misbruker informasjon.

                                      Meld deg på nyhetsbrev fra Psykologisk.no

                                      • Psykologisk.no AS​
                                        C. J. Hambros plass 5
                                        0164 Oslo
                                        912 389 782 MVA
                                      • Tips oss
                                      • Kundeservice
                                      • Skriv innlegg
                                      • Bli annonsør
                                      • Redaksjon
                                      • Personvern
                                      • Ansvarlig redaktør
                                        Pål Johan Karlsen
                                      • Redaksjonssjef
                                        Jonas Hartford Sundquist
                                      • Markedssjef
                                        Vera Thorvarsdottir
                                      Facebook-f Twitter Linkedin

                                      Psykologisk.no er medlem av Mediebedriftenes Landsforening og arbeider etter Vær varsom-plakatens regler for god presseskikk.

                                      Kopibeskyttet © 2023