• Nyheter
    • Pluss-innhold
    • Arbeidsliv
    • Psykologi-folk
    • Nye bøker
    • Podkaster og videoer
      • Pia og psyken
      • Psykologlunsj
      • Psykologisk salong
      • Videoer
  • Ideer
    • Ytringer
    • Bokutdrag
    • Spalter
      • Forebygg depresjon med Arne Holte
      • Fra terapirommet med Kirsti Jareg
      • Hverdagspsykologi med Eirik Hørthe
      • Kjærleik & liv med Anne Marie Fosse Teigen
      • Kritisk tenkning med Torstein Låg
      • Menneskets natur med Leif Edward Ottesen Kennair
      • Gutta fra Psykologlunsj
      • Månedens klassiker
    • Scandinavian Psychologist
  • Aktiviteter
  • Stillinger
  • Bli abonnent
  • Kontakt oss
    • Tekstbidrag
    • Annonser
    • Ansatte
Meny
  • Nyheter
    • Pluss-innhold
    • Arbeidsliv
    • Psykologi-folk
    • Nye bøker
    • Podkaster og videoer
      • Pia og psyken
      • Psykologlunsj
      • Psykologisk salong
      • Videoer
  • Ideer
    • Ytringer
    • Bokutdrag
    • Spalter
      • Forebygg depresjon med Arne Holte
      • Fra terapirommet med Kirsti Jareg
      • Hverdagspsykologi med Eirik Hørthe
      • Kjærleik & liv med Anne Marie Fosse Teigen
      • Kritisk tenkning med Torstein Låg
      • Menneskets natur med Leif Edward Ottesen Kennair
      • Gutta fra Psykologlunsj
      • Månedens klassiker
    • Scandinavian Psychologist
  • Aktiviteter
  • Stillinger
  • Bli abonnent
  • Kontakt oss
    • Tekstbidrag
    • Annonser
    • Ansatte
Søk
Lukk
Kritisk tenkning med Torstein Låg

Vis meg din p-verdi, og … hva så?

Den mest brukte prosedyren i psykologisk forskning bygger på en gedigen feilslutning, skriver Torstein Låg.

SANNSYNLIGHETSREGNING: Kanskje synes vi forskere i psykologi at det er litt utrygt å gi slipp på vår statistiske barnetro, selv om vi innerst inne innser at signifikanstestingen vi driver med, er en smule absurd, skriver Torstein Låg. Illustrasjon: SCFiasco / Flickr.

Torstein Låg

Sist oppdatert: 15.08.16  Publisert: 15.08.16

Forfatterinfo

Torstein Låg

Torstein Låg er fagansvarlig for psykologi, psykiatri og filosofi på Universitetsbiblioteket ved UiT Norges arktiske universitet. Han er utdannet psykolog og har doktorgrad i kognitiv psykologi. De faglige interessene hans favner vidt, men ofte knytter de seg til hvordan vi forstår, misforstår, bruker og misbruker informasjon.

Hva betyr egentlig p < .05? Hva forteller en p-verdi oss? Disse spørsmålene får alle psykologistudenter bryne seg på i løpet av sitt første metodekurs. År senere, etter noen titalls studiepoeng i statistikk og metode, kan de aller fleste av dem spytte ut p-verdier over en lav sko ved hjelp av brukervennlig programvare.

Men fortsatt kan de færreste av studentene forklare hva en p-verdi betyr. Flere av lærerne som har undervist dem i årenes løp, og som vanemessig publiserer forskningsrapporter pepret med p-verdier, kan det heller ikke.

Er det et problem? Ja, mener mange. Skjønt, det verste er kanskje ikke at vi sliter med å forklare hva en p-verdi betyr, men heller at vi, i psykologien og i noen andre fag, fortsetter å bruke en hypotesetestingsrutine som ikke henger på greip.

Hva slags argumenter er det som ligger bak en slik påstand? Først skal vi se på i hvilke sammenhenger en regner ut p-verdien, og deretter hva den faktisk sier oss. Deretter skal vi undersøke hva som er kjernen i en av de vanligste og mest alvorlige misforståelsene vedrørende denne.

Hypotesetestingens (u)logikk

Forskning handler blant annet om å ta rede på hvor mye tiltro vi skal ha til ulike påstander – hypoteser – om virkeligheten. Et ledd i denne virksomheten er å «teste» hypotesene. Prinsipielt kan dette gjøres på ulike måter, men i praksis foregår det, i hvert fall i psykologien, i hovedsak etter et nokså fastlåst knippe uskrevne regler. Sammen er de kjent som nullhypotesetesting eller signifikanstesting (ofte forkortet NHST, for «null hypothesis significance testing»1). Logikken er som følger (basert på Trafimow, 2003):

  1. Vi har en hypotese vi ønsker å teste. Det kan være hva som helst, for eksempel at det er en sammenheng mellom utadvendthet og intelligens. Denne hypotesen kalles gjerne for forskningshypotesen, og betegnes med H1.
  2. Med utgangspunkt i forskningshypotesen formulerer vi en nullhypotese. Nullhypotesen skal formuleres som en logisk negasjon av forskningshypotesen, og de to skal sammen uttømme mulighetsrommet, for eksempel at det ikke er en sammenheng mellom utadvendthet og intelligens. Nullhypotesen betegnes gjerne H0.
  3. Tredje skritt er å gjøre et representativt utvalg observasjoner, altså samle inn data. Vi kan for eksempel måle utadvendthet og intelligens i et utvalg personer fra populasjonen vi er interessert i, og så regne ut en korrelasjonskoeffisient (et mål på sammenheng mellom to variabler).
  4. Samtidig regner vi ut sannsynligheten for å få det resultatet vi faktisk har fått (eller et mer ekstremt et), hvis vi antar at nullhypotesen er sann. Vi regner altså ut P(D|H0) (leses som «sannsynligheten for data, gitt nullhypotesen»), og det er dette som er den berømte p-verdien.
  5. Hvis p-verdien – sannsynligheten for data gitt nullhypotesen, P(D|H0) – er under en viss verdi (normalt 0,05), så sier vi at resultatet er «statistisk signifikant», og vi slutter at H0 sannsynligvis ikke er sann, og gjerne også at H1 derfor er sannsynliggjort.

Mange studenter opplever dette som vanskelig å bli fortrolig med, vanskelig å forstå og dermed vanskelig å lære. Det er kanskje ikke så rart. Når vi er interessert i hvor mye tiltro vi skal ha til H1, hvorfor regner vi da ut sannsynligheten for å få gitte data under en antakelse om at dens negasjon er sann? Sa du «innvikla», sa du? Dette kan noen og enhver stusse på i klare øyeblikk. Geoff Cumming, forfatter av læreboka Understanding the New Statistics (Cumming, 2012), berømmer alle som synes dette er rart. Svaret er vel at vi regner ut nettopp P(D|H0) og ikke noe annet, fordi denne verdien faktisk er nokså enkel å regne ut.

Køen av kritikere av denne logikken er lang, og katalogen over innvendinger mot NHST er fyldig og variert (se f.eks. Cohen, 1994, eller Westover, Westover & Bianchi, 2011, for lesbare fremstillinger). Innvendingene har som regel å gjøre med at veien fra p-verdien vår, altså fra P(D|H0) og til P(H1), er for lang, og at vi, med bare NHST til å hjelpe oss, rett og slett ikke kan ta oss fra den ene til den andre på logisk lovlig vis. Dermed tar vi snarveier, med det resultat at vi snubler ut i en krattskog av skumle feilslutninger. Her skal vi ta for oss én av disse angivelige feilslutningene, som trolig også utgjør den vanligste misforståelsen hva angår p-verdien.

P(D|H0) er ikke P(H0|D)

Et av problemene med p-verdien er at den ikke forteller oss det vi aller helst vil vite. Det vi jo vil vite, er hvor sannsynlig nullhypotesen (og dens logiske motsats, forskningshypotesen) er. Og dataene vi samler inn i undersøkelser og eksperimenter, samler vi jo inn nettopp fordi vi vil at de skal kunne fortelle oss noe om dette. Det vi vil vite, er altså sannsynligheten for H0 gitt data: P(H0|D). Men, som vi har sett, gir p-verdien oss sannsynligheten for data gitt nullhypotesen: P(D|H0).

For å se hvorfor disse to størrelsene er forskjellige, kan vi låne et eksempel fra Cumming (2012, s. 27). Gitt at noen leser denne teksten, så er det veldig sannsynlig at de også kan snakke norsk: P (snakker norsk | leser denne teksten) = nesten 1. Derimot er det, til tross for Psykologisk.no sin stadig økende popularitet, ganske lite sannsynlig at man leser denne teksten gitt at man snakker norsk: P (leser denne teksten | snakker norsk) = bare litt over 0.

Den p-verdien vi får ut av NHST-prosedyren, er altså noe helt annet enn det vi egentlig vil ha. Det vi vil ha – sannsynligheten for hypotesen gitt data, P(H0|D) – er definert av Bayes’ læresetning, som vi har stiftet bekjentskap med i en tidligere utgave av denne spalten. Selv om flere nå enn før argumenterer for at det nettopp er Bayes’ læresetning, og ikke NHST, som bør være kjernen i våre statistiske analyser av forskningsdata, er heller ikke det noen enkel eller uproblematisk løsning. For å beregne P(H0|D) med Bayes’ læresetning trenger vi nemlig opplysninger vi sjelden har. For eksempel vet vi sjelden hva P(H0) i utgangspunktet er.

I følge kritikerne er det akkurat her vi svært ofte trør feil på veien fra data til kunnskap. Cohen (1994) formulerer det slik: «[NHST-prosedyren] forteller oss ikke det vi vil vite, og vi vil så veldig gjerne vite det vi vil vite, at vi, i desperasjon, likevel tror at den gjør det!» (s. 997, min oversettelse). Vi tar P(D|H0) for å være P(H0|D), selv om dette er ren ønsketenkning. Med andre ord, vi tror feilaktig at p-verdien er sannsynligheten for at H0 er sann. Det er denne feilslutningen som begås i punkt 5 i prosedyrebeskrivelsen over.

Verre enn vi tror?

Men, altså … Er dette egentlig så ille, da? Intuisjonen vår synes å trekke oss sterkt i retning av denne angivelige feilslutningen. Hvis det er veldig lite sannsynlig at vi kunne få det resultatet vi har fått – en slik sammenheng eller forskjell – under en antakelse om at nullhypotesen er sann, så virker det nokså tilforlatelig å slutte at nullhypotesen dermed sannsynligvis ikke er sann.

Intuisjoner til tross, dette er og blir en ugyldig slutning. Dette innrømmer også noen av de som forsvarer NHST-prosedyren. Det er en kjensgjerning at P(D|H0) ikke er det samme som P(H0|D), men enkelte har ment at det likevel er forsvarlig å bruke NHST. De har blant annet argument med at P(D|H0) i det minste korrelerer med P(H0|D). Dessverre er det lite som tyder på at den korrelasjonen er noe særlig å skryte av. David Trafimow og Stephen Rice (2009) ved New Mexico State University har undersøkt sammenhengen mellom ulike verdier av P(D|H0) og P(H0|D) i fiktive datasett med god spredning av verdier på alle de størrelsene som inngår i Bayes’ læresetning. De finner at korrelasjonen i beste fall er moderat, og trolig ofte i realiteten nokså liten. Det betyr at P(D|H0) ikke bare er et litt usikkert utgangspunkt for å forutsi P(H0|D), men et temmelig dårlig et.

Dermed kan det se ut til at NHST er et lite egnet hjelpemiddel når vi forsøker å ta rede på hvor mye tiltro vi skal ha til våre hypoteser.

Hva gjør vi da?

NHST-prosedyren har i mange tiår vært gjenstand for hard kritikk, men vi fortsetter å bruke den til tross for de påpekte svakhetene. Hvorfor er det slik? Bør vi ikke slutte med NHST?

Det er nærliggende å tro at nåværende signifikans­testing har med intellektuell latskap å gjøre.

En utfordring er muligens at de mest aktuelle alternativene, for eksempel analyser basert på Bayes’ læresetning (se f.eks. Kruschke, 2010) eller en tilnærming som vektlegger effektstørrelser, konfidensintervaller og metaanalyser (se f.eks. Cumming, 2012), heller ikke er uproblematiske.

Men det er vel nærliggende å tro at motviljen mot å erstatte NHST også har med intellektuell latskap å gjøre. Og kanskje synes vi i tillegg at det er litt utrygt å gi slipp på vår statistiske barnetro, selv om vi innerst inne innser at den er en smule absurd.

Jeg synes vi skylder både oss selv og faget vårt å i det minste ta et lite skritt i retning av en løsrivelse fra NHST. Vi kunne jo begynne med å anerkjenne at de problemene både blivende og erfarne psykologifagfolk har med å forstå og forklare betydningen av p-verdien, har sitt utspring i det faktum at NHST-prosedyren, slik den vanligvis praktiseres, bygger på en feilslutning.

Kilder

Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003. doi:10.1037/0003-066x.49.12.997

Cumming, G. (2012). Understanding the new statistics: Effect sizes, confidence intervals, and meta-analysis. Hove, England: Taylor & Francis Group.

Gigerenzer, G. (1993). The superego, the ego, and the id in statistical reasoning. I G. Keren og A. Lewis (red.), A handbook for data analysis in the behavioral sciences (bind 1, s. 311–339). Hillsdale, NJ: Erlbaum.

Kruschke, J. K. (2010). Doing Bayesian data analysis: A tutorial with R and BUGS. Burlington, MA: Academic Press.

Trafimow, D. (2003). Hypothesis testing and theory evaluation at the boundaries: Surprising insights from Bayes’s theorem. Psychological Review, 110(3), 526–535. doi:10.1037/0033-295X.110.3.526

Trafimow, D. & Rice, S. (2009). A test of the null hypothesis significance testing procedure correlation argument. Journal of General Psychology, 136(3), 261–269. doi:10.3200/GENP.136.3.261-270

Westover, M. B., Westover, K. & Bianchi, M. (2011). Significance testing as perverse probabilistic reasoning. BMC Medicine, 9, 1–20. doi:10.1186/1741-7015-9-20

  1. Egentlig stammer dagens NHST fra to ulike måter å tenke på: Ronald Fischers signifikanstesting, og Neyman og Pearsons nullhypotesetesting. Den moderne overleveringen er en slags hybrid av de to, og her ligger noe av problemet med den, mener kritikerne (se f.eks. Gigerenzer, 1993). [↩]

Siste saker

– Livet oppsto på kanten av kaos

  • Nyheter, Pia og psyken, Podkaster

Lege fikk begrenset autorisasjon etter å ha gitt pasientene ketamin. Måneder senere ble ketamin godkjent som behandling

  • Nyheter

Tre myte­omspunnede psykologiske begreper som har hentet sitt navn fra litteraturens verden

  • Hverdagspsykologi med Eirik Hørthe, Pluss

Sprer du giftig positivitet? Fire spørsmål kan avsløre deg

  • Nyheter, Pluss

Folk ble mer kreative under pandemien

  • Nyheter, Pluss

Hvor livlig fantasi har du? Det kan pupillene dine avsløre

  • Nyheter, Pluss

En religiøs oppdragelse styrker barns tro på mirakler

  • Nyheter, Pluss

Ny folkehelse­kampanje for psykisk helse

  • Nyheter

Folk høye på narsissisme følger sjeldnere pandemirestriksjoner

  • Nyheter, Pluss

Blåbær kan forebygge demens, hevder studie

  • Nyheter, Pluss, Ukas forskning

Stolthet og fordom – mitt møte med ME

  • Ytringer

Ny rapport viser «betydelige utfordringer for funksjonshemmedes ytringsfrihet i Norge»

  • Nyheter

Mest lest

– Den vanligste personlighets­forstyrrelsen er lettest å overse

    Gaslighting: – En ondskapsfull teknikk for å ta kontroll over et annet menneske

      Sinte voksne barn

        Oppdaget mulig årsak til emosjonelt ustabil personlighets­forstyrrelse

          Pia la om kostholdet og ble kvitt angsten

            De tre søylene for god psykisk helse

              Nye følelsesfunn i dypet av høysensitive hjerner

                Slik er kjærlighetslivet med en narsissist

                  Nevroforsker om ADHD-diagnosen: – Det er ikke en enhetlig tilstand

                    Hvorfor er det så vanskelig å gjøre det slutt?

                      Med én enkel påstand kan du nå avsløre om noen lyver

                        – Psykisk vold dreper kjærlighet

                          Hva skal til for å komme over et traume?

                            Er du et A- eller B-menneske? Det henger sammen med personligheten din

                              Tegnene på at du sliter med kronisk stress

                                Narsissisme – kan du holde ut?

                                  En bestemt oppførsel hos barn kan være tegn på senere angstlidelse

                                    Dette skjer med oss når vi opplever det mystiske fenomenet dissosiasjon


                                      Redaksjonen anbefaler

                                      La oss teste en hypotese om sjalusi

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      Blendes vi av nevrobling?

                                      • Kritisk tenkning med Torstein Låg

                                      Har du noen gang angret på et engangsligg?

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      Klar for litt selvmedfølelse i høstmørket?

                                      • Hverdagspsykologi med Eirik Hørthe

                                      Seksualopplysningen må bli mer psykologisk orientert

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      Kan ei kjærleg hand erstatte Paracet?

                                      • Kjærleik & liv med Anne Marie Fosse Teigen

                                      Å være seg selv er vanskelig, selv om Pippi får det til å se enkelt ut

                                      • Hverdagspsykologi med Eirik Hørthe

                                      Den som har minst å skjule, er mest redd for å bli avslørt

                                      • Hverdagspsykologi med Eirik Hørthe, Pluss

                                      Gjøken og hva den kan lære oss om sex

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      Zimbardos fengselsstudie

                                      • Månedens klassiker

                                      Søsterkjærlighet

                                      • Menneskets natur med Leif Edward Ottesen Kennair

                                      En klassisk studie av læring

                                      • Månedens klassiker

                                      Torstein Låg

                                      Torstein Låg er fagansvarlig for psykologi, psykiatri og filosofi på Universitetsbiblioteket ved UiT Norges arktiske universitet. Han er utdannet psykolog og har doktorgrad i kognitiv psykologi. De faglige interessene hans favner vidt, men ofte knytter de seg til hvordan vi forstår, misforstår, bruker og misbruker informasjon.

                                      Meld deg på nyhetsbrev fra Psykologisk.no

                                      • Psykologisk.no AS​
                                        Apotekergata 10
                                        0180 Oslo
                                        912 389 782 MVA
                                      • Tips oss
                                      • Bli annonsør
                                      • Bli bidragsyter
                                      • Redaksjon
                                      • Scandinavian Psychologist
                                      • Personvern
                                      • Ansvarlig redaktør
                                        Pål Johan Karlsen
                                      • Redaksjonssjef
                                        Jonas Hartford Sundquist
                                      • Markedssjef
                                        Vera Thorvarsdottir
                                      Facebook-f Twitter Linkedin

                                      Psykologisk.no er medlem av Mediebedriftenes Landsforening og arbeider etter Vær varsom-plakatens regler for god presseskikk.

                                      Kopibeskyttet © 2022