Statistisk dataanalyse på 1-2-3

Page 1


Christer Thrane

Statistisk dataanalyse pĂĽ 1-2-3

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 3

07/05/2020 10:51


Innhold Forord.. . . . . ........................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Kapittel 1 Innledning............................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Statistisk dataanalyse, statistikk og bokens målgrupper.. . . . . . . . . . . . . . 1.2 Vi er alle gode hverdagsstatistikere, eller?.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Resten av boken og dens disposisjon. . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 11 16 20

Kapittel 2 Hva er typisk? Om statistisk utbredelse.. .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Introduksjon.. .................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Det typiske i data 1: sentraltendens. . ...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Det typiske i data 2: andeler og modus... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Sentraltendens for ordinalvariabler....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Variasjon og spredning....................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Oppsummering.. ............................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Appendiks 2A: Statistiske resultater i SPSS.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Appendiks 2B: Statistiske resultater i Stata.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24 24 25 30 33 36 37 39 41

Kapittel 3 Om hvordan variabler henger i hop: om statistisk samvariasjon. . . . . . . . 3.1 Introduksjon 1: eggspising og kolesterolnivå.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Introduksjon 2: samvariasjon i samfunnsvitenskapen.. . . . . . . . . . . . . . . . . 3.3 Tre teknikker for å studere samvariasjon: regresjon, variansanalyse og krysstabulering. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Oppsummering.. ............................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Appendiks 3A: Regresjon i SPSS/Stata.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43 43 47 48 57 58

7

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 7

07/05/2020 10:51


innhold

Appendiks 3B:Variansanalyse i SPSS/Stata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Appendiks 3C:Krysstabulering i SPSS/Stata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Kapittel 4 Samvariasjon eller årsak-virkning-sammenheng (kausalsammenheng)?. . ...................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Introduksjon.. ............................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Statistisk kontroll for tredjevariabel: multippel regresjon.. . . . . . . . . . . . . 4.3 Eksperimentkontroll....................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Statistisk kontroll versus eksperimentkontroll: vurderinger.. . . . . . . . . . 4.5 To case: Kvinnelige lederes effekt på sykefravær og effekten av akupunktur på spedbarnskolikk...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Når årsaksretningen kan gå begge veier.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Indirekte og ikke-lineære effekter....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Oppsummering og videre lesning...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapittel 5 Induktiv statistikk: Hva betyr statistisk signifikans?.. . . . . . . . . . . . . . . . . . . . . 5.1 Introduksjon.. ............................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Populasjon, utvalg og tilfeldig trukne utvalg.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Statistisk feilmargin og konfidensintervall. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Statistisk signifikanstesting (hypotesetesting). . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Hvorfor større utvalg (nesten) alltid er bedre enn mindre utvalg.. . . 5.6 Statistisk signifikanstesting: ikke bare automatikk!.. . . . . . . . . . . . . . . . . . . . . 5.7 Oppsummering og videre lesning...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kapittel 6 Statistisk analyse: formidling og vurdering.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Introduksjon.. ............................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Formidling av statistiske funn: Studenters treningsvaner og kjøp av hvitvin på Vinmonopolet.. . . . . . 6.3 Når formidling ikke er rett frem: statistisk samspill.. . . . . . . . . . . . . . . . . . . . 6.4 Tips til formidling av statistiske analysers resultater til en bredere leserkrets.. ......................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Hvordan vurdere samvariasjonsstudier presentert i mediene?.. . . . . . 6.6 Sluttord.. ...................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

64 64 66 72 77 80 82 84 88

89 89 90 91 96 100 102 106

108 108 109 117 119 122 127

8

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 8

07/05/2020 10:51


innhold

Internettkilder i boken........................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Referanser. . ......................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Annen anbefalt litteratur.. ........................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 Stikkord. . . ........................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

9

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 9

07/05/2020 10:51


Kapittel 1

Innledning 1.1 Statistisk dataanalyse, statistikk og bokens målgrupper Før jul hvert år lanserer avisene smakstester av juleøl. For dem som liker juleøl, er dette en mulighet til å finne årets favoritt. For meg – les: lite opptatt av juleøl; mer enn litt interessert i statistisk analyse – er en slik test noe annet: data. Data er, som vi skal se mange eksempler på i denne boken, drivstoffet for statistiske analyser.1 Kikk på Tabell 1.1. Denne viser karakter på smakstest og flaskepris for fem sorter juleøl, der smaken er målt på en skala fra null (dvs. totalt smakløs) til ti (dvs. perfekt smak). Tabell 1.1 Karakter på smakstest og pris per flaske (0,33 l) for fem sorter juleøl. Juleøl, nummer/navn:

Karakter på smakstest

Pris per flaske (kr/0,33 l)

1 Bennys juleøl

7

63

2 Askhaugs juleøl

6

65

3 Hjalmars juleøl

9

70

4 Granlunds juleøl

8

75

5 Olas juleøl

6

59

1

Av hensyn til språklig enkelhet benytter jeg i denne boken begrepet statistisk analyse fremfor statistisk dataanalyse. Men strengt tatt er nok dataanalyse det mest korrekte.

11

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 11

07/05/2020 10:51


kapittel 1

Hva forteller dataene i tabellen? Et raskt blikk på kolonnen for karakter sier oss at Hjalmars juleøl med ni poeng er kåret til å ha best smak, og at Askhaugs og Olas juleøl deler sisteplassen med seks poeng hver. Når det gjelder pris, er Granlunds juleøl det dyreste og Olas juleøl det billigste. For ølkjennere er kanskje informasjonen om den enkelte ølsorten interessant. Fra mitt perspektiv er imidlertid de individuelle ølsortene av liten interesse; det interessante fra et statistisk ståsted er hva som er typisk for alle ølsortene med hensyn til smak og pris. Hvordan finne ut av dette? Her er det enkelt. Vi ser over tallene i kolonnen for smaks­ karakter og konkluderer kjapt med at ølsortene jevnt over har fått en god smaksvurdering – med mellom seks og ni poeng på skalaen fra null til ti. Er vi litt mer formelle av oss, kan vi summere poengene for hver ølsort og dividere på fem: 7 + 6 + 9 + 8 + 6 = 36; 36/5 = 7,2. Vi har nå gjort én statistisk analyse! På skalaen fra null til ti får juleølene 7,2 poeng i gjennomsnitt. Vi konkluderer igjen med at den typiske ølen i testen er god. Tilsvarende er gjennomsnittsprisen per flaske juleøl 66,40 kr; dette er nok en statistisk analyse. Regn ut dette gjennomsnittet selv hvis du er usikker! Vi har allerede gjort to statistiske analyser, og du har neppe falt av lasset. Dette understreker et annet og viktig poeng. Statistisk analyse er ofte ikke veldig mye mer komplisert enn som så. Og det er i hvert fall ikke så komplisert som mange skal ha det til – noe jeg håper å illustrere i denne korte boken. Som så ofte ellers, er det likevel også her et men. I dataene er det fem ølsorter, og da er det enkelt å se hva som er typisk. Men hva om 30 ølsorter hadde blitt testet; at det var 30 rader i dataene? Da er det verre å se det typiske ved bare å kikke på dataene. Og det er tidkrevende. Hva med 70 ølsorter? Nesten umulig å se noe som helst. Hva med å regne ut gjennomsnittet på kalkulator når man har 30 eller 70 ølsorter? Mulig, men tidkrevende og stor risiko for å regne feil. Så i praksis benyttes et statistikkprogram til slik beregning – eller til å gjøre andre statistiske analyser – når antallet enheter er flere enn 30. (I Tabell 1.1. utgjør ølsor-

12

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 12

07/05/2020 10:51


innledning

tene enhetene, for ikke å si alkoholenhetene, i dataene!) Og flere enn 30 enheter har vi nesten alltid når vi gjør en statistisk analyse i virkeligheten. Tilbake til dataene. Er det sammenfall mellom karakteren på smaks­ testen og prisen på ølen? Vi ser at de to sortene med best karakter (Hjalmars og Granlunds) også er de dyreste, men at Granlunds med nest best karakter er dyrest. Vi ser videre at Askhaugs juleøl koster mer enn Bennys og Olas, men at det ikke har fått bedre karakter. Det er altså litt uklart om bedre smak på øl sammenfaller med høyere flaskepris. Hva om det hadde vært 30 ølsorter i dataene? Da ville det uansett ha vært umulig å se om det var, eller ikke var, et slikt sammenfall mellom smak og pris. Som vi skal få vite mer om i kapittel 3 og 4, fikser et statistikkprogram dette også. Begrepet statistisk analyse gir flere assosiasjoner. For noen trigges nysgjerrighet og fascinasjon, men denne gruppen er neppe så stor. Min erfaring tilsier at en mye større gruppe består av to fraksjoner med et varierende innbyrdes størrelsesforhold: (a) de som tenker uinteressant, nødvendig onde og kjedelig, og (b) de som umiddelbart fornemmer angst, kallsvette og den sterke følelsen av manglende mestring. Formålet med denne boken er blant annet at de to siste fraksjonene skal settes i stand til å bli litt mer fascinert av statistisk analyse. Dette er en tøff, men oppnåelig målsetting. Håper jeg. Statistisk analyse og statistikk har mange berøringsflater. Enkelt kan vi si at mens statistikk er et fag, så er statistisk analyse noe som gjøres i dette faget. Oftest er det riktig å si at statistikk og statistiske funn er resultatet av statistiske analyser. Denne boken handler om hvordan statistisk analyse gjøres, og om hvordan man kan tolke resultater fra statistiske analyser – typisk hentet fra en forskningssammenheng. Men den handler også om hvordan resultater fra statistiske analyser bør videreformidles til leserne, og om hvordan man kritisk bør vurdere resultater fra statistiske analyser. Om dette nå høres tungt og abstrakt ut, så vil det lysne etter hvert – det lover jeg. (Hold eventuelt fast i eksempelet om smak og pris på juleøl!) Vi overlesses med statistisk informasjon. Denne kan være basert på enkel opptelling, som at kvinner utgjorde 29 prosent av professorene i

13

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 13

07/05/2020 10:51


kapittel 1

Norge i 2018. Eller den kan bygge på statistisk analyse, som at gjennomsnittsinntekten til fotballspillerne i Eliteserien er på 900 000 kroner. (Ja, vi summerer de individuelle inntektene og deler på antall spillere!) Hva om det stod 35 prosent kvinnelige professorer over? Eller at inntekten var 750 000? Jeg ville ikke reagert, var det ikke for at jeg visste noe om dette. Hva med deg? Poenget er at det trengs en referanse for å vite om et tall er stort eller lite. Denne konteksten kan være ny informasjon eller en målestokk. Er et sykefravær på åtte prosent for yrkesgruppe A høyt? Hvis fraværet i gruppe B, som ellers ligner på gruppe A, er på elleve prosent, er svaret nei. Er fraværet for gruppe B derimot fem prosent, er svaret ja. Er tre dager gjennomsnittlig oppholdslengde på sykehus etter fødsel lenge? Spørsmålet er umulig å besvare uten en referanse. Som det heter i filmen Mitt liv som hund: «Man måste jämföra.» Eller som Stigler mer elegant formulerte det (2016, s. 63): «A measurement without context is just a number.» Behovet for sammenligning er essensielt i all statistikk. Men dette er neppe det første du tenker på når du hører om begrepet. Kanskje tenker du på den om tre typer løgn: løgn, forbannet løgn og statistikk? Bakgrunnen her er at statistiske funn kan tolkes på flere måter; både korrekte og mindre korrekte. En annen side ved statistikken handler om vårt forhold til tall som sådan. For mange går rullgardinen ned når tall, symboler og formler dukker opp, mens for andre handler det om å trenge helt til bunns i dette. De fleste, som undertegnede, ligger et sted mellom disse ytterpunktene. (Ja, trolig ligger de fleste omtrent rundt gjennomsnittet eller medianen, som vi skal se i kapittel 2!) Statistikkfaget har flere paradokser. Det er både veldig konkret og veldig abstrakt. Å sammenligne to pasientgrupper med hensyn til hvordan de reagerer på en medisin, er helt konkret. Derimot er ideen om hva som skjer hvis denne sammenligningen gjentas i det uendelige for nye pasienter, abstrakt. Videre gjøres statistisk analyse for å forenkle en stor datamengde til noe vi kan tolke. Samtidig blir det ofte diskusjon om den korrekte tolkningen av resultater fra statistiske analyser. Statistikk

14

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 14

07/05/2020 10:51


innledning

engasjerer med andre ord noen ganger på andre måter enn intendert. Det er også vanlig at uventede statistiske funn får store oppslag i media, selv om de viser seg å være uinteressante engangstilfeller. Motsatt blir ofte viktige statistiske funn som det var viktig å få bekreftet, avspist med små notiser eller stillhet. Denne boken handler om tolkning, formidling og vurdering av resultater fra statistiske analyser – typisk i en forskningskontekst. Boken er derfor ikke en lærebok i statistikk; dem er det allerede flust av. Men boken er heller ikke en lærebok i kvantitativ metode, som er faget om anvendelsen av statistisk analyse i forskning. Den ligger isteden mellom disse to; det vil si at den er en mer lettfattelig og litt populariserende fagbok om tolkning, formidling og vurdering av statistiske analyse­ resultater. Boken passer spesielt for deg som befinner deg i én eller flere av følgende tre målgrupper: A. Du som finner lærebøker i statistikk og kvantitativ metode for teknisk vanskelige eller for abstrakte (for ikke å si for kjedelige) til at du orker å henge med, men som trenger å lære litt om hvordan statistisk analyse gjøres, og hva som kommer ut av slike analyser. Tolkning står her i sentrum. B. Du som trenger hjelp til å presentere resultater fra (egne) statistiske analyser på en balansert og informativ måte. Formidling står her i fokus. C. Du som vil forstå hvordan forskning basert på statistisk analyse blir til med tanke på å øve opp din kritiske sans, men uten å måtte dypdykke ned i formler og likninger. Vurdering er stikkordet her. En fagbokforfatter med litt populariserende ambisjoner har mange utfordringer. Én av disse går på å finne balansen mellom presisjon og detaljer på den ene siden og krav til leservennlighet, rød tråd og fremdrift på den andre. I så måte benyttes fotnoter til detaljer, utdypinger og henvisninger. Om du ikke ser behov for dette når du kommer til en fotnote, er det bare

15

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 15

07/05/2020 10:51


kapittel 1

å hoppe over denne ved første gangs gjennomlesning. Ellers anbefales du å lese kapitlene i den rekkefølgen de står, siden kapittel 4 og 6 bygger direkte videre på kapittel 2 og 3. Kapittel 5 er mer frittstående, men følger opp kapittel 3 spesielt. Før vi starter på ordentlig: Hvordan er vi egentlig som statistikere i hverdagen?

1.2 Vi er alle gode hverdagsstatistikere, eller? På noen områder er mange intuitivt gode hverdagsstatistikere. Sier jeg at Per Pettersen (PP) scorer 0,8 mål per kamp han spiller i Eliteserien i fotball, utleder du trolig følgende: – PP har spilt et ukjent antall kamper til nå, og han har scoret i veldig mange av dem. – Har PP spilt 20 kamper til nå, har han scoret 16 mål totalt (8 av 10, 16 av 20 …). – Det er ikke sikkert at PP scorer i neste kamp, men det er sannsynlig at han gjør det gitt scoringshistorikken hans til nå. – Det kan skje at PP ikke scorer i neste kamp, og vi blir ikke nødvendigvis så veldig overrasket om PP går målløs av banen. Slutningene over er intuitive for mange selv om de bygger på kompleks kunnskap om statistiske fordelinger, sannsynlighet og prolongering fra fortid til fremtid. Tilsvarende tar vi med oss paraply når vi vet det er 78 prosent sannsynlighet for regn; på samme måte som et gjennomsnitt på 4,4 i matematikk gir en pekepinn på at neste prøve trolig blir en 4-er eller en 5-er. Kort sagt er vi gode hverdagsstatistikere på noen områder. Men ikke på alle, og det ser vi noen eksempler på under. Kikk på faktainformasjonen under, basert på en enkel statistisk opptelling:

16

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 16

07/05/2020 10:51


innledning

70 prosent av de som får spesialundervisning er gutter.

Basert på informasjonen hadde NRK følgende overskrift på en nyhetssak i 2019: «Norsk skole er ikke lagd for gutter».2 Hva forteller overskriften deg? Tenker du, som NRK, at 70 prosent er en stor andel, og derfor at det må være mange gutter i den norske skolen som sliter? Vel, sånn er det ikke når vi går bak tallene. For her viser det seg at bare åtte prosent av alle elever trenger spesialundervisning, noe som betyr at ni av ti gutter – altså 90 prosent av guttene – ikke trenger spesial­ undervisning. Og det er noe annet enn det som mer enn antydes i NRKs overskrift. Hva går galt her? Kort fortalt, men uten at du trenger å henge deg opp i detaljene, så benyttes en prosentdifferanse mellom kjønnene i en sub­ populasjon (jf. Definisjonsboks 1.1), dvs. elever som trenger spesialundervisning, til å trekke en slutning om alle norske gutter, dvs. en populasjon (jf. Definisjonsboks 1.1). Dette blir misvisende. Definisjonsboks 1.1 Populasjon og subpopulasjon: Populasjon = Alle av noe. Alle norske statsborgere, alle sysselsatte over 18 år, alle norske kvinner under 55 år, alle sorter juleøl som er tilgjengelig på ­Vinmonopolet, alle innsatte i norske fengsler og alle spillerne i Eliteserien i fotball. Subpopulasjon = En andel av alle av noe. Alle norske statsborgere som har bodd i Norge i minimum 20 år, alle sysselsatte over 18 år som er ansatt i hotellbransjen, alle norske kvinner under 55 år som er mødre, alle sorter norske juleøl som er tilgjengelig på Vinmonopolet, alle innsatte i norske fengsler som soner for voldshandlinger, og alle spillerne i Eliteserien i fotball som har spilt landskamper. Vi ser nærmere på populasjoner og andeler av populasjoner i kapittel 5.

2

Dagen etter at min forlagskonsulent og jeg diskuterte et populærvitenskapelig fagbokprosjekt om statistisk analyse, dukket dette eksempelet opp i feeden på min Facebook-konto. URLlenken til artikkelen «Svartmaling av gutter», som saken bygger på, finner du bakerst i boken.

17

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 17

07/05/2020 10:51


kapittel 1

Hva med denne nyhetssaken, hentet fra spalten Uviten i Aftenposten?3 Barn med foreldre som skilte seg mens de var mellom 0 og 4 år, har 12 prosent høyere sannsynlighet for å bruke antidepressiva i voksen alder enn barn som var mellom 15 og 19 da foreldrene skilte seg.

Essens: Å skilles mens barna er små, er mer risikofylt for barna enn å skilles mens de er store. Bør da foreldre som sliter holde ut så lenge som mulig? Om det sier studien lite, men det er jo interessant å vite om forskjellen på 12 prosent viser til en reell fare. Svaret kommer an på hvor stor risikoen for å ta antidepressiva som voksne er i utgangspunktet. Denne sannsynligheten er liten, og forskjellen i sannsynlighet mellom de to barnegruppene er på bare 1,7 prosentpoeng (jf. Definisjonsboks 1.2). En slik forskjell er neppe stor nok til å gi foreldre som ga opp tidlig dårlig samvittighet, og Nina Kristiansens metafor i spalten treffer godt: «For eksempel er risikoen for å bli truffet av lyn i Norge 0,0007 prosent, ifølge yr.no. Økes sannsynligheten med 12 prosent, blir risikoen 0,0008 prosent, og du er fortsatt veldig trygg.» Lærdom: En prosentforskjell sier ikke alltid så mye, mens en forskjell i prosentpoeng ofte kan være mer informativ. Definisjonsboks 1.2 Prosenter og prosentpoeng: Når renta på lånet ditt går fra fire til åtte prosent, så dobles den eller øker med 100 prosent. Men den øker bare med fire prosentpoeng. Er referansen et lite tall, for eksempel to prosent, blir en økning til seks prosent en stor prosentendring: 200

3

Hentet fra Uviten-spalten 4. februar 2019. Presentasjonen er tilpasset bokens hensikt, og jeg understreker at forskerne bak studien har alt på det tørre med hensyn til sine tolkninger av resultatene. URL-lenken til saken finner du bakerst i boken.

18

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 18

07/05/2020 10:51


innledning

prosent. Men den blir liten i prosentpoeng: fire. Endres noe fra 80 til 85 prosent, blir økningen i prosent og prosentpoeng likere i absolutte tall: 6,25 og 5 prosent.4

Det som mangler i denne saken, er at en prosentforskjell må sees i lys av en referanse for at den skal kunne gi en innsikt det kan være lurt å ta til seg. Er referansen liten i betydningen at den består av få enheter, er en stor forskjell i prosent ofte triviell i praksis – som her. Saken om gutter og spesialundervisning demonstrerer uklarheten omkring hvor utbredt et fenomen er. Dessuten viser den til problemet med å tolke og formidle dette til et publikum på en balansert måte. Saken om antidepressiva handler om samvariasjonen mellom to fenomener: tidspunkt for skilsmisse og barns risiko for medikamentbruk som voksne. Problemet er å tolke styrken på denne samvariasjonen for så å formidle dette videre på en mest mulig balansert og opplysende måte. Ta til slutt en kikk på denne avisoverskriften fra 2019:5 Kun syv kvinner blant 32 nye advokatpartnere.

I advokatbransjen har menn alltid dominert blant partnerne, og tiltak for å bedre kjønnsbalansen har vært ønsket. Oppslaget fikk flere kritiske kommentarer om fortsatt mannsbastion. Men er det grunn til å være så kritisk? La oss se på tallene, som er for 2018. Syv av 32 er 22 prosent. I bransjen totalt i 2017 var det 70 kvinner blant 595 partnerne, dvs. en kvinneandel på 12 prosent. 2018 ga med andre ord 10 prosentpoeng flere kvinnelige partnere enn totalen til da. Dette er fremgang, selv om det kan hevdes at det går for sakte. Noe annet er viktigere. Når partnere 4

5

En nyhet i Aftenposten onsdag 9. oktober 2019 tok for seg utviklingen i retning av at flere norske foreldre velger å få bare ett barn. En graf med årstall på den vannrette aksen viste prosentandelen som valgte dette fra 1980 til 2018. I 1980 var andelen på 10,4 prosent; i 2018 var den 15,4 prosent. I figurteksten ble dette omtalt som en økning på fem prosent, men det korrekte er fem prosentpoeng. Økningen fra 10 til 15 prosent er på 50 prosent, og det er denne markante og relative økningen som gjør saken til en nyhetssak det er verdt å sette søkelyset på. Saken, tallene og kommentarene rundt denne var omtalt i Dagens Næringsliv fredag 8. februar 2019.

19

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 19

07/05/2020 10:51


kapittel 1

skal velges, tas de fra en pool av kandidater. Hva var kjønnsfordelingen i denne? Om dette sier saken ingenting, men den er vesentlig for andelen kvinner (og menn) som kan bli valgt. Var det færre enn 22 prosent kvinner i poolen, kan det tenkes at flere kvinner enn det som var «fortjent» fikk partnerskap, uten at jeg hevder det. Men å bruke tallene for 2018 som belegg for noe negativt, antyder en tvilsom bruk av statistikk.

1.3 Resten av boken og dens disposisjon Statistiske funn og forskningsresultater treffer oss i økende grad, og det er lett å misforstå. Denne boken tar deg inn i statistikken i den hensikt å holde deg på den rette sti. Men boken er ikke en lærebok i statistikk eller kvantitativ metode. Boken er heller et supplement til slike bøker, men står støtt på egne ben. Konkret: Boken er en ikke-teknisk og lettfattelig introduksjon til hvordan tolke, formidle og vurdere resultater fra statistiske analyser på en klar, rimelig og balansert måte – typisk hentet fra en forskningskontekst. Livet som høgskolelærer har lært meg at å gjengi andres statistiske analyser sjelden funker optimalt. I boken vil jeg derfor illustrere mine resonnementer og poenger med data jeg har vært med på å skaffe selv. Men jeg bruker liten plass på å vise hvordan jeg har kommet frem til resultatene; dette har statistikkprogrammet mitt regnet ut på forhånd.6 Jeg konsentrerer meg heller om å vise hvordan funnene kan og bør tolkes, viderekommuniseres og vurderes. Noen ganger må imidlertid statistiske teknikker gis en liten forklaring eller utdypning underveis, men da holder jeg det mest mulig ikke-teknisk. Litt mer om bokens innhold og hvordan stoffet er disponert følger nå: Kapittel 2 handler om å utføre, tolke og formidle beskrivende statistikk for ett fenomen. Dette kalles deskriptiv statistikk i sjargongen. Men ordet fenomen 6

Thrane (2018) viser hvordan man praktisk utfører de statistiske analysene som gjøres i denne boken, via et statistikkprogram som Stata eller SPSS, og interesserte lesere henvises dit. Se ellers appendiksene til kapittel 2 og 3.

20

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 20

07/05/2020 10:51


innledning

brukes lite i statistikkens verden; her snakker vi om en variabel (jf. Definisjonsboks 1.3). Hva er en variabel? Går vi tilbake til Tabell 1.1, var karakteren på smakstesten én variabel; denne varierte blant de fem ølsortene. På samme måte var prisen på ølen én variabel; denne varierte også blant ølsortene. Kort sagt er en variabel hva som helst som varierer blant enheter. Tenk at du har samlet inn flere opplysninger om fotballspillerne i Eliteserien; informasjon om hvor gamle de er, hvor mange kamper de har spilt i løpet av sesongen, hvor mange landskamper de eventuelt har spilt, hvor mye de har i årsinntekt, osv. All denne informasjonen er opplysninger eller data om ulike variabler, som typisk lagres i datamatriser/regneark av typen vi så i Tabell 1.1. Definisjonsboks 1.3 Variabel og verdier: Se for deg en gruppe på 20 mennesker. Disse varierer i høyde, vekt, skonummer, inntekt osv. De vil dessuten variere i kjønn, etter bostedsfylke og med tanke på hva de gjør til daglig. Høyde, vekt, skonummer, inntekt, kjønn osv. er altså variabler. Størrelsene en variabel kan anta, er dens verdier eller kategorier. Høyder som 165 cm, 179 cm, 182 cm osv. er derfor noen av de mulige verdiene for variabelen høyde, mens variabelen kjønn gjerne har to verdier eller kategorier: kvinne eller mann. For variabelen fylke var det 19 kategorier i Norge frem 31.12.2019. Nå er tallet nede i 11.

I kapittel 2 er formålet å vise frem hvordan utbredelsen for en variabel bør tolkes og presenteres på en informativ og balansert måte. Det viktigste spørsmålet til grunn for dette kapittelet, lyder: Hva er typisk for en variabel? Kapittel 2 er også et bli-kjent-med-bokens-data-kapittel. Men er du ganske stødig i begreper som gjennomsnitt, median, andel, modus og spredning fra før, trenger du bare å skumlese kapittel 2 som en liten forberedelse til de senere kapitlene. Kapittel 3 tar for seg samvariasjon mellom to variabler; hvordan variasjon i én variabel ofte henger i hop med variasjon i en annen variabel,

21

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 21

07/05/2020 10:51


kapittel 1

som smak og pris på juleøl eller tidspunkt for skilsmisse og barns risiko for å ta antidepressiva som voksne. Mange mener studiet av samvariasjon er essensen i statistisk forskning. En vesentlig oppgave i mye statistisk analyse er å avklare om det er samvariasjon eller ikke mellom to variabler. Kapittel 4 bygger direkte videre på kapittel 3. Kapittelet tar opp problemene rundt det å bli så sikker som mulig på at én variabel faktisk er en reell årsak til en annen variabel – og ikke en falsk årsak. Kapittel 4 handler med andre ord om hvordan vi kan bli sikre på at smaken på juleøl eventuelt påvirker prisen på denne drikken, eller om hvordan vi kan bli sikre på at tidspunkt for skilsmisse faktisk er med på å forårsake, dvs. føre til, at noen barn har økt risiko for å ta antidepressiva som voksne. Kapittel 5 ser på utfordringene rundt det å trekke konklusjoner om en populasjon når vi bare har analysert data fra et lite utvalg (jf. Definisjonsboks 1.4) fra denne større populasjonen. Definisjonsboks 1.4 Utvalg/tilfeldig trukne utvalg: Som regel er vi opptatt av en populasjon (jf. Definisjonsboks 1.1) når vi gjør statistiske analyser. Men av praktiske og økonomiske grunner studeres ofte et utvalg fra populasjonen. Hvis dette utvalget – denne andelen av populasjonen – er trukket tilfeldig, kan vi gitt noen vilkår behandle utvalget som en populasjon i miniatyr. Derfor kan våre konklusjoner om utvalget også gjelde for hele populasjonen, hvis vi er villige til å akseptere litt usikkerhet. Mer om utvalg og tilfeldig trukne utvalg i kapittel 5.

Kapittel 1 til 5 handler om hvordan statistisk analyse gjøres innen forsk­ ning, og spesielt om hvordan vi tolker statistiske analyseresultater slik disse fremkommer i et statistikkprogram. Disse kapitlene er med andre ord skrevet for deg i målgruppe A, nevnt i kapittel 1.1. Kapittel 6 handler om hvordan vi formidler statistiske resultater til lesere, og om hvordan vi vurderer statistiske resultater fra studier slik de typisk legges frem i media.

22

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 22

07/05/2020 10:51


innledning

Kapittel 6 retter seg altså spesifikt mot målgruppe B og C. Når det er sagt, må ikke aktivitetene tolkning, formidling og vurdering forstås som om de er frikoblet fra hverandre; snarere tvert imot. Formålet med kapittel 6 er med andre ord å samle noe av den kunnskapen du har fått tidligere i boken, for så å anvende disse eksplisitt på noen caser. Oppsummert, og her legger jeg hodet på blokka, bør du kunne ha noen velfunderte svar på følgende spørsmål etter å ha lest denne boken: (1) Hva menes med statistisk sentraltendens? Og med statistisk spredning? Og hvordan bør dette formidles? Omtales i kapittel 2 og 6. (2) Hva betyr egentlig samvariasjon mellom to variabler? Og hvordan bør dette formidles? Omtales i kapittel 3 og 6. (3) Hvorfor er ikke samvariasjon det samme som årsak-virkning (kausalitet)? Omtales i kapittel 4 og 6. (4) Hvorfor gir eksperimenter sikrere kunnskap om årsak-virkning enn forskning basert på observasjonsdata? Omtales i kapittel 4 og 6. (5) Hva menes egentlig med at en samvariasjon er statistisk signifikant? Og hvordan bør det formidles? Omtales i kapittel 5 og 6. (6) Hvordan kan vi formidle statistiske resultater til et bredt sammensatt publikum? Omtales i kapittel 2 og 6. (7) Hvordan kan ikke-statistikere vurdere om det er hold i konklusjonene fra en statistisk studie? Omtales i kapittel 4, 5 og 6.

23

101385 GRMAT Statistisk dataanalyse paa 1-2-3 200101.indd 23

07/05/2020 10:51


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.