Bli bedre i statistikk

Page 1

Statistikk handler om å sammenfatte, tolke og bruke den store mengden informasjon som vi hele tiden får, til å ta avgjørelser. Denne hjelpeboka er for deg som vil forstå statistikk, for deg som vil lykkes på eksamen, og for deg som vil være sikker på at du har den statistiske verktøykassa du trenger i arbeidslivet. Boka oppsummerer statistikkpensum og gir deg en steg-for-steg-metode for å løse oppgaver. Deretter løses en lang rekke oppgaver med denne trinnvise metoden. Boka inneholder i tillegg tips til studieteknikk og eksamensråd.

David Ruiz Banos er førsteamanuensis (innsteg) ved Matematisk institutt ved Universitetet i Oslo (UiO). Han har doktorgrad innen stokastisk analyse og sannsynlighetsteori og har omfattende undervisningserfaring fra UiO, Høgskolen i Innlandet og Det Polytekniske Universitetet i Catalonia. Kristina Rognlien Dahl er førsteamanuensis ved Matematisk institutt ved UiO. Hun har doktorgrad i stokastisk optimal kontrollteori og har bred undervisningserfaring både fra begynneremner i matematikk ved BI og UiO og emner på master- og ph.d.-nivå.



Bli bedre i statistikk



David Ruiz Banos og Kristina Rognlien Dahl

Bli bedre i statistikk Eksempler og eksamensoppgaver med løsningsforslag

Universitetsforlaget


© Universitetsforlaget 2021 ISBN 978-82-15-03742-4 Materialet i denne publikasjonen er omfattet av åndsverklovens bestemmelser. Uten særskilt avtale med rettighetshaverne er enhver eksemplarfremstilling og tilgjengeliggjøring bare tillatt i den utstrekning det er hjemlet i lov eller tillatt gjennom avtale med Kopinor, interesseorgan for rettighetshavere til åndsverk. Utnyttelse i strid med lov eller avtale kan medføre erstatningsansvar og inndragning og kan straffes med bøter eller fengsel. Henvendelser om denne utgivelsen kan rettes til: Universitetsforlaget AS Postboks 508 Sentrum 0105 Oslo www.universitetsforlaget.no Omslag: Substans / Mette Gundersen Sats: David Ruiz Banos og Kristina Rognlien Dahl Trykk og innbinding: 07 Media – www.07.no Boken er satt med: Nimbus Sans Light 10/12 pkt Papir: 100 g Arctic Matt


Til Kristopher og Sindre. D.R.B. Til Lars, Ylva og Vetle. K.R.D.


Innhold Forord

1

1 Innledning 1.1 Hva er statistikk? . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Oppbyggingen av boka . . . . . . . . . . . . . . . . . . . . . .

3 3 4

2 Hvordan bruke denne boka? 2.1 Hvordan bruke denne boka underveis i semesteret? 2.2 Hvordan bruke denne boka til eksamenslesing? . . . 2.3 Hvordan bruke denne boka videre i livet? . . . . . . 2.4 Hvordan bruke denne boka som foreleser? . . . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

3 Hvorfor trenger du statistikk?

7 7 9 10 10 13

4 Pensum kort oppsummert 4.1 Notasjon i boka . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Beskrivende statistikk . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Sentralitetsmål . . . . . . . . . . . . . . . . . . . . . 4.2.2 Spredningsmål . . . . . . . . . . . . . . . . . . . . . 4.2.3 Uteliggere (outliers) . . . . . . . . . . . . . . . . . . . 4.3 Sannsynlighetsregning . . . . . . . . . . . . . . . . . . . . . . 4.4 Kombinatorikk . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Betinget sannsynlighet . . . . . . . . . . . . . . . . . . . . . . 4.6 Tilfeldige variabler, forventning og varians . . . . . . . . . . . 4.6.1 Diskrete variabler . . . . . . . . . . . . . . . . . . . . 4.6.2 Kontinuerlige variabler . . . . . . . . . . . . . . . . . 4.6.3 Teoretiske størrelser for diskrete variabler . . . . . . 4.7 Simultane sannsynlighetsfordelinger . . . . . . . . . . . . . . 4.7.1 Teoretiske størrelser for simultane diskrete variabler . 4.8 Store talls lov og sentralgrenseteoremet . . . . . . . . . . . . 4.8.1 Store talls lov . . . . . . . . . . . . . . . . . . . . . . 4.8.2 Sentralgrenseteoremet . . . . . . . . . . . . . . . . . 4.9 Sentrale sannsynlighetsfordelinger og egenskaper . . . . . . 4.9.1 Sum av normalfordelinger . . . . . . . . . . . . . . . 4.9.2 Diskrete sannsynlighetsfordelinger . . . . . . . . . . 4.9.3 Kontinuerlige sannsynlighetsfordelinger . . . . . . . . vi

. . . . . . . . . . . . . . . . . . . . .

17 17 19 20 20 21 21 22 23 24 24 25 25 27 27 28 28 29 29 29 31 32


I NNHOLD

4.10 Estimering og estimatorer . . . . . . . . . . . . . . 4.11 Hypotesetesting . . . . . . . . . . . . . . . . . . . 4.11.1 Testprosedyre (Neyman-Pearson) . . . . . 4.11.2 Testprosedyre (Fisher) . . . . . . . . . . . 4.11.3 Definisjoner og begreper . . . . . . . . . . 4.11.4 P -verdi . . . . . . . . . . . . . . . . . . . . 4.12 Konfidensintervaller . . . . . . . . . . . . . . . . . 4.13 Noen spesielle hypotesetester . . . . . . . . . . . 4.13.1 Parametriske tester . . . . . . . . . . . . . 4.13.2 Ikke-parametriske tester . . . . . . . . . . 4.14 Regresjonsanalyse . . . . . . . . . . . . . . . . . . 4.14.1 Enkel lineær regresjon . . . . . . . . . . . 4.14.2 Noen formler for inferens . . . . . . . . . . 4.14.3 Estimering av parameterne β0 , β1 og σ . . 4.14.4 Forklaringskraften . . . . . . . . . . . . . . 4.14.5 Inferens på regresjonskoeffisientene . . . 4.14.6 Multippel lineær regresjon . . . . . . . . . 4.14.7 Hvordan tolker man β0 , β1 , . . . , βp og σ? . 4.14.8 Hvordan tolker man βb0 , βb1 , . . . , βbp og σ b? . 4.14.9 Hva bør man kunne tolke ut ifra utskriften? 4.14.10 Er antagelsene i lineær regresjon oppfylt? 4.14.11 Hva om residualene ikke er normalfordelt?

vii

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

33 33 34 34 35 35 36 36 37 41 45 45 45 46 47 47 49 49 50 50 51 53

5 Introduksjon til oppgaveløsning 5.1 Steg-for-steg-metode for å løse tekstoppgaver i statistikk . . . . 5.2 Flytdiagram for statistikkpensum . . . . . . . . . . . . . . . . . 5.3 Flytdiagram for statistisk metode og hypotesetesting . . . . . .

55 55 56 58

6 Oppgaver 6.1 Sannsynlighetsregning, kombinatorikk og betinget sannsynlighet 6.1.1 Eksamen MET130, Høgskolen i Innlandet, 2018 . . . . 6.1.2 Eksamen MET130, Høgskolen i Innlandet, 2019 . . . . 6.1.3 Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2018 . . . . . . . . . . . . . . . . . . . . . . . 6.1.4 Prøveeksamen MET130, Høgskolen i Innlandet, 2019 . 6.2 Tilfeldige variabler og sannsynlighetsfordelinger . . . . . . . . . 6.2.1 Eksamen STK1000, UiO, 2020 . . . . . . . . . . . . . 6.2.2 Eksamen MA-166, UiA, 2019 . . . . . . . . . . . . . . 6.2.3 Eksamen SOS1120, UiO, 2018 . . . . . . . . . . . . . 6.2.4 Eksamen MA-166, UiA, 2021 . . . . . . . . . . . . . . 6.2.5 Eksamen TMA4245, NTNU, vår 2018 . . . . . . . . . . 6.3 Store talls lov og sentralgrenseteoremet . . . . . . . . . . . . . 6.3.1 Eksamen SOS1120, UiO, 2018 . . . . . . . . . . . . . 6.3.2 Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2019 . . . . . . . . . . . . . . . . . . . . . . . 6.4 Estimering og estimatorer . . . . . . . . . . . . . . . . . . . . .

63 63 64 67 71 77 81 81 85 88 90 92 96 96 97 99


viii

I NNHOLD

6.4.1

Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2018 . . . . . . . . . . . . . . . . . . . . . . . 6.4.2 Eksamen MET130, Høgskolen i Innlandet, 2018 . . . . 6.4.3 Eksamen TMA4245, NTNU, 2019 . . . . . . . . . . . . 6.4.4 Eksamen MA-166, UiA, 2019 . . . . . . . . . . . . . . 6.4.5 Eksamen MET130, Høgskolen i Innlandet, 2019 . . . . 6.4.6 Prøveeksamen MET130, Høgskolen i Innlandet, 2019 . 6.5 Hypotesetesting . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 Eksamen STK1000, UiO, 2020 . . . . . . . . . . . . . 6.5.2 Eksamen MET130, Høgskolen i Innlandet, 2019 . . . . 6.5.3 Eksamen MET130, Høgskolen i Innlandet, 2018 . . . . 6.5.4 Eksamen SOS1120, UiO, 2017 . . . . . . . . . . . . . 6.5.5 Eksamen TMA4245, NTNU, 2019 . . . . . . . . . . . . 6.5.6 Eksamen SOS1120, UiO, 2018 . . . . . . . . . . . . . 6.5.7 Eksamen SOS1120, UiO, 2018 . . . . . . . . . . . . . 6.5.8 Eksamen MET130, Høgskolen i Innlandet, 2019 . . . . 6.5.9 Eksamen KRIM4103/RSOS4103, UiO, 2016 . . . . . . 6.5.10 Eksamen MET200, Norges idrettshøgskole, 2019 . . . 6.5.11 Eksamen STA400, Norges idrettshøgskole, 2020 . . . 6.5.12 Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2019 . . . . . . . . . . . . . . . . . . . . . . . 6.5.13 Prøveeksamen MET130, Høgskolen i Innlandet, 2018 . 6.5.14 Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2019 . . . . . . . . . . . . . . . . . . . . . . . 6.6 Regresjonsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 Eksamen MET130, Høgskolen i Innlandet, vår 2019 . . 6.6.2 Eksamen STK1000, UiO, 2019 . . . . . . . . . . . . . 6.6.3 Eksamen STA400, Norges idrettshøgskole, 2020 . . . 6.6.4 Kontinuasjonseksamen MET130, Høgskolen i Innlandet, vår 2018 . . . . . . . . . . . . . . . . . . . . . . . 6.6.5 Eksamen KMSM130 Kvantitativ Metode, Høgskolen i Innlandet, 2020 . . . . . . . . . . . . . . . . . . . . . . 6.6.6 Eksamen MA-166, UiA, vår 2019 . . . . . . . . . . . . 7 Noen vanlige misforståelser i statistikk 7.1 Kausalitet . . . . . . . . . . . . . . . . 7.1.1 Eksempel på kausalitet . . . . 7.1.2 Eksempel på ikke-kausalitet . 7.2 Tolkning av konfidensintervall . . . . . 7.3 Antagelser for hypotesetester . . . . . 7.3.1 t-test . . . . . . . . . . . . . . 7.3.2 Mann-Whitney-Wilcoxons test 7.4 Lineær regresjonsanalyse . . . . . . . 7.4.1 Hva skal vi sjekke? . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

99 103 106 112 118 123 129 129 133 136 139 144 147 153 155 159 164 168 169 173 177 185 185 192 194 197 204 212 217 217 218 221 222 226 226 227 229 231


I NNHOLD

8 Tips og råd før eksamen 8.1 Ideell framgangsmåte . . . . . . . 8.1.1 Gjennom hele semesteret 8.1.2 Eksamensforberedelse . . 8.2 Hvis du har dårlig tid . . . . . . . . 8.3 På eksamensdagen . . . . . . . .

ix

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

233 233 233 234 236 237

A Tabeller A.1 Kumulative binomiske sannsynligheter . . A.2 Kumulative Poisson-sannsynligheter . . . A.3 Standard-normalfordeling . . . . . . . . . A.4 Students t-fordeling . . . . . . . . . . . . . A.5 Students t-kvantiler . . . . . . . . . . . . . A.6 χ2 -fordeling (kjikvadrat) . . . . . . . . . . A.7 χ2 -kvantiler (kjikvadrat) . . . . . . . . . . A.8 Fisher-Snedecor-fordeling (F-fordeling) . A.9 Wilcoxons test for rangering med fortegn . A.10 Mann-Whitney-Wilcoxons test . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

239 240 242 243 245 246 248 249 251 257 258

. . . . .

. . . . .

. . . . .



Forord Hvorfor har vi skrevet denne boka? Vi er begge forskere innen matematikk og bruker statistikk aktivt i forskningen vår. Vi har også vært involvert i begynnerundervising i statistikk i mange år. Vår erfaring er at studenter som ikke har statistikk som hovedfag, ofte synes statistikkfaget er krevende. Det synes vi er synd, for i en verden der det blir bedre og bedre tilgang på data, trenger vi flere som kan tolke den. Vi håper at denne boka kan hjelpe studenter til å forstå det de gjør i statistikkfagene sine, bedre, slik at de kan ta med seg en solid statistisk verktøykasse ut i arbeidslivet. På den måten håper vi at det i framtiden vil være en hel haug flinke økonomer, leger, veterinærer, fysioterapeuter, psykologer og sosiologer som kan tolke data på en god måte. Dette er helt essensielt for alle som skal drive med forskning, for eksempel i forbindelse med bachelor- eller masteroppgaver, men også for å kunne holde seg oppdatert på utviklingen i eget fagfelt når man er ute i arbeidslivet. Med digitaliseringen er det også flere og flere arbeidsplasser som samler inn data av forskjellig slag: kundedata, pasientdata, brukerdata osv. Å komme inn med en solid forståelse av statistikk vil være et viktig bidrag til enhver slik jobb, og det er en nyttig ting å vise til på CV-en. Vi har derfor ett viktig mål med denne boka: Du skal bli bedre i statistikk !

1


2

I NNHOLD

Takk! For å skrive denne boka har vi snakket med forelesere i statistikk fra en rekke forskjellige universiteteter og høyskoler i Norge, fra mange ulike fagfelt. De har fortalt oss hva studentene deres sliter med, og hva de mangler av forkunnskaper. De har også forklart oss hvilke deler av statistikken som er viktigst for praktiske anvendelser i deres fagfelt. Flere forelesere har også generøst bidratt med tidligere eksamensoppgaver. Tusen hjertelig takk til Daumantas Bloznelis, Steffen Grønneberg, Torstein Nilssen, Ida Scheel, Torbjørn Skardhamar og Jostein Steene-Johannessen. Vi vil også gjerne takke Martin Helsø for Latex-assistanse. Sist, men ikke minst, vil vi takke vår detaljorienterte og alltid positive redaktør Eli Valheim hos Universitetsforlaget. Tusen takk alle sammen! Oslo, oktober 2021 David Ruiz Banos og Kristina Rognlien Dahl


Kapittel 1

Innledning 1.1

Hva er statistikk?

Vitenskap deles ofte inn i naturvitenskap, samfunnsfag og formell vitenskap. De to første typene vitenskap bruker observasjon som en sentral metode for å forklare naturen og samfunnet. Observasjon er en aktivitet der forskere får kunnskap om omverdenen gjennom sansene eller registrering av data ved hjelp av vitenskapelige instrumenter. For å forstå hva man har observert, trenger man statistikk. Statistikk brukes for å lære om en populasjon ved å analysere data fra et mindre utvalg. Ofte har ikke forskerne tilgang til data fra hele populasjonen på grunn av manglende kapasitet eller økonomiske begrensninger. Derfor er det viktig med nøyaktige metoder for å trekke konklusjoner om en hel populasjon basert på et mindre utvalg og minimere risikoen for feilslutninger. Statistikk brukes til å: 1. Bekrefte en antatt teori, ofte kalt hypotese. 2. Lære og korrigere en hypotese gjennom nye observasjoner. Matematikk generelt, og statistikk spesielt, er basert på at man utleder generelle resultater som kan brukes på mange ulike spesielle tilfeller. Derfor kan de statistiske metodene du lærer i denne boka, brukes for å forstå data fra en rekke ulike fag: økonomi, statsvitenskap, sosiologi, medisin, meteorologi, biologi, psykologi, idrettsfag og farmasi med flere. Statistikkfaget består av mange ulike aspekter: Hvordan skal man hente inn data? Hvem skal man undersøke? Hvilke spørsmål skal man stille? Hvor mange observasjoner er tilstrekkelig for å trekke konklusjoner om hele populasjonen? Hvilke matematiske metoder skal vi bruke for å trekke disse konklusjonene? I denne boka skal vi fokusere på den delen av statistikkfaget som har med matematikk å gjøre. Vi antar at undersøkelsene har funnet sted og data er innsamlet. Vårt hovedspørsmål er: Hva bør vi gjøre for å trekke kon3


4

K APITTEL 1. I NNLEDNING

klusjoner fra dataene? Eller, sagt med statistikkspråk: Hvordan kan vi inferere fra datasettet? Statistikk er nær knyttet til vitenskapsfilosofi. Mange forskere i dag advarer mot misbruk av statistikk. For eksempel, når man bruker statistikk for å bekrefte en forhåndsantatt teori, kan man ubevisst arrangere resultatene slik at de stemmer overens med den teorien man hadde på forhånd. Andre forskere advarer mot misforståelser og misbruk av den såkalte P -verdien1 . I tillegg er det er stort problem at det først og fremst publiseres forskning der dataene er signifikante, det vil si at dataene forteller det man er på jakt etter. Det er få artikler som publiserer såkalte negative resultater, som røft sagt betyr at resultatet av dataanalysen var at man ikke kan si så mye. Dersom man skal bruke statistikk i praksis, enten i forbindelse med skriving av bachelor-/masteroppgave eller i arbeidslivet, er det viktig å huske på disse problemstillingene. Generelt er det slik at alle konklusjoner man kommer fram til etter en statistisk analyse, er tilknyttet antagelser man har gjort om populasjonen. Disse antagelsene må tas hensyn til i tolkningen av resultatene. Tidligere nevnte vi noen etiske problemstillinger i statistikk. Et vel så viktig problem i samfunnet er faktiske misforståelser og feiltolkninger av data på grunn av manglende forståelse for statistikk. Slike misforståelser fører i verste fall til at avgjørelser blir tatt på feil grunnlag, som igjen fører til dårlige avgjørelser. Vi håper at denne boka kan hjelpe til med å rydde opp i en del vanlige misforståelser. Vi vil hjelpe leserne til å føle seg trygge på å gjøre statistiske analyser – både på eksamen og i arbeidslivet. Denne boka er ikke ment til å selges etter at du er ferdig med statistikkeksamen, men å bli en følgesvenn i bokhylla på kontoret.

1.2

Oppbyggingen av boka

Oppbyggingen av denne hjelpeboka er som følger: Først kommer en kort oppsummering av statistikkpensum. Dette er noenlunde felles i de fleste fagfelt innen samfunnsvitenskap og naturfag. Deretter kommer hoveddelen av boka, som går rett på oppgaveløsing. Vi presenterer en steg-for-steg-metode for å løse oppgaver i statistikk. Denne generelle metoden hjelper studenten til å dele opp et større statistisk problem i tilstrekkelig små blokker, som man deretter løser steg for steg. For å hjelpe til å strukturere statistikkfaget har vi laget flere ulike flytdiagrammer. Disse kan brukes i eksamensforberedelsene for å få oversikt, men også underveis i semesteret for å se sammenhengen mellom ulike temaer i undervisningen. Oppgavene i boka er samlet inn fra en rekke ulike universiteter og høyskoler i Norge, og alle er tidligere eksamensoppgaver. Oppgavene er valgt for å representere mange ulike fagfelt, deriblant medisin, økonomi, kriminologi, sosiologi og idrettsfag. Det er ulike nivåer og temaer på oppgavene samt noen større og bredere oppgaver. Alle oppgavene som presenteres i boka, 1

P -verdien er et statistisk mål som brukes for å trekke konklusjoner fra et utvalg.



Statistikk handler om å sammenfatte, tolke og bruke den store mengden informasjon som vi hele tiden får, til å ta avgjørelser. Denne hjelpeboka er for deg som vil forstå statistikk, for deg som vil lykkes på eksamen, og for deg som vil være sikker på at du har den statistiske verktøykassa du trenger i arbeidslivet. Boka oppsummerer statistikkpensum og gir deg en steg-for-steg-metode for å løse oppgaver. Deretter løses en lang rekke oppgaver med denne trinnvise metoden. Boka inneholder i tillegg tips til studieteknikk og eksamensråd.

David Ruiz Banos er førsteamanuensis (innsteg) ved Matematisk institutt ved Universitetet i Oslo (UiO). Han har doktorgrad innen stokastisk analyse og sannsynlighetsteori og har omfattende undervisningserfaring fra UiO, Høgskolen i Innlandet og Det Polytekniske Universitetet i Catalonia. Kristina Rognlien Dahl er førsteamanuensis ved Matematisk institutt ved UiO. Hun har doktorgrad i stokastisk optimal kontrollteori og har bred undervisningserfaring både fra begynneremner i matematikk ved BI og UiO og emner på master- og ph.d.-nivå.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.