Innføring i lineær regresjonsanalyse (9788245041606)

Page 1

I tillegg til helsefag vil boken være egnet for praktiske statistikere, økonomer, statsvitere, psykologer og sosiologer. Generelt kan boken brukes av forskere som bruker kvantitative metoder i sine prosjekter. Et appendiks med mer kompliserte utledninger samt et arbeidshefte med oppgaver og løsninger vil være tilgjengelig online.

ISBN 978-82-450-4160-6

INNFØRING I LINEÆR REGRESJONSANALYSE

Målgruppe er bachelor- og masterstudenter som følger kurs i praktisk regresjonsanalyse. Boken egner seg for et kurs i praktisk regresjonsanalyse for helsefag, men kan også benyttes i kurs i regresjonsanalyse generelt og med et litt mer avansert teoretisk innhold.

Jan Fredrik Bjørnstad, Ole Albert Fugleberg og Milada Cvancarova Småstuen

Denne boken gir en innføring i lineær regresjonsanalyse for studenter som ikke nødvendigvis har mye bakgrunn i statistikk. Boken har en praktisk tilnærming med mange eksempler og anvendelser. Det er i boken lagt vekt på å gi grundige vurderinger av viktige statistiske begreper og prinsipper, som forståelsen av hypotesetesting og begrepet konfidensintervall samt hva en lineær sammenheng er. Det legges også vekt på hvordan en problemstilling i en helsefaglig undersøkelse kan omformes til en lineær regresjonsmodell, og hvordan man tolker og presenterer resultater fra regresjonsanalysen. Dette er løpende supplert med grafer og figurer for å lette forståelsen.

INNFØRING I LINEÆR REGRESJONSANALYSE Med vekt på helsefag

Jan Fredrik Bjørnstad Ole Albert Fugleberg Milada Cvancarova Småstuen



INNFØRING I LINEÆR REGRESJONSANALYSE Med vekt på helsefag

Jan Fredrik Bjørnstad Ole Albert Fugleberg Milada Cvancarova Småstuen


Copyright © 2022 by Vigmostad & Bjørke AS All Rights Reserved 1. utgave 2022 / 1. opplag 2022 Grafisk produksjon: John Grieg, Bergen Sats av forfattere Omslagsdesign ved forlaget ISBN: 978-82-450-4160-6 Spørsmål om denne boken kan rettes til: Fagbokforlaget Kanalveien 51 5068 Bergen Tlf.: 55 38 88 00 e-post: fagbokforlaget@fagbokforlaget.no www.fagbokforlaget.no Materialet er vernet etter åndsverkloven. Uten uttrykkelig samtykke er eksemplarfremstilling bare tillatt når det er hjemlet i lov eller avtale med Kopinor.


Forord Regresjonsanalyse er en av de mest brukte statistiske metoder for å analysere multivariable data for helsefaglige problemstillinger, som denne boken er rettet mot. Regresjonsanalyse har også anvendelser innen mange andre fag, blant annet, innen økonomi, samfunnsfag, biologi, psykologi og medisin. Selv om målgruppen for boken er forskere og studenter innen helsefag, gir den en generell innføring i regresjonsanalyse. Det mest sentrale ved regresjonsanalyse er å bruke en ligning for å uttrykke sammenhengen mellom variabler i en undersøkelse. Regresjonsmodeller og analyse er basert på avansert statistisk teori. Riktig bruk av regresjonsanalyse i en undersøkelse krever en forståelse av både statistiske begreper og de praktiske problemstillingene i undersøkelsen. Denne boken gir en innføring i lineær regresjonsanalyse og er hovedsakelig tiltenkt studenter som ikke nødvendigvis har mye bakgrunn i statistikk, selv om det er en fordel med et innføringskurs i statistikk. Det er lagt vekt på en praktisk tilnærming med mange eksempler og anvendelser. Samtidig har det vært viktig å være presis og klar med statistiske begreper og fortolkninger av statistiske analyser. Noen ligninger og formelapparat har vært uunngåelig, siden dette tema er basert på en matematisk statistisk tilnærming. Noen matematiske utledninger er stjernemerket, som betyr at de gir en dypere forståelse, men er ikke nødvendige for å bruke boken som lærebok for praktisk bruk av regresjonsanalyse. Et appendiks med mer kompliserte utledninger vil være tilgjengelig online. Det er lagt vekt på å gi grundige vurderinger av viktige statistiske begreper og prinsipper, som forståelsen av hypotesetesting og konfidensintervall samt hva en lineær sammenheng er. Helt sentralt ligger fortolkning og analyse i lineær regresjon. Det legges vekt på hvordan en problemstilling i en helsefaglig undersøkelse kan omformes til en lineær regresjonsmodell og tolkning av resultatene fra regresjonsanalysen. I tillegg til statistiske beskrivelser og diskusjoner er det supplert med figurer og grafer for å lette forståelsen av statistiske begreper, modellbeskrivelser og analyser. Løpende i fremstillingen integreres eksempler fra helsefaglige problemstillinger. En sentral målgruppe er bachelor- og master-studenter som følger kurs i praktisk regresjonsanalyse. De fleste vil ha et praktisk grunnkurs i statistikk som vanligvis gir en viss innføring i enkel regresjon. Multippel regresjon er gjerne det aktuelle kurset utover grunnkurset. En målgruppe er også praktikere som ønsker en bok som kan veilede dem i gjennomføringen av en analyse ut fra en problemstilling innen sitt fagområde. I tillegg til helsefag, vil boken være egnet for praktiske statistikere, økonomer, statsvitere, psykologer og sosiologer. Generelt kan boken brukes av forskere som bruker kvantitative metoder i sine prosjekter.

Vesentlige og spesielle trekk ved boken • • • • • • • • •

Detaljert gjennomgang av enkel regresjon inkludert estimering, hypotesetesting, konfidensintervall, prediksjon av nye observasjoner og regresjon gjennom origo. Mange eksempler med grafiske fremstillinger Spesielle residualplott i multippel regresjon Detaljert diskusjon av sammenheng mellom multippel regresjon og multiple og partielle korrelasjoner Observasjoner med stor innflytelse Multikollinearitet blant forklaringsvariabler og variansinflasjon Autokorrelasjon i tidsrelaterte observasjoner Bruk av indikatorvariabler for å inkludere kategoriske forklaringsvariabler i modellen Modeller som inkluderer samspill mellom kategoriske variabler og kvantitative variabler Omfattende kapittel om metoder for modellbygging og valg av forklaringsvariabler i multippel regresjon; beste tilpassede regresjon og tre trinnvise metoder basert på partielle korrelasjoner ii


Kapittelsammendrag De tre første kapitlene omhandler enkel lineær regresjon og korrelasjonsanalyse. Kapittel 1 introduserer lineære regresjonsmodeller og gir standard resultater for minste kvadraters estimering i enkel lineær regresjon. Kapittel 2 omhandler tolkning av korrelasjonskoeffisienten og korrelasjonsanalyse. Kapittel 3 diskuterer metoder for modellsjekking, inkludert standard residualplott og metoder for valg av transformasjoner for å stabilisere varians og oppnå linearitet. Kapittel 4 er en introduksjon til minste kvadraters tilpasning i multippel regresjon, inkludert en sekvensiell metode for valg av forklaringsvariabler og det spesielle tilfellet av polynomisk regresjon. Kapittel 5 diskuterer modellsjekking og residualanalyse i multippel regresjon. Kapittelet inkluderer spesielle residualplott, identifisering av observasjoner med stor innflytelse, multikollinearitet og autokorrelasjon i tidsrelaterte observasjoner. Kapittel 6 omhandler bruk av indikatorvariabler og effekt av samspill i multippel regresjon. Valg av forklaringsvariabler og modellbygging er beskrevet i kapittel 7. Både trinnvise metoder og alle mulige regresjoner er presentert sammen med flere observatorer for å evaluere delsett av forklaringsvariabler i regresjonsmodellen. Kapittel 8 inneholder fire omfattende helsefaglige analyser samt en analyse innen energi. De er eksempler på hvordan man kan gå frem fra en konkret problemstilling til en regresjonsmodell med analyse og tolkning av resultatene.

Hvordan bruke boken De ulike kapitlene kan brukes som en «oppskrift» på ulike metoder og fremgangsmåter. Gjennomgående behandles forutsetningene for ulike varianter av lineære regresjonsmodeller, testing av forutsetningene og nødvendige justeringer av modellen. Ved gjennomgangen av definisjoner, begreper og fortolkninger, og tilhørende grafer og figurer for ulike regresjonsmodeller, er formålet å skape en større forståelse for analyser basert på lineære regresjonsmodeller. Eksemplene i kapittel 8 er sentrale for en god forståelse av multippel regresjonsmodellering og statistisk analyse for helsefaglige problemstillinger. Et arbeidshefte med oppgaver og løsninger er tilgjengelig (se QR-kode). I et mer begrenset kurs i regresjonsanalyse kan man konsentrere seg om de mest relevante kapitlene. For eksempel gir kapitlene 1 – 4.5, 5.1 – 5.5, 6 en grunnleggende innføring i de mest sentrale delene av regresjonsanalyse. De stjernemerkede matematiske utledningene kan hoppes over uten å miste sammenhengen. Kapittel 5.6 om autokorrelasjon og kapittel 7 om ulike statistiske metoder for valg av forklaringsvariabler anses å være mer for viderekomne. Et eksempel på hvordan man kan bruke boken på en annen måte innen helsefag, er: De omfattende eksempel analysene i kapittel 8 viser hvordan man skal angripe typiske helsefaglige problemstillinger. Det er mulig å ta utgangspunkt i disse og deretter sette seg inn i de kapitlene som er relevante for de forskjellige eksemplene. I denne sammenheng er også oppsummeringene i relevante kapitler for hvert eksempel nyttige. Boken egner seg for et kurs i praktisk regresjonsanalyse for helsefag, men kan også benyttes i kurs i regresjonsanalyse med et litt mer avansert teoretisk innhold. Vi vil takke Gudrun Rohde, Knut Boge og Magnar Lillegård for innsiktsfulle og konstruktive kommentarer og anbefalinger. Det har gjort boken faglig tydeligere og mer leseverdig. Jan Fredrik Bjørnstad Ole Albert Fugleberg Milada Cvancarova Småstuen Oslo, august 2022

iii


Omtale av forfatterne Jan Fredrik Bjørnstad er professor emeritus i statistikk, Universitetet i Oslo, og har vært forskningssjef i Statistisk sentralbyrå. Han er cand.real. i statistikk fra Universitetet i Oslo, og har en ph.d. i statistikk fra 1978 ved University of California, Berkeley. Han har omfattende erfaring med undervisning og veiledning i statistikk på master- og ph.d.-nivå ved amerikanske og norske universiteter. Ole Fugleberg er førstelektor emeritus. Han er cand.oecon. og cand.real. med hovedfag i statistikk, og har lang erfaring med undervisning i statistikk fra Handelshøyskolen BI og Oslo Metropolitan University. Han har anvendt statistiske metoder på ulike problemstillinger innenfor energiøkonomi, landbruk, fiskeoppdrett og innenfor helse. Milada Cvancarova Småstuen er professor i epidemiologi ved Oslo Metropolitan University. Hun har en master i anvendt matematikk og en ph.d. i epidemiologi fra 2011 ved Universitetet i Oslo. Hun har lang erfaring med undervisning i statistikk og epidemiologi ved Oslo Metropolitan University og Universitetet i Oslo siden 2006. Hun har også omfattende erfaring med veiledning på ph.d.-nivå innen helsefag og har deltatt i mange klinisk rettede prosjekter.


Innhold Kapittel 1 Enkel lineær regresjon

1

1.1 Innledning om sammenheng mellom to variabler

1

1.2 Grunnleggende om regresjonsanalyse

3

1.3 Den enkle lineære regresjonsmodellen

4

1.4 Minste kvadraters metode (MKM)

6

1.5 Variansanalyse i regresjon og forklaringsgrad

10

1.6 Hypotesetesting om stigningskoeffisienten

12

1.6.1 Generelt om hypotesetesting

12

1.6.2 Hypotesetesting i enkel regresjon

14

1.7 Konfidensintervall i enkel lineær regresjon

19

1.7.1 Konfidensintervall for β1, β0

19

1.7.2 Konfidensintervall for E ( y | x) 1.8 Prediksjon av nye observasjoner

22 23

1.9 Regresjon gjennom origo

24

1.10 Oppsummerende kommentarer

27

Kapittel 2 Korrelasjon

28

2.1 Definisjon av korrelasjonsmål

28

2.2 Tolkning av korrelasjonskoeffisienten

28

2.3 Statistisk inferens om populasjonens korrelasjonskoeffisient

29

2.4 Korrelasjonsanalyse kan ikke brukes til å studere årsak – virkning – aspekter

32

2.5 Analyse av mulig påvirkning av en tredje variabel

32

2.6 Oppsummerende kommentarer

34

Kapittel 3 Mål for modelltilpasning i enkel lineær regresjon

35

3.1 Innledning

35

3.2 Residualanalyse

36

3.2.1 Definisjon av residualer

36

3.2.2 Residualplott for sjekking av konstant varians, linearitet og uavhengighet

37

3.2.3 Normalfordelingsplott

38

3.2.4 Uteliggere – identifisere og behandle

40

3.3 Transformasjoner

41

3.3.1 Til linearitet

41

3.3.2 Variansstabiliserende transformasjoner og vektet minste kvadraters metode

43

3.4 Oppsummering av modelltilpasning i enkel lineær regresjon

46 iv


Kapittel 4 Multippel lineær regresjon

48

4.1 Multiple regresjonsmodeller

48

4.2 Formulering av multippel lineær regresjonsmodell og estimering av modell parameterne

50

4.3 Variansanalyse og forklaringsgrad i multippel regresjon

53

4.4 Hypotesetesting i multippel lineær regresjon

55

4.4.1 Test for hele regresjonen samlet

55

4.4.2 Tester for individuelle regresjonskoeffisienter

57

4.4.3 Simultan hypotesetesting

61

4.5 Konfidensintervaller i multippel lineær regresjon

62

4.5.1 Konfidensintervall for regresjonskoeffisientene

62

4.5.2 Konfidensintervall for E (y | x) og prediksjon av nye observasjoner

63

4.5.3* Simultane konfidensintervaller

64

4.6 Standardiserte regresjonskoeffisienter

64

4.7 Valg av forklaringsvariabler sekvensielt

66

4.8 Polynomisk regresjon

69

4.9 Oppsummering av hovedpunktene i multippel regresjon

73

Kapittel 5 Modellsjekking og residualanalyse

75

5.1 Modellsjekking

75

5.2 Residualanalyse

76

5.2.1 Definisjon av residualer

76

5.2.2 Residualplott for sjekking av konstant varians, linearitet og uavhengighet

78

5.2.3 Partielle residualplott

79

5.3 Transformasjoner i multippel regresjon

80

5.3.1 En multippel eksponentiell regresjonsmodell

80

5.3.2 Variansstabiliserende transformasjoner i multippel regresjon

80

5.4 Observasjoner med stor innflytelse

81

5.5 Multikollinearitet

85

5.6 Autokorrelasjon

90

5.6.1 Avsløring av autokorrelasjon

91

5.6.2 Estimeringsmetode for autokorrelerte observasjoner

97

5.7 Residualanalyse i SPSS 5.7.1 Beregning av predikerte verdier og residualer i SPSS

102 102

5.7.2 Vurdering av antakelsen om normalfordelte feilledd i SPSS

103

5.7.3 Beregne observatorer i SPSS for å vurdere innflytelsesrike observasjoner og uteliggere

103

5.8 Oppsummering av modellsjekking og residualanalyse i multippel lineær regresjon

106

v


Kapittel 6 Indikatorvariabler og samspill

108

6.1 Regresjonsmodell med en indikatorvariabel. Sammenligning av regresjonslinjer for to grupper 108 6.2 Regresjonsmodell med kategorisk variabel med flere enn to kategorier

114

6.2.1 En kategorisk variabel med tre kategorier

114

6.2.2 En kategorisk variabel med generelt M kategorier

116

6.2.3 Sammenligning av regresjonslinjer for M grupper

118

6.3 Generelle effekter av samspill. En oppsummering

123

Kapittel 7 Valg av forklaringsvariabler og modellbygging

124

7.1 Innledning

124

7.2 Beste tilpassede regresjon blant alle mulige regresjoner

125

7.2.1 Kriterium A. Trinnvis R2

125 2

7.2.2 Kriterium B. Basert på justert R

129

7.2.3 Kriterium C. Mallows Cp

130

7.2.4 ANOVA-tabeller for 6 regresjoner i Eksempel 7.1

134

7.2.5 Partielle korrelasjoner

135

7.3 Baklengs eliminering (BE)

136

7.4 Forlengs seleksjon (FS)

140

7.5 Trinnvis regresjon

142

7.6 Kryssvalidering for prediksjon

145

7.7 Oppsummerende kommentarer

146

7.7.1 Generelle kommentarer om trinnvise prosedyrer

146

7.7.2 Sluttkommentarer

147

Kapittel 8 Fire omfattende regresjonsanalyser innen helsefag samt en analyse innen energi

148

8.1 Nutrilett versus knekkebrød studie

148

8.2 Assosiasjoner mellom nevrotisisme og utvalgte variabler

155

8.3 Undersøkelse av søvnlengde og søvneffektivitet. Er det en forskjell mellom foreldre

163

til premature og terminfødte barn? 8.4 Helserelatert livskvalitet blant norske ungdommer

171

8.5 Effekten av oljeprissjokket i 1974 på energikonsum

176

Bibliografi

186

Stikkordregister

187

vi


1. Enkel lineær regresjon Dette kapittel omhandler statistiske analyser basert på en enkel lineær regresjonsmodell. Først sier vi litt om sammenheng mellom to variabler. Deretter diskuterer vi grunnleggende problemstillinger i generell regresjonsanalyse før vi introduserer den enkle lineære regresjonsmodellen. Resten av kapittelet behandler statistisk estimering, variansanalyse, hypotesetesetesting, konfidensintervaller og prediksjon basert på en enkel lineær regresjonsmodell.

1.1 En innledning om sammenheng mellom to variabler Sammenheng mellom to variabler x og y innebærer en form for mønster i hvordan verdiene til y varierer når verdiene til x varierer og omvendt. Formen for sammenheng vi setter søkelys på er: •

Lineær sammenheng og styrken av en lineær trend

Et slikt mønster kan reflektere en avhengighet, og eventuelt en årsakssammenheng. Noen ganger er det en fiktiv sammenheng. Andre og bakenforliggende faktorer kan innvirke på så vel x som på y. Derfor gir ikke en sammenheng direkte innsikt om en avhengighet -/- årsakssammenheng. For å få en indikasjon på hva den ovennevnte sammenhengen innebærer, ser vi nedenfor på et spredningsplott. Somatiske sykehus i Norge 1992. Liggedøgn

Somatiske sykehus i Norge 1982: Liggedøgn indremedisin mot indremedisin (LDI) mot sengekapasitet indremedisin (SI) sengekapasitet indremedisin

Figur 1.1 Plott av liggedøgn i indremedisinsk avdeling mot sengekapasitet i indremedisinsk avdeling. Plottet gir en sterk tendens til at høye (lave) verdier på liggedøgn er sammenfallende med høye (lave) verdier på sengekapasitet. I figuren har vi tegnet inn en linje på øyemål. Vi skal frem til: •

Et mål for lineær sammenheng som reflekterer styrken av en lineær trend - Jo tettere omkring linjen, jo sterkere sammenheng Poenget er ikke stigningen på linjen, men hvor tett observasjonene ligger omkring en stigende linje (alternativt omkring en fallende linje).

1


For ytterligere å få frem hva dette dreier seg om, følger noen plott av konstruerte data hvor måleenhetene for Y og X er forskjellige. Positiv sammenheng Linjen y = a+bx y= 4 + 2x

20 18 16 14

Y

Linjen sier: Når x øker med 1 øker y med 2.

12 10

En form for gjennomsnitt av hvor mye y øker med, når x øker med en

8 6

Observasjoner ligger omkring en stigende linje

4 2 0

0

1

2

3

4

5

6

7

X

Perfekt positiv sammenheng

Linjen y = a+bx y= 4 + 2x

(Inntreffer nesten aldri) 20 18 16 14

Y

x øker med 1 medfører at y øker med 2: Uavhengig av nivå på x

12 10 8 6 4 2 0

0

1

2

3

4

5

6

7

X

Figur 1.2 Positiv sammenheng og perfekt positiv sammenheng.

La oss også se på denne figuren: Negativ sammenheng 20

Linjen sier:

18

Linjen sier: Når x øker med 1, avtar y Når x øker med 1 avtar med 2. 2 med

16 14

Y

En form for En form for gjennomsnitt gjennomsnitt av hvor av hvor mye ymed, avtar når med,x mye y avtar øker en en når xmed øker med

12 10 8

Observasjoner ligger omkring en fallende linje

6 4

Linjen y = a+bx y = 18 - 2x

2 0

0

1

2

3

4

5

6

7

X

Figur 1.3 Negativ sammenheng.

2


Plottet i figur 1.3 for negativ lineær sammenheng viser en tendens til at høye verdier på x er sammenfallende med lave verdier på y. Observasjonene synes å være variasjoner omkring en lineær trend uttrykt ved linjen y = a + bx; hvor b er negativ. I figur 1.3 er linjen y = 18 – 2x. Vi kan ha andre sammenhenger enn lineær, men i regresjonsanalysen begrenser vi oss til å finne lineære sammenhenger, hvordan en variabel y avhenger lineært av en annen variabel x, målt ved at y øker med en fast størrelse når x øker med én enhet. Vi skal også diskutere begrepet korrelasjon i kapittel 2. Det dreier seg om å finne et mål for graden av lineær sammenheng mellom to variabler. I neste delkapittel diskuterer vi først grunnleggende problemstillinger i generell lineær regresjonsanalyse, før vi går videre med enkel regresjonsanalyse.

1.2 Grunnleggende om regresjonsanalyse Regresjonsanalyse brukes for å studere hvordan en kontinuerlig variabel y avhenger av andre variabler x1 , x2 ,..., xk . y kalles den avhengige variabelen eller responsvariabelen. x1 , x2 ,..., xk kalles forklaringsvariabler eller uavhengige variabler. Med to eller flere forklaringsvariabler har vi multippel regresjon. Studien er basert på et visst antall n observasjoner av (y, x1 , x2 ,..., xk ). Verdier av x1 , x2 ,..., xk kan noen ganger velges av den som foretar studien, og antas konstante, mens y antas som verdi av en stokastisk variabel. Uansett så foretas regresjonsanalysen betinget med hensyn på de n observerte verdiene av x1 , x2 ,..., xk . Et eksempel: y = blodtrykk x1 = grad av røyking, x2 = vekt, x3 = alder En grunnleggende aktivitet for oss er å søke etter forklaringer, det vil si om avhengighet. Vi drives til dette ut fra to forhold: 1) Oppnå ny erkjennelse om sammenhengen mellom x1 , x2 ,..., xk og y, se eksempel ovenfor. 2) Erkjennelsen kan gi grunnlag for anvendelser, hvorav en viktig anvendelse er: prediksjon av verdien til y for en ny observasjon når vi kjenner x1 , x2 ,..., xk . Ut fra punktene 1 og 2 er regresjon anvendt innenfor nesten alle områder i tillegg til helsefag (for eksempel økonomi og andre samfunnsfag og naturvitenskap). Advarsler: 1) Om vi finner at y og x1 , x2 ,..., xk har en sterk sammenheng ved at variasjon i verdiene til x1 , x2 ,..., xk forklarer mye av variasjonen i y-verdiene, så impliserer ikke dette en årsakssammenheng. Hvis vi ønsker å studere årsak – virkning – aspekter så må man gjøre et kontrollert eksperiment, for eksempel kliniske forsøk, tilfeldig valgt til «behandlinger». Et klassisk eksempel hvor dette ikke er mulig, er studier av sammenhengen mellom røyking og lungekreft. 2) Høy korrelasjon mellom y og en x kan være på grunn av en tredje underliggende variabel. For eksempel, for aldersgruppen 1-12 år finner man en sterk korrelasjon mellom x = vekt og y = språkevne. Kontrolleres det for alder forsvinner denne korrelasjonen. En illustrasjon som setter dette på spissen: x =antall mord i en by i løpet av ett år og y = antall religiøse møter. Den tredje underliggende variabelen: byens størrelse – antall innbyggere.

3


En vanlig lineær regresjonsmodell med et feilledd som tar hensyn til at linearitet ikke kan forventes å holde eksakt: y =  0 + 1 x1 + ... +  k xk +  . Vi bemerker i denne sammenhengen at linearitet betyr lineær i parameterne 0 , 1 ,...,  k . Noen av xvariablene kan gjerne være potenser av andre x-variabler eller produkt av to andre variabler. Et eksempel er en polynomisk regresjonsmodell, y =  0 + 1 x +  2 x 2 + ... +  k x k +  . Et viktig spesialtilfelle er enkle regresjonsmodeller, utledet ut fra en teori om at variasjonen i en x variabel påvirker gjennom en lineær relasjon variasjonen i en kontinuerlig variabel y, lineær både i parameterne og x, det vil si at modellen er: y =  0 + 1 x +  . Regresjonsanalysen er altså basert på at en har en teori om en lineær relasjon mellom x og y som vi ønsker å bekrefte/avkrefte. • • •

Teorien omformes til en matematisk statistisk lineær regresjonsmodell som er verktøyet for å belyse en eventuell avhengighet. Data innhentes, og beregninger gjøres for å estimere en eventuell avhengighet. Resultatene kan gi oss et grunnlag for å bekrefte- /avkrefte teorien om avhengighet med en viss grad av troverdighet.

Den statistiske regresjonsmodellen er verktøyet for å belyse en eventuell avhengighet

Vi kan oppsummere den generelle problemstillingen og teori på følgende måte: Om et potensial av uavhengige variabler har effekt på en avhengig variabel. Deretter formuleres en regresjonsmodell: • En lineær (i regresjonsparameterne) modell for sammenhengen mellom de uavhengige variablene og den avhengige variabelen • Pluss en modell for usikkerheten i forhold til den antatte lineære sammenhengen Ut fra problemstillingen / teorien formuleres hypoteser om betydningen av hver enkelt uavhengig variabel: hypoteser om regresjonsparameterne korresponderende til hver enkelt av variablene. Etter innsamling av data, sjekkes om modellen er godt tilpasset observasjonene. Deretter foretas regresjonsanalysen med en tolkning av resultatene, for eksempel effekten på y av hver enkelt uavhengig variabel og hvor troverdig denne effekten er. Vi ser på dette som en helhetlig prosess, og illustrerer den i figuren nedenfor.

Problemstilling -/-teori

Regresjonsmodell

Hypoteser om betydningen av variablene

Utføre analysen av modellen. Fortolke resultatene om estimerte parametere i lys av betydningen av hver enkelt variabel

Figur 1.4 Prosessen i regresjonsanalyse. En annen form for avhengighet springer ut fra en teori om at en dikotom (0/1) variabel avhenger av en eller flere forklaringsvariabler. Det dreier seg om logistisk regresjon, og er ikke et tema i denne boken. Temaet er behandlet i boken av Fugleberg, Småstuen og Tufte (2018).

1.3 Den enkle lineære regresjonsmodellen Hovedproblemet er å studere hvordan forventningsverdien av y avhenger av x: E(y|x). Data er n uavhengige observasjoner av (x, y): ( x1 , y1 ),...,( xn , yn ). Fire hovedspørsmål som behandles i regresjonsanalyse, er:

4


1) Finn en passende modell for data (eksempel: rett linje x → y). 2) Gitt modell: Tilpass data best mulig til modellen. Etter punkt 2:

3) Sjekk om modelltilpasningen er god nok ved residualanalyse, se kapittel 3.2 og kapittel 5.7. 4) Hvis ikke, prøv med en annen modell. I dette kapittelet skal vi først gi en intuitiv forståelse av den enkle lineære regresjonsmodellen, hvor den underliggende lineære strukturen formuleres som: E ( y | x) = 0 + 1 x , hvor  0 , 1 er ukjente parametere, kalt regresjonskoeffisienter.

Deretter ser vi nærmere på hvordan vi bestemmer en linje som er best mulig tilpasset til de n observasjonene, og fortolkning av regresjonsparameterne. Sjekking av avvik fra forutsetningene for modellen er en viktig del av den statistiske analysen. Fortolkning av lineær modell, hvor linjen er forventningen til y som funksjon av x:

y

er stigningskoeffisienten

x Figur 1.5 Tolkning av lineær modell.

 0 er skjæringspunktet med y-aksen. Stigningskoeffisienten 1 sier hvor mye E(y) forandres når x øker med én måleenhet og er den sentrale parameteren i denne modellen. Det ser vi ved: E ( y | x + 1) − E ( y | x) = 0 + 1 ( x + 1) − ( 0 + 1 x) = 1. For gitt x, la ε = y – E (y | x) = y − ( 0 + 1 x) . Her er ε avviket (uobservert) av y fra den lineære relasjonen og kalles feilleddet og viser modellens manglende evne til å tilpasse dataene perfekt (kan være basert på effekter av andre variabler, målefeil etc.) Vi ser at E ( ) = 0. I tillegg vil vi anta at V ( ) =  2 , uavhengig av x. Dette er en meget sterk antakelse som alltid må sjekkes nøye, ved å se om variasjonene omkring den rette linjen i spredningsplottet i figur 1.5 er tilfeldige. Vi kan illustrere oppbyggingen av lineær regresjonsmodell: Matematisk modell for hovedsammenhengen

y =  + x • •

En lineær relasjon En linje

Basis-modellen er basert på tilfeldig variasjon

Modell for variasjonen omkring hovedsammenhengen

+

ε Reflekterer størrelsen og formen på variasjonen • Tilfeldig variasjon • Ikke tilfeldig variasjon -Faktorer vi ikke har med -Ikke-lineær sammenheng

Figur 1.6 Komponentene i en enkel lineær regresjonsmodell og fortolkningen av dem. 5


Uttrykt ved observasjonene ( xi , yi ), i = 1,..., n har vi følgende lineære regresjonsmodell:

yi =  0 + 1 xi +  i , i = 1,..., n

(1.1)

og 1 ,...,  n er stokastisk uavhengige med samme ukjente varians, V ( i ) =  2 . Merknad om hovedtendensen: Det er ingen eksakt sammenheng mellom x og y, men: 1) Hovedtendensen er den presise lineære relasjonen y =  0 + 1 x. 2) Når 1 > 0 innebærer hovedtendensen en positiv sammenheng.

3) Når 1 < 0 innebærer hovedtendensen en negativ sammenheng. Parameterne 0 , 1 estimeres ved minste kvadraters metode i kap. 1.4. Med estimatene ˆ0 , ˆ1 er det to hovedspørsmål i den statistiske analysen: • Kan vi fastslå med høy grad av troverdighet at 1  0 ? • Hvor pålitelig er prediksjonen ŷ = ˆ + ˆ x av y for en ny observasjon med x-verdien x0? 0

1 0

Dette behandles i kapitlene 1.6-1.8. Kommentar: Siden 1 ,...,  n er stokastiske variabler, så er også y1 , y2 ,..., yn stokastiske variabler. Det brukes små bokstaver også på stokastiske variabler når det ikke kan misforstås. Uansett brukes små bokstaver på xi’ene siden de anses som gitte konstanter. Ved inferens (statistisk analyse) om de ukjente parameterne, spesielt β1, antas vanligvis at feilleddene er normalfordelt. Utgangspunktet for å vurdere om en lineær modell passer er å lage et spredningsplott av dataene, yi mot xi for i = 1, …, n. Altså om observasjonene ligger fordelt rundt en rett linje og om variasjonene rundt en rett linje ser ut til å kunne være tilfeldige. Parameteren β0 er verdien av E ( y | x = 0). Vanligvis er x = 0 ikke en aktuell verdi, men det er viktig å ta med β0 i modellen, for å estimere den riktige linjerelasjonen, ved ikke å tvinge linjen gjennom origo. Når x = 0 ikke er en aktuell verdi så har ikke ̂ 0 noen substansiell betydning. Det kan den selvsagt ha hvis x = 0 er en relevant verdi.

1.4 Minste kvadraters metode (MKM) Vi skal nå se på estimering av regresjonsparameterne i modellen (1.1) ved å finne den best tilpassede linjen, ved MKM, til observasjonene. Utgangspunktet er at vi har n observasjoner av (x, y): ( x1 , y 1 ),( x2 , y2 ),...,( xn , yn ). Minste kvadraters metode er illustrert i figuren. Illustrasjon av minste kvadraters metode MKM y

Finne linjen best tilpasset observasjonene

Avstanden fra observert y til predikert y som punkt på linjen

(

ˆ + ˆ x ˆ i = yi −  yi − y 0 1 i

yi

)

Tar summen av disse avstandene kvadrert

ŷ i

(

ˆ − ˆ x Q =  i =1 yi −  0 1 i n

Finner verdiene av ̂ o og ̂1 som funksjoner av (xi , yi) som minmerer Q

)

2

Finner relasjonen (linjen) som er best tilpasset observasjonene. Har minst samlet avstand til observasjonene

x

6


Resultatene fra MKM: Finner den best tilpassede linjen ved å finne verdiene av β0 og β1 som minimerer Q =  i =1 ( yi −  0 − 1 xi )2 . n

MKM-estimatorene blir, med x =  i =1 xi / n og y =  i =1 yi / n : n

ˆ1 =

n

n

( xi − x )( yi − y ) S xy = og ˆ0 = y − ˆ1 x n S xx  i =1 ( xi − x )2

i =1

(1.2)

Vi ser at MK-linjen blir:

yˆ = ˆ0 + ˆ1 x = y + ˆ1 ( x − x ) og den går gjennom punktet ( x , y ) , dvs. når x = x så er ŷ = y .

La yˆi = ˆ0 + ˆ1 xi = tilpassede verdier for i = 1, . . ., n. Residualene er definert som avvikene mellom observasjonene og de tilpassede verdiene, ei = yi − yˆi , i = 1,..., n. Residualene spiller en viktig rolle når modell-antakelsene skal sjekkes, og for å oppdage eventuelle avvik fra modellen. Residualanalyse behandles i kapittel 3.2 Residualanalyse. Eksempel 1.1. Vi skal studere effekten av et vitamintilskudd på vektøkning på 8 ti-dagers gamle rotter. Vitamintilskuddet ble gitt daglig for to måneder, og vektøkningen etter to måneder ble registrert. Her er x = daglig vitamin dose i gram y = vektøkning etter to måneder i gram Data: Rotte nr. Daglig dose, x Vektøkning, y

1 2 85

2 2 57

3 4 110

4 4 91

5 6 144

6 6 170

7 8 196

8 8 141

Modellen: y =  0 + 1 x +  , β0 = forventet vektøkning uten vitamintilskudd. β1 = forventet vektøkning når x øker med 1 gram pr. dag. Beregninger: y = 994 / 8 = 124,25 og x = 40 / 8 = 5 S xy =  i =1 ( yi − y )( xi − x ) = i =1 yi ( xi − x ) − y  i =1 ( xi − x ) =  i =1 yi ( xi − x ) = i =1 yi xi − nyx n

n

n

n

n

 S xy = 5668 − 8 124, 25  5 = 698 S xx =  i =1 ( xi − x )2 =  i =1 xi2 − nx 2 = 240 − 8  52 = 40 n

n

(1.2)  ˆ1 = 698 / 40 = 17,45 og ˆ0 = 124,25 − 17,45  5 = 37,0 MK-linje: yˆ = 37,0 + 17, 45 x

7


Regresjonsplott 250 200 150 100 50 0 0

2

4

6

8

10

Figur 1.7 Spredningsplott med MK-linje. ▲

ˆ0 og ˆ1 er forventningsrette estimatorer: 1 E ( ˆ1 ) = S xx

n i =1

E ( yi )( xi − x ) =

1 S xx

n i =1

(  0 + 1 xi )( xi − x ) =

1 n 1  i =1 xi ( xi − x ) = 1 S xx

1 n E ( ˆ0 ) = E ( y ) − 1 x =  i =1 ( 0 + 1 xi ) − 1 x =  0 + 1 x − 1 x =  0 n Variansene er:

 V ( ˆ1 ) = S xx 2

 1 x2  V ( ˆ0 ) =  2  +   n S xx  Det gjenstår å estimere den felles variansen  2 . Estimatet er basert på residualsummen av kvadratavvikene: SS E =  i =1 ei2 =  i =1 ( yi − yˆi ) 2 . n

n

En forventningsrett estimator er

ˆ 2 =

SS E . n−2

Samlet oversikt over MKM-estimatorene for  og 

 Fra (1.2): ˆ0 = y − ˆ1 x og ˆ1 = i =1 n

( yi − y )( xi − x )

n i =1

( xi − x )

Forventning og varians:

 1 x2  E ( ˆ0 ) = 0 og V ( ˆ0 ) =  2  +   n S xx 

 E (ˆ1 ) = 1 og V ( ˆ1 ) = S xx 2

2

=

S xy S xx

Estimatorene er lineære i yi’ene MKM estimatorene har minst varians blant lineære forventningsrette estimatorer Det er hvordan x påvirker y som er av interesse

For manuelle beregninger kan man bruke at n SS E =  i =1 ( yi − y )2 − ˆ12 S xx .

(1.3)

8


I eksempel 1.1 får vi:

n i =1

( yi − y )2 = 15283,50  SS E = 15283,50 − 17, 452  40 = 3103, 40

 ˆ 2 = 3103, 40 / 6 = 517, 23 og ˆ = 22,74. Videre er estimatet av variansen til ̂1 gitt ved ˆ 2 / S xx = 517, 23 / 40 = 12,93.

ˆ 2 / S xx = ˆ / S xx = 3,60 . Dette er det naturlige målet på usikkerheten i estimatet 17,45 av β1, og spiller en viktig rolle i selve den statistiske analysen, som vi foretar i kapitlene 1.6-1.8. Standardfeilen til estimatet er definert ved

Under den enkle lineære regresjonsmodellen har MKM-estimatorene for regresjonsparameterne visse optimalitetsegenskaper. Som statistikere krever vi at en god estimator skal være: forventningsrett, og ha minst varians. Det kan vises at nettopp MKM estimatorene har denne egenskapen blant estimatorer som er lineære i y- ene, dvs. på formen

n

a yi , hvor ai 'ene ikke avhenger av yi 'ene. Dette kalles

i =1 i

Gauss Markovs teorem: Innenfor klassen av lineære (i y-ene) forventningsrette estimatorer for β0 og β1 har minste kvadraters estimatorer minst varians. En asymptotisk egenskap som er ønskelig, er at estimatorer er konsistente. Det betyr at når n → ∞ så bør en estimator konvergere mot den sanne verdien på parameteren, med en sannsynlighet som konvergerer mot 1. Tilstrekkelig for forventningsrette estimatorer er at variansen går mot 0 når n øker mot uendelig. Dette holder for MKM-estimatorene hvis Sxx/n og x går mot endelige verdier når n → ∞, fordi: V (ˆ1 ) → 0 såfremt S xx / n → a, endelig verdi, når n →  og V ˆ ) → 0 hvis S / n → a og x → b, endelige verdier, når n → . 0

xx

Vi kan nå oppsummere egenskapene til MKM-estimatorene. De gode egenskapene for en estimator a) Ikke systematisk under -/- over estimerer β0 og β1

Egenskapene til MKM-estimatorene som gir at de gode egenskapene er oppfylt

E (ˆ0 ) = 0 og E(ˆ1 ) = 1

minst mulig avvik fra de «sanne» parameterne

ˆ0 og ˆ1 har minst varians blant lineære forventningsrette estimatorer for  0 og 1

systematisk under/over

estimatorer for β0 og β1.

b) Mest mulig nøyaktig; dvs. med

c) estimerer Estimatoren β0skal og bli β1 mer nøyaktig med økende n; dvs. jo større utvalg vi tar, jo mindre avvik fra β0 og β1 forventer vi.

Når n øker

Variansen til ˆ0 → 0 og variansen til ˆ1 → 0

For en x-verdi utenfor utvalget kan vi ønske å predikere y. For en gitt x er punkt-estimatoren for E(y) = β0 + β1x gitt som ŷ = ˆ0 + ˆ1 x . Den er forventningsrett: E ( yˆ ) = E ( 0 ) + E ( ˆ1 ) x = 0 + 1 x .

9


På grunn av egenskapene til ˆ0 og ˆ1 har også ŷ = ˆ0 + ˆ1 x de gode egenskapene (a) –(c) a)

ŷ estimerer ikke systematisk over/under E(y) = β0 + β1x

b)

ŷ er mest mulig nøyaktig med minst mulig avvik fra E(y)

c)

ŷ blir mer nøyaktig med økende n. Jo større utvalg vi tar, jo mindre avvik fra E(y)

1.5 Variansanalyse i regresjon og forklaringsgrad Vi skal presentere en variansanalyse tabell. Tabellen gir en oversikt over forskjellige slags variasjoner i ( y1 , y2 ,..., yn ) som er relevant i regresjonsanalysen, spesielt angående stigningskoeffisienten β1. Vi splitter opp den totale y-variasjonen målt ved S yy =  i =1 ( yi − y )2 i forskjellige komponenter etter n

kilden til variasjonen. Residualkvadratsummen er summen av kvadratet av avvikene SS E =  i =1 ( yi − yˆi )2 . Fra (1.3) i kap. n

1.4 har vi at

SS E = S yy − ˆ12 S xx  S yy = SS E + ˆ12 S xx . n Et mer klargjørende uttrykk: ˆ12 S xx =  i =1 ( yˆi − y ) 2 = SSR. Det følger av

yˆi = ˆ0 + ˆ1 xi = y + ˆ1 ( xi − x )  yˆi − y = ˆ1 ( xi − x ) og

n i =1

( yˆi − y ) 2 = ˆ12 S xx .

Dermed har vi:

n i =1

( yi − y )2 =  i =1 ( yˆi − y )2 +  i =1 ( yi − yˆi )2 , n

n

Syy = SSR + SSE

(1.4)

Vi har jo at yi − y = ( yˆi − y ) + ( yi − yˆi ) , og vi har nå vist at den totale variasjonen fås ved å summere hver komponent for seg. Dette er en fundamental identitet i regresjonsanalysen og gjelder også for multippel regresjon: Total variasjon = variasjon forklart ved regresjonslinjen + uforklart variasjon Vi ser at hvis vi har perfekt tilpasning, yi = yˆi , for i = 1,..., n, så er Syy = SSR og all variasjon forklares ved regresjonen på x. Figur 1.8 gir en illustrasjon.

10


Sammenhengen mellom total variasjon, forklart variasjon og uforklart variasjon

S yy= SST= Sum av totale avvik kvadrert, korrigert for gjennomsnitt

Y

yi Total Total variasjon variasjon

Uforklart avvik

Totalt avvik

SSR= SS E= Sum av uforklart avvik kvadrert,

SSE= SS R= Sum av forklart avvik kvadrert, korrigert for gjennomsnitt Forklart Forklart variasjon variasjon

Uforklart Uforklart variasjon variasjon

yˆi Forklart avvik

SSR/Syy er andelen av variasjonen som er forklart ved regresjon

X

xi

Figur 1.8 Illustrasjon av hvordan total variasjon kan splittes opp på forklart og uforklart variasjon. Variansanalyse (ANOVA)-tabellen (ANOVA etter engelsk: ANalysis Of VAriance) sammenfatter dette:

Tabell 1.1: ANOVA tabellen Kilde

Kvadratsum

Frihetsgrader

Middel kvadratsum

F

Regresjon

SSR

1

MSR = SSR/1

F = MSR/ MSE

Residual

SSE

n–2

MSE = SSE/(n – 2)

Total

Syy

n–1

Vi skal senere se at F er en testobservator for å teste nullhypotesen H0: β1 = 0. Frihetsgradene kan forklares på følgende måte: • •

For SSR: Generelt for multippel regresjon. Frihetsgraden er antall forklaringsvariabler i regresjonsmodellen. For SSE: Vi har n residualer. To frihetsgrader er «brukt opp» på grunn av estimering av to regresjonsparametere.

For Syy: n avvik yi − y hvor en frihetsgrad er brukt opp på grunn av at

n i =1

( yi − y ) = 0.

Andelen av forklart variasjon av forklaringsvariabelen x, forklaringsgraden, betegnes med R2 og er gitt ved

R2 =

SS Forklart variasjon SS R = =1− E Total variasjon S yy S yy

(1.5)

Uttrykt ved variasjonsmålene:

11


R2 =

 

n i =1 n

( yˆi − y ) 2

( yi − y ) 2 i =1

 

n

=1−

i =1 n

( yi − yˆi ) 2

( yi − y ) 2 i =1

, 0  R2  1

R2 kalles også determinasjonskoeffisienten. I eksempel 1.1 er Syy = 15283,50 og SSE =3103,50 slik at 3103,50 R2 = 1 − = 1 − 0, 203 = 0,797 . 15283,50

1.6 Hypotesetesting om stigningskoeffisienten 1.6.1 Generelt om hypotesetesting Hypotesetesting behandler følgende type situasjoner: 1) 2) 3)

En påstand er fremsatt om en ukjent populasjonsparameter, f.eks. β1. Data samles inn. Spørsmål: Gir data tilstrekkelig støtte, bevis, for å kunne hevde at påstanden er sann?

Et par eksempler: a) Ny medisinsk behandling for en sykdom Påstand: Ny behandling er bedre enn standard behandling. b) Astma og røyking Påstand: Det er sammenheng mellom astma blant barn og røyking under graviditeten. Vanligvis blir påstanden formalisert som et utsagn om en ukjent populasjonsparameter, og kalles da en statistisk hypotese. For eksempel i punkt a). Anta standard behandling har P (helbrede) = 0,8. Påstanden er da at for ny behandling: p = P (helbrede) > 0,8. Statistikeren må da, basert på data, velge mellom en av to mulige beslutninger: 1) Påstanden er sann (sterkt støttet av data) 2) Kan ikke hevde at påstanden er sann (ikke nok bevis i data) Så hypotesetesting dreier seg om problemer hvor man må foreta et valg mellom to statistiske hypoteser. For eksempel, et sentralt problem i enkel regresjonsanalyse er å teste om den avhengige variabelen har en positiv lineær sammenheng med forklaringsvariabelen, dvs. om β1 > 0. Det betyr at vi må gjøre et valg mellom de to statistiske hypotesene:

eller

β1 > 0

betegnes med H1, kalles den alternative hypotesen

β1 = 0

betegnes som H0, kalles nullhypotesen.

Vi ønsker å teste: H0: β1 = 0 mot H1: β1 > 0 Viktig her er at den alternative hypotesen alltid er den påstanden man søker bevis for, og nullhypotesen er at påstanden er uriktig. Her er det antatt at β1 < 0 ikke er en mulig tilstand.

12


Neste trinn er å bestemme en statistisk test. For eksempel for hypoteseproblemet ovenfor er det naturlig å basere testen på den estimerte ̂ og si at data støtter H1, dvs. forkaster H0, hvis ̂ er tilstrekkelig stor, ˆ  c . Problemet blir da å bestemme c. 1

Nå er det slik at ingen verdi av ̂ kan fastslå med 100 prosent sikkerhet at β1 > 0. Isteden vil vi kreve: P (forkaste H0 når H0 er sann) = α; hvor α kalles signifikansnivået og vanlige verdier er 0,01-0,05. Begrunnelsen for dette kravet er følgende: Hvis H0 forkastes, så kan vi konkludere med en høy grad av sikkerhet at H1 er sann. Vi konkluderer H1 utenfor enhver rimelig tvil. I hypotesetesting kan man foreta to typer av feil-beslutninger, avhengig av om nullhypotesen er sann eller ikke. Vi kan illustrere det i følgende figur:

Naturens sanne ukjente tilstand Testbeslutning

Forkaster H0 Forkaster ikke H0

H0 er sann

H1 er sann

(β1 = 0)

(β1 > 0)

Type I feil

Korrekt

Korrekt

Type II feil

Figur 1.9 Hypotesetestingens konklusjoner og konsekvenser. Vi kan ikke vite om en feil er begått, men vi kan finne sannsynligheten for uriktige beslutninger: P (Type I feil) =  = 0,05 (bestemmes av statistikeren) P (Type II feil) = g(β1), er mer komplisert og avhenger av sann verdi av β1 > 0 Det kan være mange tester som oppfyller at signifikansnivået er  Man velger da den testen som har minst P (Type II feil). Testene som nevnes i denne boken har den egenskapen blant aktuelle tester. Vanligvis er g(β1) betydelig større enn signifikansnivået. En viktig konsekvens av det er: Hvis H0 ikke forkastes, så betyr ikke det at vi har bevis til støtte for H0. Så det å «akseptere» H0 betyr: Vi har ikke klart å motbevise H0 på grunn av manglende bevis til støtte for H1. Konsekvensen av dette er at H1 alltid er hypotesen vi ønsker å finne støtte for i data. For å gjøre dette klart bør man alltid språklig si at «H0 ikke forkastes» istedenfor at «H0 aksepteres». Dette forhindrer ikke at man noen ganger må oppføre seg som om H0 er sann. Et klassisk eksempel er en straffesak i retten hvor vi har H0: tiltalte er uskyldig, mot H1: tiltalte er skyldig.

Sammendrag. Grunnleggende begreper og tolkninger i hypotesetesting 1) Påstand om en ukjent parameter. Problemet er å finne ut om data støtter påstanden. Formulering av nullhypotese og alternativ hypotese: H1: Påstanden er sann. H0: Påstanden er ikke sann. 2) Statistisk test: Testobservator med kritisk verdi for å forkaste H0. 3) To typer feil kan begås: Type I feil: Forkaste H0 når H0 er sann Type II feil: Unnlate å forkaste H0 når H1 er sann 13


4) Krav til testen: Signifikansnivå α er liten: P (Type I feil) = α 5) Velger α-nivå test med minst P (Type II feil)

1.6.2 Hypotesetesting i enkel regresjon Når vi skal foreta statistiske analyser (statistisk inferens) om de ukjente regresjonsparameterne basert på de estimerte verdiene, vil vi anta at MKM-estimatorene er normalfordelte eller tilnærmet normalfordelte. En samlet oversikt over antakelser og estimatorenes egenskaper:

Feilleddene 1 ,...,  n er uavhengige, normalfordelte:  i er N (0, 2 ), i = 1, 2,..., n uavhengige

Det betyr for de observerte verdiene av x, yi

N (  0 + 1 xi ,  2 ), i = 1,..., n .

ˆ0 og ˆ1 er normalfordelte med forventning β0 og β1. Variansene er gitte ved  1 x2  2 V ( ˆ1 ) = og V ( ˆ0 ) =  2  +  , S xx = S xx  n S xx 

n i =1

( xi − x ) 2

Hvis feilleddene ikke er normalfordelte, så vil ˆ0 og ˆ1 være tilnærmet normalfordelte for moderat store utvalg. Det følger fra sentralgrenseteoremet. Ofte vil n > 100 være tilstrekkelig, spesielt hvis feilleddene er symmetrisk fordelte rundt 0.

Det sentrale testingsproblemet i den enkle regresjonsmodellen er å teste om det er en lineær sammenheng mellom x og y, dvs. om stigningskoeffisienten β1 ≠ 0: H0: β1 = 0

mot

H1: β1 ≠ 0

Vi bemerker at β1 = 0 betyr at det ikke er en lineær sammenheng. Det kan være to grunner til det, enten er y uavhengig av x eller så er det en ikke-lineær sammenheng.

Vi kan nå sette opp figur 1.9 for denne problemstillingen på følgende måte: Naturens sanne ukjente tilstand Testbeslutning Forkaster H0

H0 er sann (β1 = 0)

H1 er sann (β1 ≠ 0)

Type 1 feil

Korrekt

Det er ingen sammenheng, men det konkluderes med en sammenheng

Det er sammenheng, og det konkluderes med en sammenheng

Kontrollerer  = P (Type I feil)

Forkaster ikke H0

Korrekt

Type II feil

Det er ingen sammenheng og det konkluderes ikke nok bevis til å påstå en sammenheng

Det er en sammenheng, men vi konkluderer ikke nok bevis til å påstå en sammenheng

Figur 1.10 Hypotesetesting om sammenheng. Fire kombinasjoner av naturens sanne ukjente tilstand og beslutning.

14


Et eksempel på en problemstilling som dreier seg om å teste en hypotese om stigningskoeffisienten i en regresjonsmodell og konsekvenser av Type I og Type II feil er følgende. Eksempel 1.1, forts. Eksempel: Fra en problemstilling om sammenheng til hypotesetesting om sammenheng Vitamintilskudd, x

Vektøkning, V En statistisk formulering om sammenhengen: en hypotese om stigningskoeffisienten

Figur 1.11 En illustrasjon på å teste H0: β1 ≤ 0 mot H1: β1 > 0. Type I feil: •

Vitamintilskudd medfører ingen vektøkning, men vi påstår at vitamintilskudd har en positiv effekt på vekt. Konsekvens: gir vitamintilskudd, selv om det ikke har effekt. Sannsynligheten for denne konsekvensen er liten, valgt av statistikeren.

Type II feil: • Vitamintilskudd medfører vektøkning, men vi har ikke nok bevis til å konkludere det Konsekvens: Lar være å ta i bruk vitaminstilskudd, når det medfører vektøkning Sannsynligheten for denne konsekvensen kan være betydelig. ▲ To forskjellige typer av hypotesetesting om stigningskoeffisienten er: a) Om det er en sammenheng, hvor nullhypotesen er formulert som ingen sammenheng ved at stigningskoeffisienten er lik 0. b) Hypotesetesting om at sammenhengen er større enn (mindre enn) et bestemt nivå, hvor nullhypotesen er formulert som at stigningskoeffisienten er mindre eller lik (større eller lik) dette nivået. Hypotesetesting av type a) med positiv alternativ hypotese Nullhypotese Alternativ hypotese

H0: β1 = 0 (Representerer ingen sammenheng) H1: β1 > 0 (Representerer en teori om at y øker med x)

Hypotesetesting av type b) Nullhypotese H0: 1  10 (Representerer negasjonen av H1) Alternativ hypotese H1: 1  10 (Representerer en teori om at y øker mer med x enn 10 ) Hypotesetesting av type a) illustreres i neste figur.

15


Illustrasjon av hypotesetesting om en sammenheng

Dreier seg om en hypotese om stigningskoeffisienten er ulik null

y Alternativ hypotese om at en økning i x medfører at y øker Nullhypotese om ingen sammenheng Alternativ hypotese om at en økning i x medfører at y avtar

x Figur 1.12 Illustrasjon av hypotesetesting om det er en sammenheng til stede. Testobservator for basisproblemet med tosidig alternativ hypotese H0: β1 = 0 mot H1: β1 ≠ 0 Vi tar utgangspunkt i estimatoren

̂ , som er normalfordelt og har følgende egenskaper:

 E ( ˆ1 ) = 1 og V ( ˆ1 ) = . S xx 2

Det betyr at under nullhypotesen har vi at Z0 =

ˆ1  / S xx 2

er N (0,1) -fordelt.

Hvis σ2 er kjent, så kunne vi brukt Z0 til å teste hypotesene H0 og H1. Nå er σ2 ukjent, og vi bruker den forventningsrette estimatoren

ˆ 2 =

SS E n n , hvor SS E =  i =1 ei2 =  i =1 ( yi − yˆi )2 . n−2

Og testobservatoren blir: t=

ˆ1 ˆ / S xx 2

=

ˆ1 S xx SS E / (n − 2)

(1.6)

Størrelsen

SE( ˆ1 ) =

ˆ 2 ˆ = S xx S xx

kalles standardfeilen (engelsk: standard error) til den estimerte stigningskoeffisienten på hvor presist stigningskoeffisienten er estimert.

̂1 . Den er et mål

Under H0 har t en t- fordeling med n – 2 frihetsgrader. Testen, t-testen, med signifikansnivå  blir da: Forkast H0 hvis | t | t /2;n−2 . Her er t /2;n−2 øvre /2-kvantilen i tn-2-fordelingen.

16


La oss gå tilbake til ANOVA-tabellen i tabell 1.1 i kapittel 1.4. Tabell 1.1: ANOVA-tabellen Kilde

Kvadratsum

Frihetsgrader

Middel kvadratsum

F

Regresjon

SSR

1

MSR = SSR/1

F = MSR/ MSE

Residual

SSE

n–2

MSE = SSE/(n – 2)

Total

Syy

n–1

Fra (1.3) har vi at SS R = S yy − SS E = ˆ12 S xx . Det betyr at

t2 =

ˆ12 S xx SS = R =F SS E / (n − 2) MS E

som har en F-fordeling med 1 og n – 2 frihetsgrader under H0. Vi viser til kapittel 4.4.1 for en generell utledning av F-fordelingen i ANOVA-tabellen. T-testen er derfor ekvivalent med F-testen som forkaster H0 hvis F > t /2;n−2 = F ;1,n−2 , den øvre 2

−kvantilen i F-fordelingen. For ensidige testproblemer har vi to alternative hypoteser. Positiv alternativ hypotese, H0: β1  0 mot H1: β1 > 0. Forkaster H0 hvis t ≥ t ; n − 2 . Kommentar: Det kan vises at sannsynligheten for å forkaste H0 under H0 (β1  0) øker når β1 øker, og er derfor størst når β1 = 0, og da er t t-fordelt med n – 2 frihetsgrader. Negativ alternativ hypotese, H0: β1 ≥ 0 mot H1: β1 < 0. Forkaster H0 hvis t < ˗ t ; n − 2 . Kommentar: Det kan vises at sannsynligheten for å forkaste H0 under H0 (β1 ≥ 0) øker når β1 avtar og er derfor størst når β1 = 0, og da er t t-fordelt med n – 2 frihetsgrader. Eksempel 1.1, forts. La oss gå tilbake til eksempel 1., hvor vi studerer effekten av et vitamintilskudd på vektøkning på 8 tidagers gamle rotter. Vitamintilskuddet ble gitt daglig for to måneder, og vektøkningen etter to måneder ble registrert. Her er x = daglig vitamin dose i gram y = vektøkning etter to måneder i gram. Vi er interessert å finne ut om det er grunn til å påstå at y øker med x, dvs., teste: H0: β1  0 mot H1: β1 > 0. Her er n = 8. Vi bestemmer oss for signifikansnivå lik 0,01. Den kritiske verdien blir da: t0,01;6 = 3.143. Så H0 forkastes hvis t ≥ 3,143. Fra tidligere har vi:

ˆ1 = 17,45, ˆ 2 = 517,23, S xx = 40 og dermed, fra (1.6), t=

ˆ1 ˆ / S xx 2

=

17, 45 17, 45 = = 4,853 , og vi kan påstå at β1 > 0 med høy grad av sikkerhet. 517, 23 / 40 3,596

Det kan være interessant å finne det minste signifikansnivået som gir forkastning. Det finner vi ved å beregne sannsynligheten for at t ≥ 4,853 under H0. Denne sannsynligheten kalles signifikanssannsynligheten, eller p-verdien. Her er den lik 0,0014 for denne ensidige testen. 17


I tillegg til helsefag vil boken være egnet for praktiske statistikere, økonomer, statsvitere, psykologer og sosiologer. Generelt kan boken brukes av forskere som bruker kvantitative metoder i sine prosjekter. Et appendiks med mer kompliserte utledninger samt et arbeidshefte med oppgaver og løsninger vil være tilgjengelig online.

ISBN 978-82-450-4160-6

INNFØRING I LINEÆR REGRESJONSANALYSE

Målgruppe er bachelor- og masterstudenter som følger kurs i praktisk regresjonsanalyse. Boken egner seg for et kurs i praktisk regresjonsanalyse for helsefag, men kan også benyttes i kurs i regresjonsanalyse generelt og med et litt mer avansert teoretisk innhold.

Jan Fredrik Bjørnstad, Ole Albert Fugleberg og Milada Cvancarova Småstuen

Denne boken gir en innføring i lineær regresjonsanalyse for studenter som ikke nødvendigvis har mye bakgrunn i statistikk. Boken har en praktisk tilnærming med mange eksempler og anvendelser. Det er i boken lagt vekt på å gi grundige vurderinger av viktige statistiske begreper og prinsipper, som forståelsen av hypotesetesting og begrepet konfidensintervall samt hva en lineær sammenheng er. Det legges også vekt på hvordan en problemstilling i en helsefaglig undersøkelse kan omformes til en lineær regresjonsmodell, og hvordan man tolker og presenterer resultater fra regresjonsanalysen. Dette er løpende supplert med grafer og figurer for å lette forståelsen.

INNFØRING I LINEÆR REGRESJONSANALYSE Med vekt på helsefag

Jan Fredrik Bjørnstad Ole Albert Fugleberg Milada Cvancarova Småstuen


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.