Statistisk analyse i Stata av Anne Tjønndal: Utdrag by Cappelen Damm

Anne TjĂ¸nndal

Statistisk analyse i Stata

Innhold Forord................................................................................................................................ 5 DEL I INTRODUKSJON TIL STATISTISK ANALYSE I STATA ............................................. 17 Kapittel 1 Innledning ........................................................................................................................ 19 1.1 Hva kan vi undersøke med statistisk analyse? .................................................... 19 1.2 Bokens bakgrunn og innhold ................................................................................. 20 1.3 Overgangen fra SPSS til Stata ................................................................................ 21 1.4 Målgruppe ................................................................................................................ 22 1.5 Kildehenvisninger og bokens oppbygning .......................................................... 23 Kapittel 2 Grunnleggende begreper ............................................................................................. 25 2.1 Operasjonalisering, variabler og verdier .............................................................. 25 2.2 Målenivå ................................................................................................................... 27 Nominale variabler .................................................................................................. 27 Ordinale variabler .................................................................................................... 28 Variabler på intervallnivå ....................................................................................... 29 Variabler på forholdstallsnivå ............................................................................... 29 2.3 Målefeil ..................................................................................................................... 29 2.4 Stata .......................................................................................................................... 31 2.5 European Social Survey (ESS) .............................................................................. 31

innhold

Kapittel 3 Stata ................................................................................................................................. 34 3.1 Stata uten data: åpningsvinduet ........................................................................... 34 3.2 Menylinje .................................................................................................................. 37 3.3 Stata med datasett ................................................................................................. 38 3.4 Loggfiler .................................................................................................................... 39 3.5 Split File .................................................................................................................... 39 3.6 ESS7-variabler i kapittel 3 ...................................................................................... 43 3.7 Oppsummering ....................................................................................................... 44 DEL II DESKRIPTIV STATISTIKK, OMKODING OG ENKEL REGRESJONSANALYSE .............................................................................. 45 Kapittel 4 Deskriptive analyser ..................................................................................................... 47 4.1 Describe .................................................................................................................... 48 4.2 Codebook ................................................................................................................. 49 4.3 Frekvenstabeller, search og help .......................................................................... 51 4.4 ESS7-variabler brukt i kapittel 4 .......................................................................... 58 4.5 Oppsummering ....................................................................................................... 58 KAPITTEL 5 Grafiske fremstillinger ................................................................................................. 60 5.1 Histogram .................................................................................................................. 60 5.2 Skjevhet og kurtose ................................................................................................ 62 5.3 q-q plot (Q-normal plot) ....................................................................................... 64 5.4 Boksplott .................................................................................................................. 65 5.5 Missing values ......................................................................................................... 67 5.6 ESS7-variabler brukt i kapittel 5 ........................................................................... 69 5.7 Oppsummering ....................................................................................................... 70 Kapittel 6 Omkoding ........................................................................................................................ 71 6.1 Dummykoding .......................................................................................................... 71 6.2 Missing-verdier ...................................................................................................... 75 6.3 Eksempler på vanlige omkodinger ....................................................................... 77 6.4 ESS7-variabler brukt i kapittel 6 ........................................................................... 81 6.5 Oppsummering ....................................................................................................... 82

innhold

Kapittel 7 Bivariat lineær regresjon (OLS) ................................................................................. 83 7.1 Målenivå på avhengig variabel i lineær regresjon .............................................. 83 7.2 Bivariat lineær regresjon ........................................................................................ 85 7.3 Hvordan tolke regresjonsanalysen ....................................................................... 89 7.4 ESS7-variabler brukt i kapittel 7 ........................................................................... 90 7.5 Oppsummering ........................................................................................................ 91 DEL III AVANSERTE METODER OG REGRESJONSMODELLER .......................................... 93 Kapittel 8 Variabelkonstruksjon ................................................................................................... 95 8.1 Dummysett ............................................................................................................... 95 8.2 Andregradsledd og samspillsledd ....................................................................... 97 8.3 Interpolering ............................................................................................................ 98 8.4 ESS7-variabler brukt i kapittel 8 ........................................................................... 100 8.5 Oppsummering ....................................................................................................... 100 Kapittel 9 Skalavariabler og sammensatte mål ......................................................................... 101 9.1 Korrelasjonsanalyse ................................................................................................ 101 9.2 Skalavariabler og sammensatte mål ................................................................... 104 9.3 Faktoranalyse ........................................................................................................... 106 9.4 Reliabilitetstest ....................................................................................................... 108 9.5 ESS7-variabler brukt i kapittel 9 ........................................................................... 109 9.6 Oppsummering ....................................................................................................... 110 Kapittel 10 Multippel lineær regresjon .......................................................................................... 112 10.1 Enkel multippel regresjon ..................................................................................... 112 10.2 Dummysett i lineær regresjon ............................................................................ 115 10.3 Andregradsledd i lineær regresjon .................................................................... 117 10.4 Samspillsledd i lineær regresjon ........................................................................ 122 10.5 Sammenlikne lineære regresjonsmodeller ....................................................... 124 10.6 ESS7-variablene brukt i kapittel 10 .................................................................... 131 10.7 Oppsummering ..................................................................................................... 133

innhold

Kapittel 11 Logistisk regresjon ........................................................................................................ 134 11.1 Innledning ................................................................................................................. 134 11.2 Avhengig variabel i logistisk regresjon ............................................................... 135 11.3 Enkel logistisk regresjon ....................................................................................... 137 11.4 Logistisk regresjon med samspillsledd .............................................................. 140 11.5 Hosmer-Lemeshows test ..................................................................................... 141 11.6 Nestreg, dummysett og andregradsledd ........................................................... 143 11.7 Grafer i logistisk regresjon .................................................................................... 147 11.8 ESS7-variabler brukt i kapittel 11 ......................................................................... 148 11.9 Oppsummering ...................................................................................................... 148 DEL IV FORUTSETNINGER FOR REGRESJONSANALYSE .................................................. 151 Kapittel 12 Regresjonsforutsetninger ........................................................................................... 153 12.1 Homoskedastisitet ................................................................................................. 153 12.2 Normalfordeling .................................................................................................... 158 12.3 Ekskluderte relevante variabler og inkluderte irrelevante variabler ............. 160 12.4 Kausalitet ................................................................................................................ 161 12.5 Ekstremverdier ....................................................................................................... 162 12.6 Multikollinearitet ................................................................................................... 162 12.7 Ikke-lineære effekter ............................................................................................. 164 12.8 Statistiske tester for ikke-lineære effekter: RESET .......................................... 166 12.9 Diskriminering ....................................................................................................... 167 12.10 Lineær vs. logistisk regresjon ............................................................................ 170 12.11 ESS7-variabler brukt i kapittel 12 ....................................................................... 170 12.12 Oppsummering .................................................................................................... 171 Referanser ....................................................................................................................... 173 Stikkord ............................................................................................................................ 183

Kapittel 2

Grunnleggende begreper Før du kan sette i gang med statistiske analyseteknikker, tolkning og presentasjon av resultater i Stata er kjennskap til enkelte grunnleggende statistiske begreper en nødvendighet. Selv om denne boken bygger på premisset om at leseren har noe tidligere kjennskap til kvantitativ metode, skader det sjelden med litt repetisjon av basiskunnskapen. I dette kapitlet presenteres en kort redegjørelse for sentrale begreper som variabler, målenivå, målefeil, reliabilitet og validitet. Videre beskrives analyseprogrammet denne boken tar utgangspunkt i, Stata, og datasettet som benyttes til eksemplene i boken, European Social Survey (ESS).

2.1 Operasjonalisering, variabler og verdier Innsamlingen av data i kvantitative spørreundersøkelser foregår gjennom spørreskjemaer der spørsmålene og svarkategoriene er satt på forhånd. Svarene fra alle som har deltatt på spørreundersøkelsen samles, og utgjør til sammen et datasett. Hvert spørsmål i et spørreskjema utgjør en variabel i det elektroniske datasettet. Variabler utgjør altså egenskaper ved enhetene (respondentene) i undersøkelsen. Alle variabler inneholder variasjoner for enhetene de beskriver. Mer konkret betyr dette at egenskapene variablene beskriver, ikke er like for enhetene som undersøkes1. Vanlige eksempler på variabler er kjønn, alder, inntekt og utdanning. Når vi snakker om variabler, er det viktig å skille mellom de teoretiske definisjonene av variablene, og de variablene vi faktisk kan observere i vårt datasett. Det er dette som kalles operasjonalisering i kvantitativ metode. En operasjonell definisjon forteller oss hvordan vi måler en teoretisk egenskap. Det er viktig at det er samsvar mellom de teoretiske og operasjonaliserte variablene, slik at vi faktisk måler det vi ønsker å måle.

Les mer i Tufte (2017).

kapittel 2

Spørsmålene, eller variablene, er altså vår måte å operasjonalisere teoretiske begreper vi ønsker å måle på. Eksempelvis kan slike teoretiske begreper være fysisk aktivitet, helse, livskvalitet eller sosial klasse. Operasjonaliseringen av begrepet «fysisk aktivitet» kan for eksempel gjøres slik det er gjort i datasettet denne boken bruker som eksempel, ESS72. I ESS7 er variabelen dosprt operasjonaliseringen av respondentens fysiske aktivitetsnivå. Variabelen dosprt representerer et spørsmål i ESS7. Spørsmålet dosprt representerer, er formulert slik: «Hvor mange dager har du drevet idrett eller vært fysisk aktiv i minst 30 minutter den siste uka?», med svaralternativene 0–7. Tallene 0–7 representerer her

antall dager man har vært fysisk aktiv i minimum 30 minutter sist uke og utgjør verdiene for variabelen dosprt. Noen begreper er lettere å operasjonalisere enn andre. Eksempler på slike begreper er utdanning og alder. Det er vanlig å måle utdanning i enten antall år eller i kategorier som for eksempel grunnskole, videregående, høgskole/universitet 0–3 år og høgskole/universitet over 3 år. Det samme gjelder alder, hvor det vanligste er å operasjonalisere respondentens alder enten i antall år eller i kategorier som for eksempel 20–25 år, 25–30 år, og liknende. Andre begreper er derimot ganske vanskelige å måle. Et godt eksempel på dette er sosial klasse eller helse. Slike begreper kan, som de fleste andre, operasjonaliseres både objektivt og subjektivt. Man kan for eksempel konstruere et mål på sosial klasse gjennom å kombinere variabler som inntekt og utdanning. På denne måten prøver man å operasjonalisere sosial klasse objektivt. Men slike begreper kan man også måle subjektivt. Et godt eksempel på en variabel som er operasjonalisert subjektivt er helsevariabelen i ESS7. «Helse» er her operasjonalisert gjennom spørsmålet «Hvordan vil du beskrive din generelle helse?», med svaralternativene/verdiene «veldig god», «god», «helt grei», «dårlig» og «veldig dårlig»3. Dette spørsmålet måler respondentens subjektive vurdering av egen helse. En person med en kronisk sykdom kan oppfatte egen helse som svært god på lik linje med personer uten slike plager, selv om man objektivt kanskje ville si at personen uten kroniske sykdom har bedre helse.

2 3

European Social Survey Round 7 (2014), tilgjengelig på nett fra 2016. På European Social Surveys nettsider (www.europeansocialsurvey.org) kan du laste ned spørreskjemaene til hvert enkelt datasett. Her kan du enkelt finne spørsmålsformuleringene og svaralternativene til hver variabel i ESS-datasettene.

grunnleggende begreper

2.2 Målenivå Variabler klassifiseres i ulike målenivå. Å vite hvilket målenivå dine variabler er på, er viktig når du skal velge egnede analyseteknikker i Stata. Målenivået forteller oss også noe om hvilken type informasjon som ligger i tallene i variabelen. Det er viktig når man velger variabler at man er klar over hvilket målenivå de ulike variablene er på. Vanligvis deler man målenivåene inn i to hovedkategorier: diskret (også kalt kategorisk) og kontinuerlig. Disse to kategoriene kan igjen deles inn i fire forskjellige målenivå: nominal-, ordinal-, intervall- og forholdstallsnivå4. Av denne enkle tabellen kan vi oppsummere noen grunnleggende forskjeller mellom de fire målenivåene variabler kan ha: Tabell 2.1 Målenivå KATEGORISK

Gjensidig utelukkende

KONTINUERLIG

Nominal

Ordinal

Intervall

Forholdstall

Kan rangeres Kan si noe om avstanden mellom verdiene Naturlig nullpunkt

Nominale variabler Enhetene i variabler på dette målenivået kan bare klassifiseres i gjensidig utelukkende grupper. Verdiene kan altså ikke rangeres på en logisk måte. I et spørreskjema vil dette typisk kunne være ja-/nei-spørsmål. Vanlige eksempler på variabler på nominalnivå er land, religion, kjønn og yrke. Tabellen nedenfor illustrerer tre eksempler på nominale variabler og potensielle tallverdier slike variabler kan ha i et datasett. Tabell 2.2 Eksempler på nominale variabler NOMINALE VARIABLER Variabel Kjønn Religionstilhørighet Land

TALLVERDI 1

Kvinne

Mann

Kristendom

Islam

Buddhisme

Hinduisme

Norge

Sverige

Danmark

Finland

England

Se for eksempel Ringdal (2013) eller Gorard (2001).

kapittel 2

Nominale variabler er relativt enkle å identifisere i et datasett da de både er gjensidig utelukkende og ikke kan rangeres. Dersom en respondent krysser av for «Kvinne» på spørsmål om kjønn, utelukker dette svaralternativet «Mann»5. Man kan heller ikke rangere denne egenskapen på en logisk måte hos en respondent. Det vil si, det gir eksempelvis ingen mening å si at man «har mer kjønn» dersom man oppgir svaralternativet «Mann» (selv om dette alternativet har tallverdien 2, mens «kvinne» har tallverdien 1). Det samme kan sies om variabler som måler tilhørighet til religion. En respondent kan ikke sies å ha «høyere grad av religiøsitet» dersom hun har krysset av for «Buddhisme» og ikke «Kristendom».

Ordinale variabler Variabler på det ordinale målenivået innehar en egenskap som skiller dem fra nominale variabler. I tillegg til at de er gjensidig utelukkende, er det en logisk rangering av variabelverdiene. Typiske eksempler på ordinale variabler er holdningsspørsmål som for eksempel: «Hvor interessert er du i sport?», hvor svaralternativene kan rangeres fra «ikke interessert i det hele tatt» til «veldig interessert». Svaralternativene går som regel fra et ytterpunkt til et annet, men vi kan ikke si noe nøyaktig om avstanden mellom svarene på ordinale variabler. Tabell 2.3 Eksempler på ordinale variabler ORDINALE VARIABLER Variabel

TALLVERDI 1

Hvor ofte er du tilskuer på idrettsarrangement?

Aldri

Noen ganger i året

Noen ganger i måneden

Ukentlig

Hvor ofte ser du på TV?

Aldri

1–3 timer i uka

0,5–2 timer om dagen

Over 2 timer daglig

Hvor ofte går du på tur i skog og mark?

Aldri

1–2 ganger i året

1–2 ganger i måneden

1–2 ganger i uka

Ikke interessert

Noe interessert

Ganske interessert

Veldig interessert

Hvor politisk interessert er du?

Noen land har jo godkjent et juridisk tredje kjønn som vil gi flere svaralternativer på et spørsmål om kjønnsidentitet.

Variabler på intervallnivå Disse variablene kan uttrykkes i tall som kan plottes inn i en skala etter hverandre, slik at de gir mening. Avstanden mellom svaralternativene har også betydning, og det er mulig å spesifisere intervaller mellom verdiene. Et eksempel på en variabel på intervallnivå er temperatur. Tabell 2.4 Variabel på intervallnivå Variabel

Tallverdier

Temperatur

-1

Variabler på forholdstallsnivå Variabler som er målt på forholdstallsnivå, har mange likhetstrekk med variabler på intervallnivå, men med en ekstra betingelse: Svaralternativene i disse variablene forholder seg til et bestemt nullpunkt. Vanlige eksempler på variabler på forholdstallsnivå er alder, antall år utdanning, høyde og inntekt. Tabell 2.5 Eksempler på variabler på forholdstallsnivå Variabel

Tallverdier

Inntekt

0 kr

100 000 kr

300 000 kr

400 000 kr

Alder

0 år

1 år

2 år

3 år

Hvorfor er målenivå så viktig? En variabels målenivå kan være avgjørende for hvilke statistiske analyser du kan gjennomføre6. Blant annet er det målenivået på avhengig variabel som avgjør hvorvidt du bør gjennomføre en lineær eller en logistisk regresjonsanalyse.

2.3 Målefeil Man snakker ofte om to typer målefeil i statistiske analyser: tilfeldige og systematiske. De tilfeldige er vanskelige å hindre, og vi må nødvendigvis lære oss å leve med dem. Disse følger ikke noe mønster. Eksempler på tilfeldige feilkilder kan være at respondentene som har tatt spørreundersøkelsene, husker feil og ikke svarer helt rett på spørsmålene. Et annet eksempel på tilfeldige feil kan være at 6

Les mer om målenivå hos Ringdal (2013).

kapittel 2

personene som skal registrere svarene, gjør feil i kodingen slik at det blir feil i datasettet7. At målefeilene er tilfeldige, innebærer heldigvis at de «nuller hverandre ut» gjennom at én observasjon kan ha for høy verdi, mens en annen har for lav verdi. Tilfeldige målefeil innebærer feilregistreringer (eksemplene ovenfor), misforståelser og unøyaktigheter i svarene som ikke danner noe konkret mønster. En undersøkelse som har store problemer med tilfeldige målefeil, vil ha lav reliabilitet. Det vil si at dataene som benyttes, er lite troverdige. De systematiske målefeilene følger derimot et mønster og er ofte et større problem enn tilfeldige målefeil. Slike målefeil er ofte et resultat av dårlige målemetoder eller feilaktig oppfatning av sammenhengen mellom virkelighet og data. Et eksempel på en systematisk målefeil kan være at et spørsmål i spørreskjemaet er ledende og vil påvirke flere av respondentene til å svare på en bestemt måte, og som et resultat vil ikke variabelen gi et riktig bilde av det begrepet den forsøker å måle. Det mest problematiske med systematiske målefeil er altså at man ikke klarer å måle fullt ut det begrepet man ønsker å måle. Hvis man måler noe annet enn det man tror man måler, er dataene lite valide. Litt enkelt forklart vil det si at de er lite egnet til å belyse undersøkelsens problemstilling. Med utgangspunkt i tilfeldige og systematiske målefeil snakker vi om to typer troverdighet for statistiske vitenskapelige analyser: reliabilitet og validitet8. Reliabilitet, eller pålitelighet, er spørsmålet om gjentatte målinger med samme måleinstrument gir samme resultat. Hvis man gjør det riktig, vil man få omtrent samme resultat når man repeterer en bestemt type måling. Vil en annen forsker kunne få samme resultat som deg hvis han bruker samme metode på samme utvalg? Når man skal vurdere reliabiliteten av forskningen, vurderer man altså datasettets kvalitet. Validitet, eller gyldighet, er spørsmålet om man faktisk måler det man er ute etter å måle. Er det sammenheng mellom indikatorene og det teoretiske begrepet du skriver om? Er dataene dine en gjengivelse av egenskapene ved det du studerer? Har du operasjonalisert det teoretiske begrepet du ønsker å måle godt nok ved utforming av spørsmål og valg av variabler? Slike spørsmål handler om validitet i kvantitative forskningsmetoder9.

7 8 9

Flere gode eksempler på tilfeldige feilkilder kan du lese om blant annet hos Hellevik (2003), Eikemo & Clausen (2007) og Hagen (2014). Du kan lese mer om hvordan du kan redusere både tilfeldige og systematiske målefeil hos Tufte (2017). Mer utdypende beskrivelser av begrepene reliabilitet og validitet finner du blant annet hos Johannessen, Kristoffersen & Tufte (2011) og Skog (2005).

grunnleggende begreper

2.4 Stata Stata er et statistikkprogram med et omfattende utvalg av statistiske analyseteknikker, og programmet er svært kraftig på databearbeiding. Produsenten selv fremhever tre grunner til å velge Stata over andre kvantitative databehandlingsprogrammet. Det raskt, nøyaktig og lett å bruke10. Stata har både menylinje du kan klikke deg gjennom og et intuitivt kommandosystem for syntaks. Programmet gir deg muligheten til å utføre hundrevis av statistiske analyser, fra enkle, standardiserte metoder som ANOVA, lineær regresjon, krysstabeller og deskriptiv statistikk – til avanserte analyseteknikker som multivariate modeller, ARCH og Structural Equation Modelling (SEM). For personer som tidligere har brukt SPSS kan Stata virke uoversiktlig første gang man åpner programmet, men med litt tilvenning blir man fort vant til designet og bruken av kommandoer i Stata. Spesielt grafiske fremstillinger blir av mange trukket frem som en av grunnene til at de foretrekker Stata11 som analyseprogram. I tillegg har programmet en svært omfattende og brukervennlig hjelpemanual som kan være veldig nyttig om man er usikker på hvordan man gjennomfører en analyseteknikk12. En åpenbar ulempe ved Stata er at det er relativt dyrt å bruke. Dersom du ikke er tilknyttet et universitet med tilgjengelige lisensavtaler til programmet, må du betale for å bruke det13. Heldigvis har Stata Nordic gode rabatter for studenter og kortvarige lisensavtaler om man bare vil teste ut programmet. I denne boken brukes versjonen Stata 15. Denne versjonen av Stata kom ut mai 2017 og er den nyeste versjonen av analyseprogrammet på tiden denne boken ble skrevet14.

2.5 European Social Survey (ESS) Eksemplene i denne boken er laget med utgangspunkt i datasett fra European Social Survey (ESS)15. Dette er en europeisk samfunnsundersøkelse som gjennomføres jevnlig i flere europeiske land. Spørreundersøkelsen dekker et vidt 10 https://www.stata.com/why-use-stata/ 11 Se for eksempel Baum (2006) eller Treiman (2009). 12 Se For eksempel Midtbø (2012). 13 Se STATA Nordic for informasjon om ulike typer lisenser og priser: https://www.statanordic.com/ – STATA Nordic har (heldigvis!) gode rabatter for studenter – disse gjelder også for doktorgradsstipendiater. 14 Med oppdateringen fra STATA 14 til STATA 15 kom en hel del nye funksjoner. Les mer om disse her: http://www.stata.com/new-in-stata/ 15 www.europeansocialsurvey.org

kapittel 2

spenn av temaer, deriblant spørsmål om politikk, fritidsinteresser, religion, helse, sosial klasse, livskvalitet og levekår. ESS har blitt gjennomført i flere europeiske land siden 2001. Annet hvert år gjennomføres spørreundersøkelser og intervjuer med et utvalg fra hvert deltakende land. Formålet med ESS er å kartlegge endring og stabilitet i sosiale strukturer i Europa for å tolke hvordan Europas sosiale, politiske og moralske holdninger endres og opprettholdes. ESS har også som mål å bidra til høyere metodiske standarder i internasjonal forskning i samfunnsvitenskapene. Dokumentasjon og datasett fra ESS er lett tilgjengelig på internett. Dermed kan du enkelt laste ned data fra ESS og gjennomføre de samme analyseteknikkene som brukes i denne bokens eksempler. Alle eksemplene i denne boken er gjennomført med utgangspunkt i datasettet ESS7, som består av data samlet inn i 2014. Datasettet ESS7 har vært tilgjengelig på nett siden 2016 og er derfor (i tidsperioden denne boken er skrevet) det nyeste datasettet som ligger tilgjengelig på nett. For å laste ned datasettet fra European Social Survey klikker du deg først inn på www.europeansocialsurvey.org. Herifra trykker du på fanen «Data and Documentation», og så «Data and Documentation by year».

Utklipp fra www.europeansocialsurvey.org

grunnleggende begreper

Her finner du alle ESS-datasettene fra Round 1 (2002) og frem til Round 7 (2014). Trykk på «ESS7 Round 7 (2014)» og velg «ESS7 – Integrated file». Du vil nå få valget mellom å laste ned ESS7 datasettet som SPSS-fil, Stata-fil eller SAS-fil.

Utklipp fra www.europeansocialsurvey.org

Her velger du «Download STATA» for å få riktig format av datasettet. For å laste ned datasett fra www.europeansocialsurvey.org må du opprette en bruker og logge inn først. Når du trykker på «Download STATA», blir du guidet gjennom denne prosessen automatisk. Når du har lastet ned ESS7-datasettet, er du klar til å følge alle bokens empiriske eksempler.