9789144134086

Page 1

Statistik och regression i praktiken JOAKIM RUIST


Kopieringsförbud Detta verk Àr skyddat av upphovsrÀttslagen. Kopiering, utöver lÀrares och studenters begrÀnsade rÀtt att kopiera för undervisningsÀndamÄl enligt Bonus Copyright Access kopieringsavtal, Àr förbjuden. För information om avtalet hÀnvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, Àr e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrÀtt kan Ätalas av allmÀn Äklagare och dömas till böter eller fÀngelse i upp till tvÄ Är samt bli skyldig att erlÀgga ersÀttning till upphovsman eller rÀttsinnehavare. Studentlitteratur har bÄde digital och traditionell bokutgivning. Studentlitteraturs trycksaker Àr miljöanpassade, bÄde nÀr det gÀller papper och tryckprocess.

Art.nr 40493 ISBN 978-91-44-13408-6 Upplaga 1:1 © Författaren och Studentlitteratur 2021 studentlitteratur.se Studentlitteratur AB, Lund Formgivning inlaga: Henrik Hast Ombrytning inlaga: Jesper Sjöstrand Formgivning omslag: Jens Martin Signalera Omslagsbild: Shutterstock Printed by Dimograf, Poland 2021


InnehÄll

Inledning: Statistik i teori och praktik 9

1. Byggstenar: variabler och fördelningar 17 1.1 1.2

1.3

1.4 1.5 1.6

1.7

Variabler 19 Fördelningar 24 1.2.1 FullstĂ€ndiga redovisningar av fördelningar 25 1.2.2 Sammanfattande redovisningar av fördelningar: deskriptiv statistik 30 1.2.3 Sannolikhetsfördelningar 40 Kombinationer av fördelningar (sannolikhetslĂ€ra) 50 1.3.1 Kombinationer 51 1.3.2 Multiplikation och addition av andelar 60 1.3.3 Instuderingsuppgifter 65 1.3.4 Binomialfördelningen 72 Introduktion till och deskriptiv statistik i Excel 77 Introduktion till och deskriptiv statistik i Stata 84 Kontinuerliga (sannolikhets-)fördelningar 96 1.6.1 Att beskriva kontinuerliga fördelningar 100 1.6.2 Att berĂ€kna sannolikheter i kontinuerliga fördelningar 106 Normalfördelningen 115 1.7.1 Formen hos kaos (centrala grĂ€nsvĂ€rdessatsen) 118 1.7.2 BerĂ€kning av andelar av normalfördelningar 131


2. MedelvĂ€rden och urvalsosĂ€kerhet 147 2.1 2.2 2.3

2.4

2.5

2.6

2.7

Introduktion till urval och urvalsosĂ€kerhet 150 Samplingsfördelning för medelvĂ€rde 156 Exempel pĂ„ samplingsfördelning och felmarginal 165 2.3.1 Populationen och samplingsfördelningen 166 2.3.2 Att konstruera en felmarginal 175 Samplingsfördelningar och konfidensintervaller generellt 191 2.4.1 Samplingsfördelningar för urvalsmedelvĂ€rden 192 2.4.2 Samplingsfördelningar för urvals T-kvoter 197 2.4.3 Att konstruera konfidensintervaller med T-fördelningen 208 2.4.4 Mer om T-fördelningar och osĂ€kerhet 214 Signifikans och p-vĂ€rden 219 2.5.1 Varför signifikans? 220 2.5.2 Att avgöra signifikans 223 2.5.3 P-vĂ€rden 229 Att rapportera slumpmĂ€ssig urvalsosĂ€kerhet 246 2.6.1 Rapportera ”urvalsosĂ€kerhet” nĂ€r vi har data för hela populationen 252 Icke-slumpmĂ€ssigt bortfall 254 2.7.1 Beskrivning av problemet 255 2.7.2 FörhĂ„llningssĂ€tt som utförare 258

3. Introduktion till sambandsanalys 267 3.1 3.2

3.3 3.4

Samvariation och orsakssamband 270 Att identifiera orsakssamband 274 3.2.1 Hur orsakssamband skapar samvariation 274 3.2.2 ”SĂ€kra” sĂ€tt att identifiera orsakssamband: slumpen 291 3.2.3 Identifiera och ta hĂ€nsyn till utelĂ€mnade variabler 295 Analysens detaljnivÄ 297 UrvalsosĂ€kerhet vid jĂ€mförelse av tvĂ„ medelvĂ€rden 301 3.4.1 MedelvĂ€rdesskillnader i Excel och Stata 305


4. GrundlĂ€ggande regressionsanalys 309 4.1

Syfte, tolkning och utförande 312 4.1.1 Motiv för regression 314 4.1.2 Att tolka regressionsresultat 320 4.1.3 Prediktioner och residualer 325 4.1.4 Att bestĂ€mma regressionslinjens position 330 4.2 OsĂ€kerhet vid regressionsanalys 340 4.2.1 UrvalsosĂ€kerhet 340 4.2.2 OsĂ€kerhet om matematisk funktion 345 4.2.3 Undersök regressionens passning manuellt 347 4.3 Regression och spridningsdiagram i Excel och Stata 353 4.4 Regression med flera oberoende variabler 361 4.4.1 Samvariation, orsakssamband och multivariat regression 363 4.4.2 Frisch-Waugh-Lovell-teoremet 371 4.4.3 Att arbeta praktiskt med multivariat regression 378 4.4.4 Instuderingsuppgifter bivariat och multivariat regression 383 4.5 Regressioners förklaringskraft 389 4.5.1 Att mĂ€ta förklaringskraft 389 4.5.2 Varianter av mĂ„tt och ytterligare mĂ„tt 404 4.5.3 Förklaringskraft i Excel och Stata 410 4.6 Att rapportera regressionsanalys 414 4.7 Icke-linjĂ€r regression 425 4.7.1 Polynomregression 425 4.7.2 Logaritm- och rottransformationer 436 4.7.3 Regression med skarpa hörn 443 4.8 Kategoriska variabler och dummyvariabler 445 4.8.1 Dummyvariabler 446 4.8.2 Flera kategorier Ă€n tvÄ 454 4.8.3 Dummyvariabler i Excel och Stata 464 4.8.4 TillĂ€mpningar av dummies som ”kontrollvariabler” 468 4.9 Regression med interaktioner 472 4.9.1 Interaktioner mellan variabler 472 4.9.2 Att hantera interaktioner i regression 476 4.10 Stora möjligheter – och risker 494


5. Mer om osĂ€kerhet 497 5.1

5.2

5.3 5.4 5.5

AvgrĂ€nsning och osĂ€kerhet 500 5.1.1 NĂ€r signifikans-konventionen inte fungerar bra 501 5.1.2 Möjliga hanteringar 508 Outliers (extremvĂ€rden) 518 5.2.1 Definition och problembeskrivning 518 5.2.2 Hantering 521 Kraftig skevhet 527 5.3.1 Hantering 528 Korrelation och ”kollinearitet” 533 Heteroskedasticitet 538

6. Prediktion och modellbygge 543 6.1 6.2

Syfte och sĂ€rart 546 Metoder för prediktion 551 6.2.1 Manuellt modellbygge 553 6.2.2 Helt eller delvis ”objektivt” modellbygge 560 6.2.3 Vad som Ă€r bĂ€st 564

7. Mer avancerad regression 571 7.1

7.2

Kategorisk beroende variabel och oberoende pĂ„ intervallskala 573 7.1.1 NödvĂ€ndigheten av icke-linjĂ€ritet 575 7.1.2 Probit- och logitregression för specifik icke-linjĂ€ritet 578 7.1.3 Tolkning och redovisning – och modellval 596 7.1.4 Probit- och logitregression i Stata 604 7.1.5 (BegrĂ€nsade) interaktioner per konstruktion i probit- och logitregression 608 7.1.6 Beroende variabel med flera kategorier 610 Paneldata (och/eller difference-in-differences) 611 7.2.1 Modeller med differenser (FD) 613 7.2.2 Modeller med individuella dummies (FE) 625 7.2.3 Mindre viktigt: Sakers olika namn 632


7.3

7.4

Introduktion till tidsserieanalys 634 7.3.1 Tiden och slumpen 636 7.3.2 LĂ„ngsiktiga trender 645 7.3.3 NĂ€r förĂ€ndringar tar ganska lĂ„ng tid 656 7.3.4 BestĂ„ende effekter: random walks 666 7.3.5 Sammanfattning och saker som vi inte har nĂ€mnt 675 Ännu mer avancerad analys 677

Appendix: Register över kommandon, tillval och funktioner i Stata 679



I det hĂ€r kapitlet presenteras grundlĂ€ggande byggstenar och begrepp som vi behöver nĂ€r vi arbetar med statistisk analys. NĂ€r vi sĂ€tter igĂ„ng med de första egentliga analyserna i kapitel 2 blir materialet ganska komplext. För att göra det enklare att ta till sig, genom att undvika att det dĂ„ blir mĂ„nga saker som behöver förstĂ„s samtidigt, gĂ„r vi först igenom de olika bygg­ stenarna i det hĂ€r kapitlet. Vi arbetar inom statistiken med variabler och fördelningar. Ofta eller oftast arbetar vi med urval av begrĂ€nsad storlek. Förhoppningsvis har dessa urval dragits slumpmĂ€ssigt. Om de har det kan vi berĂ€kna osĂ€kerhetsnivĂ„n i vĂ„ra analyser, om vi har en grundlĂ€ggande förstĂ„else för sannolikheter och – lite mer abstrakt – sannolikhetsfördelningar. Kapitlet lĂ€gger grunden till dessa begrepp och hur vi kan anvĂ€nda dem. Det ger ocksĂ„ en introduktion till att arbeta med statistik i Excel och Stata.

1.1

Variabler

Att arbeta med statistik handlar pĂ„ olika sĂ€tt om att analysera variation. Vi studerar hur mycket nĂ„gonting varierar, vilka mönster vi ser i den variationen, vilka samband vi ser mellan hur olika saker varierar, och vad sĂ„dan samvaria­ tion eventuellt sĂ€ger oss om orsak och verkan. Vi kan till exempel beskriva hur vikten varierar mellan olika mĂ€nniskor, genom att ange hur mycket en genomsnittlig mĂ€nniska vĂ€ger, samt olika mĂ„tt pĂ„ hur stor spridningen Ă€r runt det genomsnittet. Vi kan studera hur mycket mer eller mindre mĂ€nniskor i genomsnitt vĂ€ger om de dricker sockerfri jĂ€mfört med sockrad lĂ€sk. Och vi kan försöka dra slutsatser om vad det i sĂ„ fall sĂ€ger oss om vad det Ă€r som har orsakat viktskillnaden. De saker som kan variera – det vill sĂ€ga som kan anta olika vĂ€rden – i en 19


analys kallar vi för variabler. Exempelvis vilken vikt olika mÀnniskor har, eller vilken typ av lÀsk de uppger att de dricker. Om det som vi studerar inte Àr mÀnniskor utan till exempel lÀnder, kan variabler vara saker som exempelvis invÄnarantal och bruttonationalprodukt. Variabel: NÄgonting som kan variera, det vill sÀga anta olika vÀrden. De saker som variablerna kan variera mellan brukar vi kalla för individer. Oavsett vad de Àr för saker. De behöver alltsÄ inte vara mÀnniskor (vad vi brukar mena med individer i dagligt tal). Individer kan vara lÀnder, kommuner, bakterier och sÄ vidare. De individer som vi faktiskt observerar i en studie, det vill sÀga vars variabelvÀrden vi har uppgifter om, kallar vi för vÄra observationer.

Observationer: De individer som vi observerar i en studie, det vill sÀga vars variabelvÀrden vi har uppgifter om. Alla de observationer som vi observerar bildar tillsammans det urval som vi arbetar med. Urval: Den uppsÀttning av observationer som vi arbetar med. Slutligen brukar vi anvÀnda ordet datamaterial, eller dataset, eller bara data för att beskriva hela den informationsmÀngd som vi arbetar med i en studie. Det vill sÀga all information om alla vÀrden pÄ alla variabler hos alla observationer i urvalet. Datamaterial/dataset/data: Hela den informationsmÀngd som vi arbetar med i en studie.

Variabler pĂ„ intervallskala Variabler kan vara mĂ„nga olika saker. Vissa kan bara anta ett fĂ„tal olika vĂ€rden, medan andra kan anta mĂ„nga. (Som lĂ€gst tvĂ„. Det som bara kan anta ett vĂ€rde, exempelvis antal hjĂ€rnor hos en levande mĂ€nniska, Ă€r motsatsen till en variabel: en konstant.) Vissa antar vĂ€rden som Ă€r numeriskt relevanta och gĂ„r att rĂ€kna pĂ„ (exempelvis lĂ€ngd, vikt), andra inte (exempelvis kön, yrke). Variabeln vikt kan mĂ€tas i den numeriskt relevanta enheten kilogram. DĂ„ har den den viktiga egenskapen att den mĂ€ts pĂ„ vad som kallas för intervall20â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Individer: Det som en variabel varierar mellan.


skala. Det betyder att tvÄ steg (intervaller) som Àr lika lÄnga pÄ den skala som variabeln mÀts pÄ verkligen motsvarar tvÄ lika stora skillnader. Det Àr lika stor skillnad pÄ 70 kg och 71 kg, som det Àr pÄ 71 kg och 72 kg, och sÄ vidare. NÀstan alla variabler som mÀts i form av en siffra framför en mÄttenhet (kilogram, kronor, meter, grader Celsius) Àr pÄ intervallskala. Att en variabel Àr pÄ intervallskala Àr en nödvÀndig förutsÀttning för att de flesta matematiska berÀkningar som vi kan tÀnkas vilja utföra pÄ den ska vara relevanta. Det gÀller exempelvis berÀkning av ett medelvÀrde. Om en person vÀger 75 kg och en annan 77 kg, kan vi berÀkna att de tvÄ i genomsnitt vÀger 76 kg.

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Intervallskala: En mĂ€tskala som innebĂ€r att tvĂ„ lika lĂ„nga steg pĂ„ skalan motsvarar tvĂ„ lika stora skillnader. Intervallskala Ă€r en förutsĂ€ttning för att mĂ„nga matematiska berĂ€kningar ska vara meningsfulla. Men lĂ„t oss anta att vi i stĂ€llet hade mĂ€tt variabeln pĂ„ ett annat sĂ€tt, genom att klassificera mĂ€nniskors vikt i nĂ„gon av de fyra kategorierna, det vill sĂ€ga variabelvĂ€rdena underviktiga, normalviktiga, överviktiga och kraftigt över­viktiga. DĂ„ hade samma variabel i stĂ€llet varit pĂ„ vad som kallas för ordinal­skala. Namnet kommer av ordet ordna, eller ordning. Det gĂ„r att rangordna de fyra vĂ€rden som variabeln kan anta. Det vill sĂ€ga det gĂ„r att sĂ€ga vad som Ă€r mer Ă€n vad. Men vĂ€rdena Ă€r inte numeriskt relevanta, och det gĂ„r inte att sĂ€ga om tvĂ„ steg pĂ„ den ordnade skalan Ă€r lika stora eller inte. Vi kan inte sĂ€ga att skillnaden mellan underviktig och normalviktig Ă€r lika stor som den mellan överviktig och kraftigt överviktig. Vi kan dĂ€rmed inte heller till exempel berĂ€kna nĂ„got meningsfullt medelvĂ€rde för variabeln, nĂ€r den mĂ€ts pĂ„ det sĂ€ttet. I viktexemplet i inledningen hade vi ocksĂ„ en variabel som vi kan kalla för typ av lĂ€sk. LĂ„t oss sĂ€ga att den kan anta tre olika vĂ€rden. Alla mĂ€nniskor kan uppge nĂ„got av de tre vĂ€rdena dricker sockrad lĂ€sk, dricker sockerfri lĂ€sk och dricker ingen lĂ€sk. Dessa vĂ€rden Ă€r inte heller numeriskt relevanta. Och de gĂ„r vidare inte ens att rangordna. Vi kan inte sĂ€ga att nĂ„got av dess tre vĂ€rden Ă€r ”mer” eller ”mindre” Ă€n nĂ„got av de andra. Den variabeln mĂ€ts alltsĂ„ inte ens pĂ„ ordinalskala. Vi sĂ€ger att den mĂ€ts pĂ„ nominalskala. Namnet kommer av ordet namn och betecknar att de olika vĂ€rden som variabeln kan anta inte Ă€r mer Ă€n namn pĂ„ olika kategorier. Det som Ă€r viktigt att ta med sig hĂ€rifrĂ„n Ă€r distinktionen mellan numeriskt relevanta variabler pĂ„ intervallskala och de övriga tvĂ„. Distinktionen mellan ordinal- och nominalskala Ă€r sĂ€llan viktig. Men det Ă€r Ă€ndĂ„ bra att ha Kapitel 1. Byggstenar: variabler och fördelningarâ€‚ïżœâ€‚21


Kodbok: En lista pĂ„ variabelvĂ€rden och vad varje vĂ€rde stĂ„r för. Men genom att variabeln kodas pĂ„ det sĂ€ttet – med ettor, tvĂ„or och treor i stĂ€llet för med text – blir det ocksĂ„ fullt möjligt att sĂ€ga till datorn att berĂ€kna dess medelvĂ€rde. Den kanske dĂ„ returnerar medelvĂ€rdet 1.73. Datorn har rĂ€knat rĂ€tt. Det Ă€r vi som mĂ„ste ha koll pĂ„ att det inte var en meningsfull berĂ€kning. Siffran 1.73 betyder ingenting. Och den Ă€r helt godtycklig, eftersom de tre siffervĂ€rdena som variabeln kodades i Ă€r godtyckliga (och inte har nĂ„gon enhet). Vi kunde lika gĂ€rna ha kodat de tre 22â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

observerat den, för att se att variabler kan vara olika nĂ€ra att nĂ„ upp till vad som krĂ€vs för att vi ska kunna utföra meningsfulla numeriska berĂ€kningar pĂ„ dem, men Ă€ndĂ„ utan att nĂ„ Ă€nda fram. Det finns ocksĂ„ grĂ€nsfall, dĂ€r det inte Ă€r helt uppenbart hur en variabels mĂ€tskala ska klassificeras. Ett enkelt exempel Ă€r en variabel som bestĂ„r av att nĂ„gonting har vĂ€rderats eller poĂ€ngsatts pĂ„ en skala, exempelvis 1–5 eller 0–10. Om vi i en undersökning har bett mĂ€nniskor att betygsĂ€tta regeringens arbete pĂ„ skalan 1 – 5, tycker vi dĂ„ att varje steg pĂ„ skalan Ă€r lika lĂ„ngt? Och bör vi se det som relevant information exempelvis att personerna i undersökningen i genomsnitt gav betyget 3.6? De flesta av oss vill nog svara ett i alla fall nĂ€stan klart ja pĂ„ de frĂ„gorna. Vi tycker nog helt klart att genomsnittet 3.6 ger relevant information. (TĂ€nk bara pĂ„ de miljontals internetsidor som rapporterar sĂ„dana medelbetyg för olika varor, filmer etc.) Men vi ser ocksĂ„ att det skaver lite. Om personerna A, B och C har satt betygen 2, 3 respektive 4, tycker vi kanske inte att det Ă€r 100 procent rĂ€tt att sĂ€ga att ”C gillar regeringen lika mycket mer Ă€n B, som B gillar den mer Ă€n A”. Oftast hanterar vi i alla fall sĂ„dana hĂ€r variabler som att de Ă€r pĂ„ intervallskala. Vi kanske inte tycker att det Ă€r helt 100 procent rĂ€tt. Men vi tycker att det Ă€r tillrĂ€ckligt nĂ€ra för att Ă€ndĂ„ vara meningsfullt. Ett ganska vanligt fel bland nybörjare i statistisk analys Ă€r att tro att man kan utföra matematiska berĂ€kningar, till exempel av ett medelvĂ€rde, bara för att en variabel har kodats i sifferform i ett dataset. NĂ€r vi konstruerar ett dataset dĂ€r variabelvĂ€rdena Ă€r flera ord lĂ„nga, som i exemplet med typ av lĂ€sk ovan, brukar vi inte skriva ut dessa lĂ„nga textstrĂ€ngar gĂ„ng pĂ„ gĂ„ng i datan. I stĂ€llet skapar vi dĂ„ en kodbok, dĂ€r vi anger exempelvis att siffran 1 betyder dricker sockrad lĂ€sk, 2 betyder dricker sockerfri lĂ€sk, och 3 betyder dricker ingen lĂ€sk. Och sĂ„ fyller vi datasetet med ettor, tvĂ„or och treor i stĂ€llet för med textstrĂ€ngar.


variabelvÀrdena med siffrorna 10, 30 och 80, vilket hade givit ett helt annat medelvÀrde. (Du tycker kanske att detta lÄter för sjÀlvklart för att behöva nÀmnas. Men mÄnga studenter fÄr ÀndÄ för sig att berÀkna saker som genomsnittlig födelseort, sÄ det kan vara vÀrt att understryka.)

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Variabler pĂ„ kvotskala För att de flesta berĂ€kningar som vi utför i statistisk analys ska vara relevanta, rĂ€cker det att variabler mĂ€ts pĂ„ intervallskala. Men ibland krĂ€vs det en Ă€nnu högre nivĂ„. Om vi vill kunna uttala oss inte bara om skillnader, utan ocksĂ„ om relativa skillnader – eller procentuella skillnader – i en variabel, rĂ€cker det inte att variabeln mĂ€ts pĂ„ intervallskala. DĂ„ krĂ€vs det att den mĂ€ts pĂ„ kvotskala. Det innebĂ€r att den, i tillĂ€gg till att vara pĂ„ intervallskala, ocksĂ„ har en relevant nollpunkt. Det vill sĂ€ga att vĂ€rdet 0 pĂ„ skalan verkligen betyder ”ingenting”. DĂ„ blir inte bara skillnader, utan ocksĂ„ kvoter, mellan tvĂ„ variabelvĂ€rden numeriskt relevanta. Som att det ena Ă€r dubbelt sĂ„ stort som det andra. Kvotskala: En mĂ€tskala som innebĂ€r att bĂ„de skillnader och kvoter mellan tvĂ„ variabelvĂ€rden Ă€r numeriskt relevanta. De allra flesta variabler som Ă€r pĂ„ intervallskala Ă€r ocksĂ„ pĂ„ kvotskala. Ett exempel pĂ„ ett undantag Ă€r temperatur mĂ€tt i grader Celsius eller grader Fahrenheit. Dessa mĂ€tskalors nollpunkter betyder inte ”ingenting”. Om det var 5 grader Celsius utomhus i gĂ„r och det Ă€r 10 grader i dag, Ă€r det nonsens att sĂ€ga att ”det Ă€r dubbelt sĂ„ varmt i dag som det var i gĂ„r”. Det vill sĂ€ga att uttala oss om den relativa skillnaden i temperatur baserat pĂ„ Celsiusskalan. Temperatur mĂ€tt i Kelvin Ă€r dĂ€remot pĂ„ kvotskala, eftersom dess vĂ€rde 0 motsvarar den absoluta fysikaliska nollpunkten. Det Ă€r ocksĂ„ dĂ€rför som det inte heter ”grader Kelvin”, utan bara Kelvin.

Ett annat exempel: Även om vi tycker att det kĂ€nns godkĂ€nt att betrakta ett betyg pĂ„ skalan 1–5 som pĂ„ intervallskala, bör vi definitivt inte betrakta det som pĂ„ kvotskala. Att i sifferexemplet ovan sĂ€ga att ”C (betyget 4) gillar regeringen dubbelt sĂ„ mycket som A (betyget 2) gör” blir nonsens. Skalans nollpunkt betyder inte ”ingenting” (och det gĂ€ller oavsett om siffran 0 ingĂ„r i betygskalan eller inte).

Kapitel 1. Byggstenar: variabler och fördelningarâ€‚ïżœâ€‚23


Struktur pĂ„ datamaterial NĂ€r vi dokumenterar ett datamaterial – antingen i ett datorprogram eller med papper och penna – följer vi alltid konventionen att lĂ„ta varje rad representera en observation och varje kolumn en variabel. Detta dĂ„ observationerna nĂ€stan alltid Ă€r (mĂ„nga) fler Ă€n variablerna, och det Ă€r lĂ€ttare för oss att scrolla eller blĂ€ddra nedĂ„t Ă€n sidledes. Ett exempel pĂ„ hur ett mycket litet datamaterial frĂ„n vĂ„rt lĂ€sk- och viktexempel skulle kunna se ut visas i tabell 1.1.

ID

Vikt (kg)

Typ av lÀsk

1 2 3 4

70 62 81 70

1 2 3 1

5 6

52 95

2 2

De sex observationerna i tabell 1.1 har tilldelats identifikationsnummer (ID). Det Àr vanligt att vi gör sÄ, nÀr vi inte vet vad observationerna heter. Om observationerna exempelvis Àr kommuner eller företag, vet vi oftast vad de heter och kan skriva ut det i en variabel. NÀr de Àr mÀnniskor vet vi det ofta inte. DÄ ger vi dem ofta nummer i stÀllet, för att kunna identifiera och hÀnvisa till dem i berÀkningar. I det hÀr lilla datasetet har variabeln typ av lÀsk kodats i sifferform. Vi kompletterar dÄ datasetet med en kodbok som förklarar vad de olika siffrorna representerar.

1.2

Fördelningar

I statistisk analys analyserar vi hur vÀrdena hos en eller flera variabler varierar mellan observationerna i ett urval. Det vill sÀga hur observationerna fördelar sig över olika variabelvÀrden, eller med andra ord, hur vanliga olika variabelvÀrden Àr i urvalet. Ofta uttrycker vi det som att vi studerar variabelns fördelning i urvalet.

24â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Tabell 1.1 Datamaterial bestĂ„ende av 6 observationer.


En variabels fördelning: En förteckning över alla vĂ€rden hos en variabel som förekommer i ett urval och hur mĂ„nga gĂ„nger varje vĂ€rde förekommer. Ett annat sĂ€tt att sĂ€ga det Ă€r med vilken frekvens varje variabelvĂ€rde förekommer. Frekvens betyder ”antal gĂ„nger”. (I fysikaliska sammanhang som du kanske Ă€r mer bekant med – som ljud- eller radiovĂ„gor – och ofta i dagligt tal, betyder frekvens antal gĂ„nger per tidsenhet. Men inom statistik betyder det bara antal gĂ„nger.) Frekvens: Antal gĂ„nger.

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

1.2.1

FullstÀndiga redovisningar av fördelningar

En beskrivning av hur en variabels fördelning i ett urval ser ut kan vara fullstÀndig eller sammanfattande. Vi ska gÄ igenom dessa i tur och ordning och vi börjar med de fullstÀndiga.

Frekvenstabeller Vi kan göra en fullstĂ€ndig beskrivning av en variabels fördelning i en frekvens­tabell. I en sĂ„dan anges pĂ„ varje rad ett möjligt vĂ€rde som variabeln kan anta, samt det vĂ€rdets frekvens, det vill sĂ€ga hur mĂ„nga observationer i urvalet som antar just det vĂ€rdet. UtifrĂ„n det lilla datamaterialet i tabell 1.1, skulle en frekvenstabell för variabeln vikt se ut som i tabell 1.2 och en för variabeln typ av lĂ€sk som i tabell 1.3. Tabell 1.2 Frekvenstabell för vikt. Vikt (kg)

52 62 70 81 95

Frekvens

1 1 2 1 1

Kapitel 1. Byggstenar: variabler och fördelningarâ€‚ïżœâ€‚25


Tabell 1.3 Frekvenstabell för typ av lĂ€sk. Typ av lĂ€sk

Frekvens

2 3 1

Notera skillnaden mellan hur variabeln typ av lĂ€sk hanteras i tabellerna 1.1 och 1.3. I tabell 1.1 Ă€r den kodad i siffror och i tabell 1.3 Ă€r siffrornas innebörder utskrivna. Skillnaden beror pĂ„ att tabell 1.1 representerar ett datamaterial som har dokumenterats pĂ„ ett papper eller i en dator för att anvĂ€ndas i statistisk analys. DĂ„ anvĂ€nder vi ofta sifferkoder. Men frekvenstabellen i tabell 1.3 representerar resultatet av en analys, som skulle kunna skrivas ner i en rapport som ska lĂ€sas av andra. DĂ„ skriver vi ut det som vi och vĂ„ra lĂ€sare faktiskt Ă€r intresserade av. Rapportens lĂ€sare Ă€r helt ointresserade av vĂ„r godtyckliga kodbok. Tabellerna 1.2 och 1.3 var tvĂ„ exempel pĂ„ envĂ€gs frekvenstabeller, det vill sĂ€ga dĂ€r varje tabell redovisade fördelningen av endast en variabel. Vi kan ocksĂ„ göra tvĂ„vĂ€gs frekvenstabeller, dĂ€r vi redovisar frekvenser för varje möjlig kombination av tvĂ„ variabler (kombinationer av flera variabler Ă€n tvĂ„ klarar vi inte med ett tvĂ„dimensionellt verktyg). Hur det skulle se ut i samma exempel visas i tabell 1.4. Tabell 1.4 TvĂ„vĂ€gs frekvenstabell. Typ av lĂ€sk: Vikt (kg)

52 62 70 81 95

Dricker sockrad lÀsk

Dricker sockerfri lÀsk

Dricker ingen lÀsk

0 0 2 0 0

1 1 0 0 1

0 0 0 1 0

Att redovisa fördelningar i frekvenstabeller fungerar bra nĂ€r antalet möjliga vĂ€rden som en variabel (eller tvĂ„) kan anta Ă€r relativt litet. Men nĂ€r en variabel kan anta mĂ„nga olika vĂ€rden blir en sĂ„dan tabell stor och jobbig att lĂ€sa. Vi vill inte lĂ€sa en tabell med 30 rader, och Ă€nnu mindre en med 200. Och Ă€ven om vi tvingar oss till att lĂ€sa den, Ă€r det svĂ„rt att ta in och fĂ„ en 26â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Dricker sockrad lÀsk Dricker sockerfri lÀsk Dricker ingen lÀsk


överblick över vilka mönster som finns i en sÄ stor mÀngd siffror. Frekvens­ tabeller bör dÀrför i normalfallet inte anvÀndas nÀr antalet möjliga vÀrden Àr mycket större Àn i exemplen hÀr. DÀremot Àr varje vÀrdes frekvens nÀstan alltid betydligt större Àn i det hÀr lilla exemplet. Med sÄ fÄ observationer som vi hade nu, var det faktiskt lÀttare att lÀsa hela ursprungsdatan i tabell 1.1, Àn den tvÄvÀgs frekvens­ tabellen i tabell 1.4. Men det hade varit helt annorlunda med hundratals eller tusentals, eller redan vid tjugo, observationer.

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Frekvensdiagram NĂ€r antalet möjliga vĂ€rden Ă€r större, har vi desto större nytta av att anvĂ€nda grafik. Det bör vi göra ofta. VĂ„r förmĂ„ga att ta till oss information om mönster Ă€r lĂ„ngt större om dessa redovisas grafiskt Ă€n om de redovisas i tabellform. Den förmĂ„gan bör vi anvĂ€nda oss av sĂ„ mycket som möjligt i allt vĂ„rt arbete. Grafik bör anvĂ€ndas mycket nĂ€r vi arbetar med statistik. Det innebĂ€r just nu att rita frekvensdiagram. Ett sĂ„dant innehĂ„ller samma information som en frekvenstabell. Men i stĂ€llet för att ett vĂ€rdes frekvens representeras av en siffra i en tabellkolumn, representeras den av höjden av en stapel i ett diagram. Vi ska inte rita frekvensdiagram nĂ€r de inte tillför nĂ„got. Att redovisa informationen i tabell 1.2 i ett frekvensdiagram blir bara löjligt. Vi behöver inte grafiskt stöd för att ta till oss vilka ”mönster” som finns i de endast 5 raderna i den tabellen. DĂ„ Ă€r det bĂ€ttre med en tabell, för den tar mindre plats. (Och – skulle man kunna sĂ€ga – den nedvĂ€rderar inte lĂ€saren genom att antyda att hen behöver grafiskt stöd för att ta till sig sĂ„ lite information.) Men nĂ€r frekvensdiagram kan tillföra nĂ„got bör vi rita dem. Vi kan exempelvis vilja redovisa lĂ€ngdfördelningen bland kvinnor i Ă„ldern 20–50 Ă„r i USA. För det syftet har vi ett urval av 500 kvinnor frĂ„n National Health and Nutrition Examination Survey 1997. Deras lĂ€ngder fördelar sig mellan 136 och 182 cm. En frekvenstabell med alla de vĂ€rdena skulle bli obekvĂ€mt lĂ„ng, och det skulle ta oss en stund att processa den och förestĂ€lla oss vilka mönster den representerade. Om vi dĂ„ i stĂ€llet ritar ett frekvensdiagram vinner vi dels att vi sparar utrymme, men framför allt att det dĂ„ gĂ„r sekundsnabbt för oss att ta till oss Kapitel 1. Byggstenar: variabler och fördelningarâ€‚ïżœâ€‚27


140

150

160 lÀngd (cm)

170

180

Figur 1.1  LĂ€ngdfördelning hos 500 kvinnor i Ă„ldern 20–50 Ă„r i USA.

Beroende pÄ sammanhanget Àr vi ibland mest intresserade av att redovisa en fördelning med faktiska frekvenser, som i figur 1.1, och ibland av att fokusera pÄ variabelns procentuella fördelning, det vill sÀga fördelning av andelar. DÄ visar vi pÄ den vertikala axeln, inte hur mÄnga gÄnger ett vÀrde förekommer, utan vilken andel av alla observationer som antar just det vÀrdet. Detta visas för samma datamÀngd i figur 1.2. Det Àr alltsÄ exakt samma fördelning som i figur 1.1, men med en annan skala pÄ den vertikala axeln. Notera redan nu att om vi adderar höjderna pÄ alla staplarna i figur 1.2 blir summan exakt 100 procent, eftersom alla andelar tillsammans mÄste bli lika med helheten 100 procent. Det kommer vi att Äterkomma till flera gÄnger i olika former. (Och om vi adderar höjderna pÄ alla staplarna i figur 1.1 blir summan det totala antalet observationer: 500.)

28â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

0

10

Frekvens 20

30

40

vilka mönster som finns i fördelningen. Det kan vi lÀtt bekrÀfta genom att titta ett par sekunder pÄ just det diagrammet, som visas som figur 1.1. Vi kan till och med avgöra variabelns medelvÀrde i fördelningen med hyfsat god precision, bara genom en ganska snabb titt pÄ diagrammet. Det hade inte gÄtt i nÀrheten av lika snabbt med en frekvenstabell.


8 6 Andel (%) 4 2 0

140

150

160 lÀngd (cm)

170

180

Figur 1.2  Procentuell lĂ€ngdfördelning hos 500 kvinnor i Ă„ldern 20–50 Ă„r i USA.

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Histogram Om vi vill redovisa fördelningen hos en variabel som bara antar ett fĂ„tal olika vĂ€rden i ett urval Ă€r det lĂ€mpligt med en frekvenstabell. Med en variabel som kan anta flera vĂ€rden Ă€r det bĂ€ttre med ett frekvensdiagram. Vi sĂ„g precis att ett sĂ„dant diagram blev tydligt och bra ocksĂ„ nĂ€r den horisontella axeln spĂ€nde över nĂ€stan 50 olika vĂ€rden. Men om antalet vĂ€rden blir mycket större Ă€n sĂ„ blir staplarna för mĂ„nga för att fĂ„ plats pĂ„ bredden, eller för att diagrammet ska bli tydligt. I sĂ„dana fall kan vi rita ett histogram. Ett histogram Ă€r en variant av ett frekvens­ diagram. Det som Ă€r sĂ€rskiljer det Ă€r att varje stapel i diagrammet inte visar frekvensen av ett enda vĂ€rde, utan av ett intervall av vĂ€rden. Histogram: Frekvensdiagram dĂ€r varje stapel visar frekvensen av ett intervall av vĂ€rden. Ett exempel visas i figur 1.3, i form av ett histogram över BNP/capita i vĂ€rld­ ens lĂ€nder 2017. Dess första stapel visar frekvensen i intervallet 0–5,000 dollar, och sĂ„ vidare. Eftersom det inte finns tvĂ„ lĂ€nder med exakt samma BNP/capita, skulle ett vanligt frekvensdiagram inte fungera sĂ€rskilt bra hĂ€r. Det skulle bli nĂ€stan 200 staplar, och alla staplar skulle vara exakt lika höga: frekvensen 1. Med sĂ„ mĂ„nga vĂ€rden blir vi tvungna att kompromissa mellan detaljnivĂ„ och tydlighet i en grafisk framstĂ€llning. Histogrammet gör det. Det visar inte all information om exakt vilka vĂ€rden som finns. (I den meningen Ă€r det lite fel att presentera det under rubriken fullstĂ€ndiga redovisningar av fördelningar.) Men det ger en snabb och tydlig bild av hur fördelningen ser ut. Och all informationen om exakt vilken BNP/capita som varje land har, bryr vi oss nog inte sĂ„ mycket om Ă€ndĂ„. Kapitel 1. Byggstenar: variabler och fördelningarâ€‚ïżœâ€‚29


Joakim Ruist har arbetat med samhÀllsvetenskaplig forskning i mÄnga Är och Àr statistiklÀrare vid Göteborgs universitet.

Statistik och regression i praktiken

© F Ö R FA T T A R E N O C H S T U D E N T L I T T E R A T U R

Statistik Àr lÀran om osÀkra slutsatser. Den ger oss verktyg för att bedöma vilka slutsatser vi vÄgar uttala oss om, och hur sÀkert, i fall dÀr vi inte kan bli helt sÀkra. Vi anvÀnder statistik, ofta i form av regressionsanalys, för att besvara mÄnga typer av frÄgor inom olika omrÄden. Som universitetsstudent kan man pÄ kort tid lÀra sig att behÀrska alla statistikens och regressionens viktigaste delar. Men för det behövs ett fokus pÄ djupförstÄelse för grunderna, samt pÄ hur de statistiska verktygen kan göra som mest nytta i praktiken. Det Àr sÀllan fruktsamt, för detta ÀndamÄl, att grÀva ner sig i de teoretiska och matematiska detaljer som mÄnga studenter har bekymmer med. Statistik och regression i praktiken har detta fokus pÄ praktisk anvÀndbarhet och pÄ djupförstÄelse för de centrala delarna om hur man bedömer osÀkerhet, om svÄrigheterna i att tolka resultat, och om nyttan av regression som verktyg för att sammanfatta komplexa mönster. Den fokuserar ocksÄ konsekvent pÄ statistikens begrÀnsningar och vikten av att matematiska berÀkningar kompletteras med subjektiva vÀrderingar. Det finns sÀllan ett helt rÀtt sÀtt att utföra en analys eller att tolka dess resultat pÄ. Den som lÀser boken ska bli bÄde kompetent i att anvÀnda statistiska verktyg och ödmjuk inför deras begrÀnsningar. Statistik och regression i praktiken Àr en lÀrobok för grundkurser i statistik, men Àr med sitt grundliga och praktiska tilltal ocksÄ en bok att ta med sig till fortsÀttningsstudierna och kommande uppsatsarbeten.

Art.nr 40493

30â€‚ïżœâ€‚Kapitel 1. Byggstenar: variabler och fördelningar

studentlitteratur.se


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.