Statistik och regression i praktiken JOAKIM RUIST
Kopieringsförbud Detta verk Àr skyddat av upphovsrÀttslagen. Kopiering, utöver lÀrares och studenters begrÀnsade rÀtt att kopiera för undervisningsÀndamÄl enligt Bonus Copyright Access kopieringsavtal, Àr förbjuden. För information om avtalet hÀnvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, Àr e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrÀtt kan Ätalas av allmÀn Äklagare och dömas till böter eller fÀngelse i upp till tvÄ Är samt bli skyldig att erlÀgga ersÀttning till upphovsman eller rÀttsinnehavare. Studentlitteratur har bÄde digital och traditionell bokutgivning. Studentlitteraturs trycksaker Àr miljöanpassade, bÄde nÀr det gÀller papper och tryckprocess.
Art.nr 40493 ISBN 978-91-44-13408-6 Upplaga 1:1 © Författaren och Studentlitteratur 2021 studentlitteratur.se Studentlitteratur AB, Lund Formgivning inlaga: Henrik Hast Ombrytning inlaga: Jesper Sjöstrand Formgivning omslag: Jens Martin Signalera Omslagsbild: Shutterstock Printed by Dimograf, Poland 2021
InnehÄll
Inledning: Statistik i teori och praktikâ9
1.âByggstenar: variabler och fördelningarâ17 1.1 1.2
1.3
1.4 1.5 1.6
1.7
Variablerâ19 Fördelningarâ24 1.2.1 FullstĂ€ndiga redovisningar av fördelningarâ25 1.2.2 Sammanfattande redovisningar av fördelningar: deskriptiv statistikâ30 1.2.3 Sannolikhetsfördelningarâ40 Kombinationer av fördelningar (sannolikhetslĂ€ra)â50 1.3.1 Kombinationerâ51 1.3.2 Multiplikation och addition av andelarâ60 1.3.3 Instuderingsuppgifterâ65 1.3.4 Binomialfördelningenâ72 Introduktion till och deskriptiv statistik i Excelâ77 Introduktion till och deskriptiv statistik i Stataâ84 Kontinuerliga (sannolikhets-)fördelningarâ96 1.6.1 Att beskriva kontinuerliga fördelningarâ100 1.6.2 Att berĂ€kna sannolikheter i kontinuerliga fördelningarâ106 Normalfördelningenâ115 1.7.1 Formen hos kaos (centrala grĂ€nsvĂ€rdessatsen)â118 1.7.2 BerĂ€kning av andelar av normalfördelningarâ131
2.âMedelvĂ€rden och urvalsosĂ€kerhetâ147 2.1 2.2 2.3
2.4
2.5
2.6
2.7
Introduktion till urval och urvalsosĂ€kerhetâ150 Samplingsfördelning för medelvĂ€rdeâ156 Exempel pĂ„ samplingsfördelning och felmarginalâ165 2.3.1 Populationen och samplingsfördelningenâ166 2.3.2 Att konstruera en felmarginalâ175 Samplingsfördelningar och konfidensintervaller generelltâ191 2.4.1 Samplingsfördelningar för urvalsmedelvĂ€rdenâ192 2.4.2 Samplingsfördelningar för urvals T-kvoterâ197 2.4.3 Att konstruera konfidensintervaller med T-fördelningenâ208 2.4.4 Mer om T-fördelningar och osĂ€kerhetâ214 Signifikans och p-vĂ€rdenâ219 2.5.1 Varför signifikans?â220 2.5.2 Att avgöra signifikansâ223 2.5.3 P-vĂ€rdenâ229 Att rapportera slumpmĂ€ssig urvalsosĂ€kerhetâ246 2.6.1 Rapportera âurvalsosĂ€kerhetâ nĂ€r vi har data för hela populationenâ252 Icke-slumpmĂ€ssigt bortfallâ254 2.7.1 Beskrivning av problemetâ255 2.7.2 FörhĂ„llningssĂ€tt som utförareâ258
3.âIntroduktion till sambandsanalysâ267 3.1 3.2
3.3 3.4
Samvariation och orsakssambandâ270 Att identifiera orsakssambandâ274 3.2.1 Hur orsakssamband skapar samvariationâ274 3.2.2 âSĂ€kraâ sĂ€tt att identifiera orsakssamband: slumpenâ291 3.2.3 Identifiera och ta hĂ€nsyn till utelĂ€mnade variablerâ295 Analysens detaljnivĂ„â297 UrvalsosĂ€kerhet vid jĂ€mförelse av tvĂ„ medelvĂ€rdenâ301 3.4.1 MedelvĂ€rdesskillnader i Excel och Stataâ305
4.âGrundlĂ€ggande regressionsanalysâ309 4.1
Syfte, tolkning och utförandeâ312 4.1.1 Motiv för regressionâ314 4.1.2 Att tolka regressionsresultatâ320 4.1.3 Prediktioner och residualerâ325 4.1.4 Att bestĂ€mma regressionslinjens positionâ330 4.2 OsĂ€kerhet vid regressionsanalysâ340 4.2.1 UrvalsosĂ€kerhetâ340 4.2.2 OsĂ€kerhet om matematisk funktionâ345 4.2.3 Undersök regressionens passning manuelltâ347 4.3 Regression och spridningsdiagram i Excel och Stataâ353 4.4 Regression med flera oberoende variablerâ361 4.4.1 Samvariation, orsakssamband och multivariat regressionâ363 4.4.2 Frisch-Waugh-Lovell-teoremetâ371 4.4.3 Att arbeta praktiskt med multivariat regressionâ378 4.4.4 Instuderingsuppgifter bivariat och multivariat regressionâ383 4.5 Regressioners förklaringskraftâ389 4.5.1 Att mĂ€ta förklaringskraftâ389 4.5.2 Varianter av mĂ„tt och ytterligare mĂ„ttâ404 4.5.3 Förklaringskraft i Excel och Stataâ410 4.6 Att rapportera regressionsanalysâ414 4.7 Icke-linjĂ€r regressionâ425 4.7.1 Polynomregressionâ425 4.7.2 Logaritm- och rottransformationerâ436 4.7.3 Regression med skarpa hörnâ443 4.8 Kategoriska variabler och dummyvariablerâ445 4.8.1 Dummyvariablerâ446 4.8.2 Flera kategorier Ă€n tvĂ„â454 4.8.3 Dummyvariabler i Excel och Stataâ464 4.8.4 TillĂ€mpningar av dummies som âkontrollvariablerââ468 4.9 Regression med interaktionerâ472 4.9.1 Interaktioner mellan variablerâ472 4.9.2 Att hantera interaktioner i regressionâ476 4.10 Stora möjligheter â och riskerâ494
5.âMer om osĂ€kerhetâ497 5.1
5.2
5.3 5.4 5.5
AvgrĂ€nsning och osĂ€kerhetâ500 5.1.1 NĂ€r signifikans-konventionen inte fungerar braâ501 5.1.2 Möjliga hanteringarâ508 Outliers (extremvĂ€rden)â518 5.2.1 Definition och problembeskrivningâ518 5.2.2 Hanteringâ521 Kraftig skevhetâ527 5.3.1 Hanteringâ528 Korrelation och âkollinearitetââ533 Heteroskedasticitetâ538
6.âPrediktion och modellbyggeâ543 6.1 6.2
Syfte och sĂ€rartâ546 Metoder för prediktionâ551 6.2.1 Manuellt modellbyggeâ553 6.2.2 Helt eller delvis âobjektivtâ modellbyggeâ560 6.2.3 Vad som Ă€r bĂ€stâ564
7.âMer avancerad regressionâ571 7.1
7.2
Kategorisk beroende variabel och oberoende pĂ„ intervallskalaâ573 7.1.1 NödvĂ€ndigheten av icke-linjĂ€ritetâ575 7.1.2 Probit- och logitregression för specifik icke-linjĂ€ritetâ578 7.1.3 Tolkning och redovisning â och modellvalâ596 7.1.4 Probit- och logitregression i Stataâ604 7.1.5 (BegrĂ€nsade) interaktioner per konstruktion i probit- och logitregressionâ608 7.1.6 Beroende variabel med flera kategorierâ610 Paneldata (och/eller difference-in-differences)â611 7.2.1 Modeller med differenser (FD)â613 7.2.2 Modeller med individuella dummies (FE)â625 7.2.3 Mindre viktigt: Sakers olika namnâ632
7.3
7.4
Introduktion till tidsserieanalysâ634 7.3.1 Tiden och slumpenâ636 7.3.2 LĂ„ngsiktiga trenderâ645 7.3.3 NĂ€r förĂ€ndringar tar ganska lĂ„ng tidâ656 7.3.4 BestĂ„ende effekter: random walksâ666 7.3.5 Sammanfattning och saker som vi inte har nĂ€mntâ675 Ănnu mer avancerad analysâ677
Appendix: Register över kommandon, tillval och funktioner i Stataâ679
I det hĂ€r kapitlet presenteras grundlĂ€ggande byggstenar och begrepp som vi behöver nĂ€r vi arbetar med statistisk analys. NĂ€r vi sĂ€tter igĂ„ng med de första egentliga analyserna i kapitel 2 blir materialet ganska komplext. För att göra det enklare att ta till sig, genom att undvika att det dĂ„ blir mĂ„nga saker som behöver förstĂ„s samtidigt, gĂ„r vi först igenom de olika bygg stenarna i det hĂ€r kapitlet. Vi arbetar inom statistiken med variabler och fördelningar. Ofta eller oftast arbetar vi med urval av begrĂ€nsad storlek. Förhoppningsvis har dessa urval dragits slumpmĂ€ssigt. Om de har det kan vi berĂ€kna osĂ€kerhetsnivĂ„n i vĂ„ra analyser, om vi har en grundlĂ€ggande förstĂ„else för sannolikheter och â lite mer abstrakt â sannolikhetsfördelningar. Kapitlet lĂ€gger grunden till dessa begrepp och hur vi kan anvĂ€nda dem. Det ger ocksĂ„ en introduktion till att arbeta med statistik i Excel och Stata.
1.1
Variabler
Att arbeta med statistik handlar pĂ„ olika sĂ€tt om att analysera variation. Vi studerar hur mycket nĂ„gonting varierar, vilka mönster vi ser i den variationen, vilka samband vi ser mellan hur olika saker varierar, och vad sĂ„dan samvaria tion eventuellt sĂ€ger oss om orsak och verkan. Vi kan till exempel beskriva hur vikten varierar mellan olika mĂ€nniskor, genom att ange hur mycket en genomsnittlig mĂ€nniska vĂ€ger, samt olika mĂ„tt pĂ„ hur stor spridningen Ă€r runt det genomsnittet. Vi kan studera hur mycket mer eller mindre mĂ€nniskor i genomsnitt vĂ€ger om de dricker sockerfri jĂ€mfört med sockrad lĂ€sk. Och vi kan försöka dra slutsatser om vad det i sĂ„ fall sĂ€ger oss om vad det Ă€r som har orsakat viktskillnaden. De saker som kan variera â det vill sĂ€ga som kan anta olika vĂ€rden â i en 19
analys kallar vi för variabler. Exempelvis vilken vikt olika mÀnniskor har, eller vilken typ av lÀsk de uppger att de dricker. Om det som vi studerar inte Àr mÀnniskor utan till exempel lÀnder, kan variabler vara saker som exempelvis invÄnarantal och bruttonationalprodukt. Variabel: NÄgonting som kan variera, det vill sÀga anta olika vÀrden. De saker som variablerna kan variera mellan brukar vi kalla för individer. Oavsett vad de Àr för saker. De behöver alltsÄ inte vara mÀnniskor (vad vi brukar mena med individer i dagligt tal). Individer kan vara lÀnder, kommuner, bakterier och sÄ vidare. De individer som vi faktiskt observerar i en studie, det vill sÀga vars variabelvÀrden vi har uppgifter om, kallar vi för vÄra observationer.
Observationer: De individer som vi observerar i en studie, det vill sÀga vars variabelvÀrden vi har uppgifter om. Alla de observationer som vi observerar bildar tillsammans det urval som vi arbetar med. Urval: Den uppsÀttning av observationer som vi arbetar med. Slutligen brukar vi anvÀnda ordet datamaterial, eller dataset, eller bara data för att beskriva hela den informationsmÀngd som vi arbetar med i en studie. Det vill sÀga all information om alla vÀrden pÄ alla variabler hos alla observationer i urvalet. Datamaterial/dataset/data: Hela den informationsmÀngd som vi arbetar med i en studie.
Variabler pĂ„ intervallskala Variabler kan vara mĂ„nga olika saker. Vissa kan bara anta ett fĂ„tal olika vĂ€rden, medan andra kan anta mĂ„nga. (Som lĂ€gst tvĂ„. Det som bara kan anta ett vĂ€rde, exempelvis antal hjĂ€rnor hos en levande mĂ€nniska, Ă€r motsatsen till en variabel: en konstant.) Vissa antar vĂ€rden som Ă€r numeriskt relevanta och gĂ„r att rĂ€kna pĂ„ (exempelvis lĂ€ngd, vikt), andra inte (exempelvis kön, yrke). Variabeln vikt kan mĂ€tas i den numeriskt relevanta enheten kilogram. DĂ„ har den den viktiga egenskapen att den mĂ€ts pĂ„ vad som kallas för intervall20âïżœâKapitel 1. Byggstenar: variabler och fördelningar
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Individer: Det som en variabel varierar mellan.
skala. Det betyder att tvÄ steg (intervaller) som Àr lika lÄnga pÄ den skala som variabeln mÀts pÄ verkligen motsvarar tvÄ lika stora skillnader. Det Àr lika stor skillnad pÄ 70 kg och 71 kg, som det Àr pÄ 71 kg och 72 kg, och sÄ vidare. NÀstan alla variabler som mÀts i form av en siffra framför en mÄttenhet (kilogram, kronor, meter, grader Celsius) Àr pÄ intervallskala. Att en variabel Àr pÄ intervallskala Àr en nödvÀndig förutsÀttning för att de flesta matematiska berÀkningar som vi kan tÀnkas vilja utföra pÄ den ska vara relevanta. Det gÀller exempelvis berÀkning av ett medelvÀrde. Om en person vÀger 75 kg och en annan 77 kg, kan vi berÀkna att de tvÄ i genomsnitt vÀger 76 kg.
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Intervallskala: En mĂ€tskala som innebĂ€r att tvĂ„ lika lĂ„nga steg pĂ„ skalan motsvarar tvĂ„ lika stora skillnader. Intervallskala Ă€r en förutsĂ€ttning för att mĂ„nga matematiska berĂ€kningar ska vara meningsfulla. Men lĂ„t oss anta att vi i stĂ€llet hade mĂ€tt variabeln pĂ„ ett annat sĂ€tt, genom att klassificera mĂ€nniskors vikt i nĂ„gon av de fyra kategorierna, det vill sĂ€ga variabelvĂ€rdena underviktiga, normalviktiga, överviktiga och kraftigt överÂviktiga. DĂ„ hade samma variabel i stĂ€llet varit pĂ„ vad som kallas för ordinalÂskala. Namnet kommer av ordet ordna, eller ordning. Det gĂ„r att rangordna de fyra vĂ€rden som variabeln kan anta. Det vill sĂ€ga det gĂ„r att sĂ€ga vad som Ă€r mer Ă€n vad. Men vĂ€rdena Ă€r inte numeriskt relevanta, och det gĂ„r inte att sĂ€ga om tvĂ„ steg pĂ„ den ordnade skalan Ă€r lika stora eller inte. Vi kan inte sĂ€ga att skillnaden mellan underviktig och normalviktig Ă€r lika stor som den mellan överviktig och kraftigt överviktig. Vi kan dĂ€rmed inte heller till exempel berĂ€kna nĂ„got meningsfullt medelvĂ€rde för variabeln, nĂ€r den mĂ€ts pĂ„ det sĂ€ttet. I viktexemplet i inledningen hade vi ocksĂ„ en variabel som vi kan kalla för typ av lĂ€sk. LĂ„t oss sĂ€ga att den kan anta tre olika vĂ€rden. Alla mĂ€nniskor kan uppge nĂ„got av de tre vĂ€rdena dricker sockrad lĂ€sk, dricker sockerfri lĂ€sk och dricker ingen lĂ€sk. Dessa vĂ€rden Ă€r inte heller numeriskt relevanta. Och de gĂ„r vidare inte ens att rangordna. Vi kan inte sĂ€ga att nĂ„got av dess tre vĂ€rden Ă€r âmerâ eller âmindreâ Ă€n nĂ„got av de andra. Den variabeln mĂ€ts alltsĂ„ inte ens pĂ„ ordinalskala. Vi sĂ€ger att den mĂ€ts pĂ„ nominalskala. Namnet kommer av ordet namn och betecknar att de olika vĂ€rden som variabeln kan anta inte Ă€r mer Ă€n namn pĂ„ olika kategorier. Det som Ă€r viktigt att ta med sig hĂ€rifrĂ„n Ă€r distinktionen mellan numeriskt relevanta variabler pĂ„ intervallskala och de övriga tvĂ„. Distinktionen mellan ordinal- och nominalskala Ă€r sĂ€llan viktig. Men det Ă€r Ă€ndĂ„ bra att ha Kapitel 1. Byggstenar: variabler och fördelningarâïżœâ21
Kodbok: En lista pĂ„ variabelvĂ€rden och vad varje vĂ€rde stĂ„r för. Men genom att variabeln kodas pĂ„ det sĂ€ttet â med ettor, tvĂ„or och treor i stĂ€llet för med text â blir det ocksĂ„ fullt möjligt att sĂ€ga till datorn att berĂ€kna dess medelvĂ€rde. Den kanske dĂ„ returnerar medelvĂ€rdet 1.73. Datorn har rĂ€knat rĂ€tt. Det Ă€r vi som mĂ„ste ha koll pĂ„ att det inte var en meningsfull berĂ€kning. Siffran 1.73 betyder ingenting. Och den Ă€r helt godtycklig, eftersom de tre siffervĂ€rdena som variabeln kodades i Ă€r godtyckliga (och inte har nĂ„gon enhet). Vi kunde lika gĂ€rna ha kodat de tre 22âïżœâKapitel 1. Byggstenar: variabler och fördelningar
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
observerat den, för att se att variabler kan vara olika nĂ€ra att nĂ„ upp till vad som krĂ€vs för att vi ska kunna utföra meningsfulla numeriska berĂ€kningar pĂ„ dem, men Ă€ndĂ„ utan att nĂ„ Ă€nda fram. Det finns ocksĂ„ grĂ€nsfall, dĂ€r det inte Ă€r helt uppenbart hur en variabels mĂ€tskala ska klassificeras. Ett enkelt exempel Ă€r en variabel som bestĂ„r av att nĂ„gonting har vĂ€rderats eller poĂ€ngsatts pĂ„ en skala, exempelvis 1â5 eller 0â10. Om vi i en undersökning har bett mĂ€nniskor att betygsĂ€tta regeringens arbete pĂ„ skalan 1âââ5, tycker vi dĂ„ att varje steg pĂ„ skalan Ă€r lika lĂ„ngt? Och bör vi se det som relevant information exempelvis att personerna i undersökningen i genomsnitt gav betyget 3.6? De flesta av oss vill nog svara ett i alla fall nĂ€stan klart ja pĂ„ de frĂ„gorna. Vi tycker nog helt klart att genomsnittet 3.6 ger relevant information. (TĂ€nk bara pĂ„ de miljontals internetsidor som rapporterar sĂ„dana medelbetyg för olika varor, filmer etc.) Men vi ser ocksĂ„ att det skaver lite. Om personerna A, B och C har satt betygen 2, 3 respektive 4, tycker vi kanske inte att det Ă€r 100 procent rĂ€tt att sĂ€ga att âC gillar regeringen lika mycket mer Ă€n B, som B gillar den mer Ă€n Aâ. Oftast hanterar vi i alla fall sĂ„dana hĂ€r variabler som att de Ă€r pĂ„ intervallskala. Vi kanske inte tycker att det Ă€r helt 100 procent rĂ€tt. Men vi tycker att det Ă€r tillrĂ€ckligt nĂ€ra för att Ă€ndĂ„ vara meningsfullt. Ett ganska vanligt fel bland nybörjare i statistisk analys Ă€r att tro att man kan utföra matematiska berĂ€kningar, till exempel av ett medelvĂ€rde, bara för att en variabel har kodats i sifferform i ett dataset. NĂ€r vi konstruerar ett dataset dĂ€r variabelvĂ€rdena Ă€r flera ord lĂ„nga, som i exemplet med typ av lĂ€sk ovan, brukar vi inte skriva ut dessa lĂ„nga textstrĂ€ngar gĂ„ng pĂ„ gĂ„ng i datan. I stĂ€llet skapar vi dĂ„ en kodbok, dĂ€r vi anger exempelvis att siffran 1 betyder dricker sockrad lĂ€sk, 2 betyder dricker sockerfri lĂ€sk, och 3 betyder dricker ingen lĂ€sk. Och sĂ„ fyller vi datasetet med ettor, tvĂ„or och treor i stĂ€llet för med textstrĂ€ngar.
variabelvÀrdena med siffrorna 10, 30 och 80, vilket hade givit ett helt annat medelvÀrde. (Du tycker kanske att detta lÄter för sjÀlvklart för att behöva nÀmnas. Men mÄnga studenter fÄr ÀndÄ för sig att berÀkna saker som genomsnittlig födelseort, sÄ det kan vara vÀrt att understryka.)
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Variabler pĂ„ kvotskala För att de flesta berĂ€kningar som vi utför i statistisk analys ska vara relevanta, rĂ€cker det att variabler mĂ€ts pĂ„ intervallskala. Men ibland krĂ€vs det en Ă€nnu högre nivĂ„. Om vi vill kunna uttala oss inte bara om skillnader, utan ocksĂ„ om relativa skillnader â eller procentuella skillnader â i en variabel, rĂ€cker det inte att variabeln mĂ€ts pĂ„ intervallskala. DĂ„ krĂ€vs det att den mĂ€ts pĂ„ kvotskala. Det innebĂ€r att den, i tillĂ€gg till att vara pĂ„ intervallskala, ocksĂ„ har en relevant nollpunkt. Det vill sĂ€ga att vĂ€rdet 0 pĂ„ skalan verkligen betyder âingentingâ. DĂ„ blir inte bara skillnader, utan ocksĂ„ kvoter, mellan tvĂ„ variabelvĂ€rden numeriskt relevanta. Som att det ena Ă€r dubbelt sĂ„ stort som det andra. Kvotskala: En mĂ€tskala som innebĂ€r att bĂ„de skillnader och kvoter mellan tvĂ„ variabelvĂ€rden Ă€r numeriskt relevanta. De allra flesta variabler som Ă€r pĂ„ intervallskala Ă€r ocksĂ„ pĂ„ kvotskala. Ett exempel pĂ„ ett undantag Ă€r temperatur mĂ€tt i grader Celsius eller grader Fahrenheit. Dessa mĂ€tskalors nollpunkter betyder inte âingentingâ. Om det var 5 grader Celsius utomhus i gĂ„r och det Ă€r 10 grader i dag, Ă€r det nonsens att sĂ€ga att âdet Ă€r dubbelt sĂ„ varmt i dag som det var i gĂ„râ. Det vill sĂ€ga att uttala oss om den relativa skillnaden i temperatur baserat pĂ„ Celsiusskalan. Temperatur mĂ€tt i Kelvin Ă€r dĂ€remot pĂ„ kvotskala, eftersom dess vĂ€rde 0 motsvarar den absoluta fysikaliska nollpunkten. Det Ă€r ocksĂ„ dĂ€rför som det inte heter âgrader Kelvinâ, utan bara Kelvin.
Ett annat exempel: Ăven om vi tycker att det kĂ€nns godkĂ€nt att betrakta ett betyg pĂ„ skalan 1â5 som pĂ„ intervallskala, bör vi definitivt inte betrakta det som pĂ„ kvotskala. Att i sifferexemplet ovan sĂ€ga att âC (betyget 4) gillar regeringen dubbelt sĂ„ mycket som A (betyget 2) görâ blir nonsens. Skalans nollpunkt betyder inte âingentingâ (och det gĂ€ller oavsett om siffran 0 ingĂ„r i betygskalan eller inte).
Kapitel 1. Byggstenar: variabler och fördelningarâïżœâ23
Struktur pĂ„ datamaterial NĂ€r vi dokumenterar ett datamaterial â antingen i ett datorprogram eller med papper och penna â följer vi alltid konventionen att lĂ„ta varje rad representera en observation och varje kolumn en variabel. Detta dĂ„ observationerna nĂ€stan alltid Ă€r (mĂ„nga) fler Ă€n variablerna, och det Ă€r lĂ€ttare för oss att scrolla eller blĂ€ddra nedĂ„t Ă€n sidledes. Ett exempel pĂ„ hur ett mycket litet datamaterial frĂ„n vĂ„rt lĂ€sk- och viktexempel skulle kunna se ut visas i tabell 1.1.
ID
Vikt (kg)
Typ av lÀsk
1 2 3 4
70 62 81 70
1 2 3 1
5 6
52 95
2 2
De sex observationerna i tabell 1.1 har tilldelats identifikationsnummer (ID). Det Àr vanligt att vi gör sÄ, nÀr vi inte vet vad observationerna heter. Om observationerna exempelvis Àr kommuner eller företag, vet vi oftast vad de heter och kan skriva ut det i en variabel. NÀr de Àr mÀnniskor vet vi det ofta inte. DÄ ger vi dem ofta nummer i stÀllet, för att kunna identifiera och hÀnvisa till dem i berÀkningar. I det hÀr lilla datasetet har variabeln typ av lÀsk kodats i sifferform. Vi kompletterar dÄ datasetet med en kodbok som förklarar vad de olika siffrorna representerar.
1.2
Fördelningar
I statistisk analys analyserar vi hur vÀrdena hos en eller flera variabler varierar mellan observationerna i ett urval. Det vill sÀga hur observationerna fördelar sig över olika variabelvÀrden, eller med andra ord, hur vanliga olika variabelvÀrden Àr i urvalet. Ofta uttrycker vi det som att vi studerar variabelns fördelning i urvalet.
24âïżœâKapitel 1. Byggstenar: variabler och fördelningar
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Tabell 1.1âDatamaterial bestĂ„ende av 6 observationer.
En variabels fördelning: En förteckning över alla vĂ€rden hos en variabel som förekommer i ett urval och hur mĂ„nga gĂ„nger varje vĂ€rde förekommer. Ett annat sĂ€tt att sĂ€ga det Ă€r med vilken frekvens varje variabelvĂ€rde förekommer. Frekvens betyder âantal gĂ„ngerâ. (I fysikaliska sammanhang som du kanske Ă€r mer bekant med â som ljud- eller radiovĂ„gor â och ofta i dagligt tal, betyder frekvens antal gĂ„nger per tidsenhet. Men inom statistik betyder det bara antal gĂ„nger.) Frekvens: Antal gĂ„nger.
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
1.2.1
FullstÀndiga redovisningar av fördelningar
En beskrivning av hur en variabels fördelning i ett urval ser ut kan vara fullstÀndig eller sammanfattande. Vi ska gÄ igenom dessa i tur och ordning och vi börjar med de fullstÀndiga.
Frekvenstabeller Vi kan göra en fullstĂ€ndig beskrivning av en variabels fördelning i en frekvensÂtabell. I en sĂ„dan anges pĂ„ varje rad ett möjligt vĂ€rde som variabeln kan anta, samt det vĂ€rdets frekvens, det vill sĂ€ga hur mĂ„nga observationer i urvalet som antar just det vĂ€rdet. UtifrĂ„n det lilla datamaterialet i tabell 1.1, skulle en frekvenstabell för variabeln vikt se ut som i tabell 1.2 och en för variabeln typ av lĂ€sk som i tabell 1.3. Tabell 1.2âFrekvenstabell för vikt. Vikt (kg)
52 62 70 81 95
Frekvens
1 1 2 1 1
Kapitel 1. Byggstenar: variabler och fördelningarâïżœâ25
Tabell 1.3âFrekvenstabell för typ av lĂ€sk. Typ av lĂ€sk
Frekvens
2 3 1
Notera skillnaden mellan hur variabeln typ av lĂ€sk hanteras i tabellerna 1.1 och 1.3. I tabell 1.1 Ă€r den kodad i siffror och i tabell 1.3 Ă€r siffrornas innebörder utskrivna. Skillnaden beror pĂ„ att tabell 1.1 representerar ett datamaterial som har dokumenterats pĂ„ ett papper eller i en dator för att anvĂ€ndas i statistisk analys. DĂ„ anvĂ€nder vi ofta sifferkoder. Men frekvenstabellen i tabell 1.3 representerar resultatet av en analys, som skulle kunna skrivas ner i en rapport som ska lĂ€sas av andra. DĂ„ skriver vi ut det som vi och vĂ„ra lĂ€sare faktiskt Ă€r intresserade av. Rapportens lĂ€sare Ă€r helt ointresserade av vĂ„r godtyckliga kodbok. Tabellerna 1.2 och 1.3 var tvĂ„ exempel pĂ„ envĂ€gs frekvenstabeller, det vill sĂ€ga dĂ€r varje tabell redovisade fördelningen av endast en variabel. Vi kan ocksĂ„ göra tvĂ„vĂ€gs frekvenstabeller, dĂ€r vi redovisar frekvenser för varje möjlig kombination av tvĂ„ variabler (kombinationer av flera variabler Ă€n tvĂ„ klarar vi inte med ett tvĂ„dimensionellt verktyg). Hur det skulle se ut i samma exempel visas i tabell 1.4. Tabell 1.4âTvĂ„vĂ€gs frekvenstabell. Typ av lĂ€sk: Vikt (kg)
52 62 70 81 95
Dricker sockrad lÀsk
Dricker sockerfri lÀsk
Dricker ingen lÀsk
0 0 2 0 0
1 1 0 0 1
0 0 0 1 0
Att redovisa fördelningar i frekvenstabeller fungerar bra nĂ€r antalet möjliga vĂ€rden som en variabel (eller tvĂ„) kan anta Ă€r relativt litet. Men nĂ€r en variabel kan anta mĂ„nga olika vĂ€rden blir en sĂ„dan tabell stor och jobbig att lĂ€sa. Vi vill inte lĂ€sa en tabell med 30 rader, och Ă€nnu mindre en med 200. Och Ă€ven om vi tvingar oss till att lĂ€sa den, Ă€r det svĂ„rt att ta in och fĂ„ en 26âïżœâKapitel 1. Byggstenar: variabler och fördelningar
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Dricker sockrad lÀsk Dricker sockerfri lÀsk Dricker ingen lÀsk
överblick över vilka mönster som finns i en sÄ stor mÀngd siffror. Frekvens tabeller bör dÀrför i normalfallet inte anvÀndas nÀr antalet möjliga vÀrden Àr mycket större Àn i exemplen hÀr. DÀremot Àr varje vÀrdes frekvens nÀstan alltid betydligt större Àn i det hÀr lilla exemplet. Med sÄ fÄ observationer som vi hade nu, var det faktiskt lÀttare att lÀsa hela ursprungsdatan i tabell 1.1, Àn den tvÄvÀgs frekvens tabellen i tabell 1.4. Men det hade varit helt annorlunda med hundratals eller tusentals, eller redan vid tjugo, observationer.
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Frekvensdiagram NĂ€r antalet möjliga vĂ€rden Ă€r större, har vi desto större nytta av att anvĂ€nda grafik. Det bör vi göra ofta. VĂ„r förmĂ„ga att ta till oss information om mönster Ă€r lĂ„ngt större om dessa redovisas grafiskt Ă€n om de redovisas i tabellform. Den förmĂ„gan bör vi anvĂ€nda oss av sĂ„ mycket som möjligt i allt vĂ„rt arbete. Grafik bör anvĂ€ndas mycket nĂ€r vi arbetar med statistik. Det innebĂ€r just nu att rita frekvensdiagram. Ett sĂ„dant innehĂ„ller samma information som en frekvenstabell. Men i stĂ€llet för att ett vĂ€rdes frekvens representeras av en siffra i en tabellkolumn, representeras den av höjden av en stapel i ett diagram. Vi ska inte rita frekvensdiagram nĂ€r de inte tillför nĂ„got. Att redovisa informationen i tabell 1.2 i ett frekvensdiagram blir bara löjligt. Vi behöver inte grafiskt stöd för att ta till oss vilka âmönsterâ som finns i de endast 5 raderna i den tabellen. DĂ„ Ă€r det bĂ€ttre med en tabell, för den tar mindre plats. (Och â skulle man kunna sĂ€ga â den nedvĂ€rderar inte lĂ€saren genom att antyda att hen behöver grafiskt stöd för att ta till sig sĂ„ lite information.) Men nĂ€r frekvensdiagram kan tillföra nĂ„got bör vi rita dem. Vi kan exempelvis vilja redovisa lĂ€ngdfördelningen bland kvinnor i Ă„ldern 20â50 Ă„r i USA. För det syftet har vi ett urval av 500 kvinnor frĂ„n National Health and Nutrition Examination Survey 1997. Deras lĂ€ngder fördelar sig mellan 136 och 182 cm. En frekvenstabell med alla de vĂ€rdena skulle bli obekvĂ€mt lĂ„ng, och det skulle ta oss en stund att processa den och förestĂ€lla oss vilka mönster den representerade. Om vi dĂ„ i stĂ€llet ritar ett frekvensdiagram vinner vi dels att vi sparar utrymme, men framför allt att det dĂ„ gĂ„r sekundsnabbt för oss att ta till oss Kapitel 1. Byggstenar: variabler och fördelningarâïżœâ27
140
150
160 lÀngd (cm)
170
180
Figur 1.1â LĂ€ngdfördelning hos 500 kvinnor i Ă„ldern 20â50 Ă„r i USA.
Beroende pÄ sammanhanget Àr vi ibland mest intresserade av att redovisa en fördelning med faktiska frekvenser, som i figur 1.1, och ibland av att fokusera pÄ variabelns procentuella fördelning, det vill sÀga fördelning av andelar. DÄ visar vi pÄ den vertikala axeln, inte hur mÄnga gÄnger ett vÀrde förekommer, utan vilken andel av alla observationer som antar just det vÀrdet. Detta visas för samma datamÀngd i figur 1.2. Det Àr alltsÄ exakt samma fördelning som i figur 1.1, men med en annan skala pÄ den vertikala axeln. Notera redan nu att om vi adderar höjderna pÄ alla staplarna i figur 1.2 blir summan exakt 100 procent, eftersom alla andelar tillsammans mÄste bli lika med helheten 100 procent. Det kommer vi att Äterkomma till flera gÄnger i olika former. (Och om vi adderar höjderna pÄ alla staplarna i figur 1.1 blir summan det totala antalet observationer: 500.)
28âïżœâKapitel 1. Byggstenar: variabler och fördelningar
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
0
10
Frekvens 20
30
40
vilka mönster som finns i fördelningen. Det kan vi lÀtt bekrÀfta genom att titta ett par sekunder pÄ just det diagrammet, som visas som figur 1.1. Vi kan till och med avgöra variabelns medelvÀrde i fördelningen med hyfsat god precision, bara genom en ganska snabb titt pÄ diagrammet. Det hade inte gÄtt i nÀrheten av lika snabbt med en frekvenstabell.
8 6 Andel (%) 4 2 0
140
150
160 lÀngd (cm)
170
180
Figur 1.2â Procentuell lĂ€ngdfördelning hos 500 kvinnor i Ă„ldern 20â50 Ă„r i USA.
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Histogram Om vi vill redovisa fördelningen hos en variabel som bara antar ett fĂ„tal olika vĂ€rden i ett urval Ă€r det lĂ€mpligt med en frekvenstabell. Med en variabel som kan anta flera vĂ€rden Ă€r det bĂ€ttre med ett frekvensdiagram. Vi sĂ„g precis att ett sĂ„dant diagram blev tydligt och bra ocksĂ„ nĂ€r den horisontella axeln spĂ€nde över nĂ€stan 50 olika vĂ€rden. Men om antalet vĂ€rden blir mycket större Ă€n sĂ„ blir staplarna för mĂ„nga för att fĂ„ plats pĂ„ bredden, eller för att diagrammet ska bli tydligt. I sĂ„dana fall kan vi rita ett histogram. Ett histogram Ă€r en variant av ett frekvens diagram. Det som Ă€r sĂ€rskiljer det Ă€r att varje stapel i diagrammet inte visar frekvensen av ett enda vĂ€rde, utan av ett intervall av vĂ€rden. Histogram: Frekvensdiagram dĂ€r varje stapel visar frekvensen av ett intervall av vĂ€rden. Ett exempel visas i figur 1.3, i form av ett histogram över BNP/capita i vĂ€rld ens lĂ€nder 2017. Dess första stapel visar frekvensen i intervallet 0â5,000 dollar, och sĂ„ vidare. Eftersom det inte finns tvĂ„ lĂ€nder med exakt samma BNP/capita, skulle ett vanligt frekvensdiagram inte fungera sĂ€rskilt bra hĂ€r. Det skulle bli nĂ€stan 200 staplar, och alla staplar skulle vara exakt lika höga: frekvensen 1. Med sĂ„ mĂ„nga vĂ€rden blir vi tvungna att kompromissa mellan detaljnivĂ„ och tydlighet i en grafisk framstĂ€llning. Histogrammet gör det. Det visar inte all information om exakt vilka vĂ€rden som finns. (I den meningen Ă€r det lite fel att presentera det under rubriken fullstĂ€ndiga redovisningar av fördelningar.) Men det ger en snabb och tydlig bild av hur fördelningen ser ut. Och all informationen om exakt vilken BNP/capita som varje land har, bryr vi oss nog inte sĂ„ mycket om Ă€ndĂ„. Kapitel 1. Byggstenar: variabler och fördelningarâïżœâ29
Joakim Ruist har arbetat med samhÀllsvetenskaplig forskning i mÄnga Är och Àr statistiklÀrare vid Göteborgs universitet.
Statistik och regression i praktiken
© F à R FA T T A R E N O C H S T U D E N T L I T T E R A T U R
Statistik Àr lÀran om osÀkra slutsatser. Den ger oss verktyg för att bedöma vilka slutsatser vi vÄgar uttala oss om, och hur sÀkert, i fall dÀr vi inte kan bli helt sÀkra. Vi anvÀnder statistik, ofta i form av regressionsanalys, för att besvara mÄnga typer av frÄgor inom olika omrÄden. Som universitetsstudent kan man pÄ kort tid lÀra sig att behÀrska alla statistikens och regressionens viktigaste delar. Men för det behövs ett fokus pÄ djupförstÄelse för grunderna, samt pÄ hur de statistiska verktygen kan göra som mest nytta i praktiken. Det Àr sÀllan fruktsamt, för detta ÀndamÄl, att grÀva ner sig i de teoretiska och matematiska detaljer som mÄnga studenter har bekymmer med. Statistik och regression i praktiken har detta fokus pÄ praktisk anvÀndbarhet och pÄ djupförstÄelse för de centrala delarna om hur man bedömer osÀkerhet, om svÄrigheterna i att tolka resultat, och om nyttan av regression som verktyg för att sammanfatta komplexa mönster. Den fokuserar ocksÄ konsekvent pÄ statistikens begrÀnsningar och vikten av att matematiska berÀkningar kompletteras med subjektiva vÀrderingar. Det finns sÀllan ett helt rÀtt sÀtt att utföra en analys eller att tolka dess resultat pÄ. Den som lÀser boken ska bli bÄde kompetent i att anvÀnda statistiska verktyg och ödmjuk inför deras begrÀnsningar. Statistik och regression i praktiken Àr en lÀrobok för grundkurser i statistik, men Àr med sitt grundliga och praktiska tilltal ocksÄ en bok att ta med sig till fortsÀttningsstudierna och kommande uppsatsarbeten.
Art.nr 40493
30âïżœâKapitel 1. Byggstenar: variabler och fördelningar
studentlitteratur.se