9789144134086 by Smakprov Media AB

Statistik och regression i praktiken JOAKIM RUIST

Kopieringsförbud Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares och studenters begränsade rätt att kopiera för undervisningsändamål enligt Bonus Copyright Access kopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, är e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Studentlitteratur har både digital och traditionell bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess.

Art.nr 40493 ISBN 978-91-44-13408-6 Upplaga 1:1 © Författaren och Studentlitteratur 2021 studentlitteratur.se Studentlitteratur AB, Lund Formgivning inlaga: Henrik Hast Ombrytning inlaga: Jesper Sjöstrand Formgivning omslag: Jens Martin Signalera Omslagsbild: Shutterstock Printed by Dimograf, Poland 2021

Innehåll

Inledning: Statistik i teori och praktik 9

1. Byggstenar: variabler och fördelningar 17 1.1 1.2

1.3

1.4 1.5 1.6

1.7

Variabler 19 Fördelningar 24 1.2.1 Fullständiga redovisningar av fördelningar 25 1.2.2 Sammanfattande redovisningar av fördelningar: deskriptiv statistik 30 1.2.3 Sannolikhetsfördelningar 40 Kombinationer av fördelningar (sannolikhetslära) 50 1.3.1 Kombinationer 51 1.3.2 Multiplikation och addition av andelar 60 1.3.3 Instuderingsuppgifter 65 1.3.4 Binomialfördelningen 72 Introduktion till och deskriptiv statistik i Excel 77 Introduktion till och deskriptiv statistik i Stata 84 Kontinuerliga (sannolikhets-)fördelningar 96 1.6.1 Att beskriva kontinuerliga fördelningar 100 1.6.2 Att beräkna sannolikheter i kontinuerliga fördelningar 106 Normalfördelningen 115 1.7.1 Formen hos kaos (centrala gränsvärdessatsen) 118 1.7.2 Beräkning av andelar av normalfördelningar 131

2. Medelvärden och urvalsosäkerhet 147 2.1 2.2 2.3

2.4

2.5

2.6

2.7

Introduktion till urval och urvalsosäkerhet 150 Samplingsfördelning för medelvärde 156 Exempel på samplingsfördelning och felmarginal 165 2.3.1 Populationen och samplingsfördelningen 166 2.3.2 Att konstruera en felmarginal 175 Samplingsfördelningar och konfidensintervaller generellt 191 2.4.1 Samplingsfördelningar för urvalsmedelvärden 192 2.4.2 Samplingsfördelningar för urvals T-kvoter 197 2.4.3 Att konstruera konfidensintervaller med T-fördelningen 208 2.4.4 Mer om T-fördelningar och osäkerhet 214 Signifikans och p-värden 219 2.5.1 Varför signifikans? 220 2.5.2 Att avgöra signifikans 223 2.5.3 P-värden 229 Att rapportera slumpmässig urvalsosäkerhet 246 2.6.1 Rapportera ”urvalsosäkerhet” när vi har data för hela populationen 252 Icke-slumpmässigt bortfall 254 2.7.1 Beskrivning av problemet 255 2.7.2 Förhållningssätt som utförare 258

3. Introduktion till sambandsanalys 267 3.1 3.2

3.3 3.4

Samvariation och orsakssamband 270 Att identifiera orsakssamband 274 3.2.1 Hur orsakssamband skapar samvariation 274 3.2.2 ”Säkra” sätt att identifiera orsakssamband: slumpen 291 3.2.3 Identifiera och ta hänsyn till utelämnade variabler 295 Analysens detaljnivå 297 Urvalsosäkerhet vid jämförelse av två medelvärden 301 3.4.1 Medelvärdesskillnader i Excel och Stata 305

4. Grundläggande regressionsanalys 309 4.1

Syfte, tolkning och utförande 312 4.1.1 Motiv för regression 314 4.1.2 Att tolka regressionsresultat 320 4.1.3 Prediktioner och residualer 325 4.1.4 Att bestämma regressionslinjens position 330 4.2 Osäkerhet vid regressionsanalys 340 4.2.1 Urvalsosäkerhet 340 4.2.2 Osäkerhet om matematisk funktion 345 4.2.3 Undersök regressionens passning manuellt 347 4.3 Regression och spridningsdiagram i Excel och Stata 353 4.4 Regression med flera oberoende variabler 361 4.4.1 Samvariation, orsakssamband och multivariat regression 363 4.4.2 Frisch-Waugh-Lovell-teoremet 371 4.4.3 Att arbeta praktiskt med multivariat regression 378 4.4.4 Instuderingsuppgifter bivariat och multivariat regression 383 4.5 Regressioners förklaringskraft 389 4.5.1 Att mäta förklaringskraft 389 4.5.2 Varianter av mått och ytterligare mått 404 4.5.3 Förklaringskraft i Excel och Stata 410 4.6 Att rapportera regressionsanalys 414 4.7 Icke-linjär regression 425 4.7.1 Polynomregression 425 4.7.2 Logaritm- och rottransformationer 436 4.7.3 Regression med skarpa hörn 443 4.8 Kategoriska variabler och dummyvariabler 445 4.8.1 Dummyvariabler 446 4.8.2 Flera kategorier än två 454 4.8.3 Dummyvariabler i Excel och Stata 464 4.8.4 Tillämpningar av dummies som ”kontrollvariabler” 468 4.9 Regression med interaktioner 472 4.9.1 Interaktioner mellan variabler 472 4.9.2 Att hantera interaktioner i regression 476 4.10 Stora möjligheter – och risker 494

5. Mer om osäkerhet 497 5.1

5.2

5.3 5.4 5.5

Avgränsning och osäkerhet 500 5.1.1 När signifikans-konventionen inte fungerar bra 501 5.1.2 Möjliga hanteringar 508 Outliers (extremvärden) 518 5.2.1 Definition och problembeskrivning 518 5.2.2 Hantering 521 Kraftig skevhet 527 5.3.1 Hantering 528 Korrelation och ”kollinearitet” 533 Heteroskedasticitet 538

6. Prediktion och modellbygge 543 6.1 6.2

Syfte och särart 546 Metoder för prediktion 551 6.2.1 Manuellt modellbygge 553 6.2.2 Helt eller delvis ”objektivt” modellbygge 560 6.2.3 Vad som är bäst 564

7. Mer avancerad regression 571 7.1

7.2

Kategorisk beroende variabel och oberoende på intervallskala 573 7.1.1 Nödvändigheten av icke-linjäritet 575 7.1.2 Probit- och logitregression för specifik icke-linjäritet 578 7.1.3 Tolkning och redovisning – och modellval 596 7.1.4 Probit- och logitregression i Stata 604 7.1.5 (Begränsade) interaktioner per konstruktion i probit- och logitregression 608 7.1.6 Beroende variabel med flera kategorier 610 Paneldata (och/eller difference-in-differences) 611 7.2.1 Modeller med differenser (FD) 613 7.2.2 Modeller med individuella dummies (FE) 625 7.2.3 Mindre viktigt: Sakers olika namn 632

7.3

7.4

Introduktion till tidsserieanalys 634 7.3.1 Tiden och slumpen 636 7.3.2 Långsiktiga trender 645 7.3.3 När förändringar tar ganska lång tid 656 7.3.4 Bestående effekter: random walks 666 7.3.5 Sammanfattning och saker som vi inte har nämnt 675 Ännu mer avancerad analys 677

Appendix: Register över kommandon, tillval och funktioner i Stata 679

I det här kapitlet presenteras grundläggande byggstenar och begrepp som vi behöver när vi arbetar med statistisk analys. När vi sätter igång med de första egentliga analyserna i kapitel 2 blir materialet ganska komplext. För att göra det enklare att ta till sig, genom att undvika att det då blir många saker som behöver förstås samtidigt, går vi först igenom de olika bygg stenarna i det här kapitlet. Vi arbetar inom statistiken med variabler och fördelningar. Ofta eller oftast arbetar vi med urval av begränsad storlek. Förhoppningsvis har dessa urval dragits slumpmässigt. Om de har det kan vi beräkna osäkerhetsnivån i våra analyser, om vi har en grundläggande förståelse för sannolikheter och – lite mer abstrakt – sannolikhetsfördelningar. Kapitlet lägger grunden till dessa begrepp och hur vi kan använda dem. Det ger också en introduktion till att arbeta med statistik i Excel och Stata.

1.1

Variabler

Att arbeta med statistik handlar på olika sätt om att analysera variation. Vi studerar hur mycket någonting varierar, vilka mönster vi ser i den variationen, vilka samband vi ser mellan hur olika saker varierar, och vad sådan samvaria tion eventuellt säger oss om orsak och verkan. Vi kan till exempel beskriva hur vikten varierar mellan olika människor, genom att ange hur mycket en genomsnittlig människa väger, samt olika mått på hur stor spridningen är runt det genomsnittet. Vi kan studera hur mycket mer eller mindre människor i genomsnitt väger om de dricker sockerfri jämfört med sockrad läsk. Och vi kan försöka dra slutsatser om vad det i så fall säger oss om vad det är som har orsakat viktskillnaden. De saker som kan variera – det vill säga som kan anta olika värden – i en 19

analys kallar vi för variabler. Exempelvis vilken vikt olika människor har, eller vilken typ av läsk de uppger att de dricker. Om det som vi studerar inte är människor utan till exempel länder, kan variabler vara saker som exempelvis invånarantal och bruttonationalprodukt. Variabel: Någonting som kan variera, det vill säga anta olika värden. De saker som variablerna kan variera mellan brukar vi kalla för individer. Oavsett vad de är för saker. De behöver alltså inte vara människor (vad vi brukar mena med individer i dagligt tal). Individer kan vara länder, kommuner, bakterier och så vidare. De individer som vi faktiskt observerar i en studie, det vill säga vars variabelvärden vi har uppgifter om, kallar vi för våra observationer.

Observationer: De individer som vi observerar i en studie, det vill säga vars variabelvärden vi har uppgifter om. Alla de observationer som vi observerar bildar tillsammans det urval som vi arbetar med. Urval: Den uppsättning av observationer som vi arbetar med. Slutligen brukar vi använda ordet datamaterial, eller dataset, eller bara data för att beskriva hela den informationsmängd som vi arbetar med i en studie. Det vill säga all information om alla värden på alla variabler hos alla observationer i urvalet. Datamaterial/dataset/data: Hela den informationsmängd som vi arbetar med i en studie.

Variabler på intervallskala Variabler kan vara många olika saker. Vissa kan bara anta ett fåtal olika värden, medan andra kan anta många. (Som lägst två. Det som bara kan anta ett värde, exempelvis antal hjärnor hos en levande människa, är motsatsen till en variabel: en konstant.) Vissa antar värden som är numeriskt relevanta och går att räkna på (exempelvis längd, vikt), andra inte (exempelvis kön, yrke). Variabeln vikt kan mätas i den numeriskt relevanta enheten kilogram. Då har den den viktiga egenskapen att den mäts på vad som kallas för intervall20 � Kapitel 1. Byggstenar: variabler och fördelningar

Individer: Det som en variabel varierar mellan.

skala. Det betyder att två steg (intervaller) som är lika långa på den skala som variabeln mäts på verkligen motsvarar två lika stora skillnader. Det är lika stor skillnad på 70 kg och 71 kg, som det är på 71 kg och 72 kg, och så vidare. Nästan alla variabler som mäts i form av en siffra framför en måttenhet (kilogram, kronor, meter, grader Celsius) är på intervallskala. Att en variabel är på intervallskala är en nödvändig förutsättning för att de flesta matematiska beräkningar som vi kan tänkas vilja utföra på den ska vara relevanta. Det gäller exempelvis beräkning av ett medelvärde. Om en person väger 75 kg och en annan 77 kg, kan vi beräkna att de två i genomsnitt väger 76 kg.

Intervallskala: En mätskala som innebär att två lika långa steg på skalan motsvarar två lika stora skillnader. Intervallskala är en förutsättning för att många matematiska beräkningar ska vara meningsfulla. Men låt oss anta att vi i stället hade mätt variabeln på ett annat sätt, genom att klassificera människors vikt i någon av de fyra kategorierna, det vill säga variabelvärdena underviktiga, normalviktiga, överviktiga och kraftigt överviktiga. Då hade samma variabel i stället varit på vad som kallas för ordinalskala. Namnet kommer av ordet ordna, eller ordning. Det går att rangordna de fyra värden som variabeln kan anta. Det vill säga det går att säga vad som är mer än vad. Men värdena är inte numeriskt relevanta, och det går inte att säga om två steg på den ordnade skalan är lika stora eller inte. Vi kan inte säga att skillnaden mellan underviktig och normalviktig är lika stor som den mellan överviktig och kraftigt överviktig. Vi kan därmed inte heller till exempel beräkna något meningsfullt medelvärde för variabeln, när den mäts på det sättet. I viktexemplet i inledningen hade vi också en variabel som vi kan kalla för typ av läsk. Låt oss säga att den kan anta tre olika värden. Alla människor kan uppge något av de tre värdena dricker sockrad läsk, dricker sockerfri läsk och dricker ingen läsk. Dessa värden är inte heller numeriskt relevanta. Och de går vidare inte ens att rangordna. Vi kan inte säga att något av dess tre värden är ”mer” eller ”mindre” än något av de andra. Den variabeln mäts alltså inte ens på ordinalskala. Vi säger att den mäts på nominalskala. Namnet kommer av ordet namn och betecknar att de olika värden som variabeln kan anta inte är mer än namn på olika kategorier. Det som är viktigt att ta med sig härifrån är distinktionen mellan numeriskt relevanta variabler på intervallskala och de övriga två. Distinktionen mellan ordinal- och nominalskala är sällan viktig. Men det är ändå bra att ha Kapitel 1. Byggstenar: variabler och fördelningar � 21

Kodbok: En lista på variabelvärden och vad varje värde står för. Men genom att variabeln kodas på det sättet – med ettor, tvåor och treor i stället för med text – blir det också fullt möjligt att säga till datorn att beräkna dess medelvärde. Den kanske då returnerar medelvärdet 1.73. Datorn har räknat rätt. Det är vi som måste ha koll på att det inte var en meningsfull beräkning. Siffran 1.73 betyder ingenting. Och den är helt godtycklig, eftersom de tre siffervärdena som variabeln kodades i är godtyckliga (och inte har någon enhet). Vi kunde lika gärna ha kodat de tre 22 � Kapitel 1. Byggstenar: variabler och fördelningar

observerat den, för att se att variabler kan vara olika nära att nå upp till vad som krävs för att vi ska kunna utföra meningsfulla numeriska beräkningar på dem, men ändå utan att nå ända fram. Det finns också gränsfall, där det inte är helt uppenbart hur en variabels mätskala ska klassificeras. Ett enkelt exempel är en variabel som består av att någonting har värderats eller poängsatts på en skala, exempelvis 1–5 eller 0–10. Om vi i en undersökning har bett människor att betygsätta regeringens arbete på skalan 1 – 5, tycker vi då att varje steg på skalan är lika långt? Och bör vi se det som relevant information exempelvis att personerna i undersökningen i genomsnitt gav betyget 3.6? De flesta av oss vill nog svara ett i alla fall nästan klart ja på de frågorna. Vi tycker nog helt klart att genomsnittet 3.6 ger relevant information. (Tänk bara på de miljontals internetsidor som rapporterar sådana medelbetyg för olika varor, filmer etc.) Men vi ser också att det skaver lite. Om personerna A, B och C har satt betygen 2, 3 respektive 4, tycker vi kanske inte att det är 100 procent rätt att säga att ”C gillar regeringen lika mycket mer än B, som B gillar den mer än A”. Oftast hanterar vi i alla fall sådana här variabler som att de är på intervallskala. Vi kanske inte tycker att det är helt 100 procent rätt. Men vi tycker att det är tillräckligt nära för att ändå vara meningsfullt. Ett ganska vanligt fel bland nybörjare i statistisk analys är att tro att man kan utföra matematiska beräkningar, till exempel av ett medelvärde, bara för att en variabel har kodats i sifferform i ett dataset. När vi konstruerar ett dataset där variabelvärdena är flera ord långa, som i exemplet med typ av läsk ovan, brukar vi inte skriva ut dessa långa textsträngar gång på gång i datan. I stället skapar vi då en kodbok, där vi anger exempelvis att siffran 1 betyder dricker sockrad läsk, 2 betyder dricker sockerfri läsk, och 3 betyder dricker ingen läsk. Och så fyller vi datasetet med ettor, tvåor och treor i stället för med textsträngar.

variabelvärdena med siffrorna 10, 30 och 80, vilket hade givit ett helt annat medelvärde. (Du tycker kanske att detta låter för självklart för att behöva nämnas. Men många studenter får ändå för sig att beräkna saker som genomsnittlig födelseort, så det kan vara värt att understryka.)

Variabler på kvotskala För att de flesta beräkningar som vi utför i statistisk analys ska vara relevanta, räcker det att variabler mäts på intervallskala. Men ibland krävs det en ännu högre nivå. Om vi vill kunna uttala oss inte bara om skillnader, utan också om relativa skillnader – eller procentuella skillnader – i en variabel, räcker det inte att variabeln mäts på intervallskala. Då krävs det att den mäts på kvotskala. Det innebär att den, i tillägg till att vara på intervallskala, också har en relevant nollpunkt. Det vill säga att värdet 0 på skalan verkligen betyder ”ingenting”. Då blir inte bara skillnader, utan också kvoter, mellan två variabelvärden numeriskt relevanta. Som att det ena är dubbelt så stort som det andra. Kvotskala: En mätskala som innebär att både skillnader och kvoter mellan två variabelvärden är numeriskt relevanta. De allra flesta variabler som är på intervallskala är också på kvotskala. Ett exempel på ett undantag är temperatur mätt i grader Celsius eller grader Fahrenheit. Dessa mätskalors nollpunkter betyder inte ”ingenting”. Om det var 5 grader Celsius utomhus i går och det är 10 grader i dag, är det nonsens att säga att ”det är dubbelt så varmt i dag som det var i går”. Det vill säga att uttala oss om den relativa skillnaden i temperatur baserat på Celsiusskalan. Temperatur mätt i Kelvin är däremot på kvotskala, eftersom dess värde 0 motsvarar den absoluta fysikaliska nollpunkten. Det är också därför som det inte heter ”grader Kelvin”, utan bara Kelvin.

Ett annat exempel: Även om vi tycker att det känns godkänt att betrakta ett betyg på skalan 1–5 som på intervallskala, bör vi definitivt inte betrakta det som på kvotskala. Att i sifferexemplet ovan säga att ”C (betyget 4) gillar regeringen dubbelt så mycket som A (betyget 2) gör” blir nonsens. Skalans nollpunkt betyder inte ”ingenting” (och det gäller oavsett om siffran 0 ingår i betygskalan eller inte).

Kapitel 1. Byggstenar: variabler och fördelningar � 23

Struktur på datamaterial När vi dokumenterar ett datamaterial – antingen i ett datorprogram eller med papper och penna – följer vi alltid konventionen att låta varje rad representera en observation och varje kolumn en variabel. Detta då observationerna nästan alltid är (många) fler än variablerna, och det är lättare för oss att scrolla eller bläddra nedåt än sidledes. Ett exempel på hur ett mycket litet datamaterial från vårt läsk- och viktexempel skulle kunna se ut visas i tabell 1.1.

Vikt (kg)

Typ av läsk

1 2 3 4

70 62 81 70

1 2 3 1

5 6

52 95

2 2

De sex observationerna i tabell 1.1 har tilldelats identifikationsnummer (ID). Det är vanligt att vi gör så, när vi inte vet vad observationerna heter. Om observationerna exempelvis är kommuner eller företag, vet vi oftast vad de heter och kan skriva ut det i en variabel. När de är människor vet vi det ofta inte. Då ger vi dem ofta nummer i stället, för att kunna identifiera och hänvisa till dem i beräkningar. I det här lilla datasetet har variabeln typ av läsk kodats i sifferform. Vi kompletterar då datasetet med en kodbok som förklarar vad de olika siffrorna representerar.

1.2

Fördelningar

I statistisk analys analyserar vi hur värdena hos en eller flera variabler varierar mellan observationerna i ett urval. Det vill säga hur observationerna fördelar sig över olika variabelvärden, eller med andra ord, hur vanliga olika variabelvärden är i urvalet. Ofta uttrycker vi det som att vi studerar variabelns fördelning i urvalet.

24 � Kapitel 1. Byggstenar: variabler och fördelningar

Tabell 1.1 Datamaterial bestående av 6 observationer.

En variabels fördelning: En förteckning över alla värden hos en variabel som förekommer i ett urval och hur många gånger varje värde förekommer. Ett annat sätt att säga det är med vilken frekvens varje variabelvärde förekommer. Frekvens betyder ”antal gånger”. (I fysikaliska sammanhang som du kanske är mer bekant med – som ljud- eller radiovågor – och ofta i dagligt tal, betyder frekvens antal gånger per tidsenhet. Men inom statistik betyder det bara antal gånger.) Frekvens: Antal gånger.

1.2.1

Fullständiga redovisningar av fördelningar

En beskrivning av hur en variabels fördelning i ett urval ser ut kan vara fullständig eller sammanfattande. Vi ska gå igenom dessa i tur och ordning och vi börjar med de fullständiga.

Frekvenstabeller Vi kan göra en fullständig beskrivning av en variabels fördelning i en frekvenstabell. I en sådan anges på varje rad ett möjligt värde som variabeln kan anta, samt det värdets frekvens, det vill säga hur många observationer i urvalet som antar just det värdet. Utifrån det lilla datamaterialet i tabell 1.1, skulle en frekvenstabell för variabeln vikt se ut som i tabell 1.2 och en för variabeln typ av läsk som i tabell 1.3. Tabell 1.2 Frekvenstabell för vikt. Vikt (kg)

52 62 70 81 95

Frekvens

1 1 2 1 1

Kapitel 1. Byggstenar: variabler och fördelningar � 25

Tabell 1.3 Frekvenstabell för typ av läsk. Typ av läsk

Frekvens

2 3 1

Notera skillnaden mellan hur variabeln typ av läsk hanteras i tabellerna 1.1 och 1.3. I tabell 1.1 är den kodad i siffror och i tabell 1.3 är siffrornas innebörder utskrivna. Skillnaden beror på att tabell 1.1 representerar ett datamaterial som har dokumenterats på ett papper eller i en dator för att användas i statistisk analys. Då använder vi ofta sifferkoder. Men frekvenstabellen i tabell 1.3 representerar resultatet av en analys, som skulle kunna skrivas ner i en rapport som ska läsas av andra. Då skriver vi ut det som vi och våra läsare faktiskt är intresserade av. Rapportens läsare är helt ointresserade av vår godtyckliga kodbok. Tabellerna 1.2 och 1.3 var två exempel på envägs frekvenstabeller, det vill säga där varje tabell redovisade fördelningen av endast en variabel. Vi kan också göra tvåvägs frekvenstabeller, där vi redovisar frekvenser för varje möjlig kombination av två variabler (kombinationer av flera variabler än två klarar vi inte med ett tvådimensionellt verktyg). Hur det skulle se ut i samma exempel visas i tabell 1.4. Tabell 1.4 Tvåvägs frekvenstabell. Typ av läsk: Vikt (kg)

52 62 70 81 95

Dricker sockrad läsk

Dricker sockerfri läsk

Dricker ingen läsk

0 0 2 0 0

1 1 0 0 1

0 0 0 1 0

Att redovisa fördelningar i frekvenstabeller fungerar bra när antalet möjliga värden som en variabel (eller två) kan anta är relativt litet. Men när en variabel kan anta många olika värden blir en sådan tabell stor och jobbig att läsa. Vi vill inte läsa en tabell med 30 rader, och ännu mindre en med 200. Och även om vi tvingar oss till att läsa den, är det svårt att ta in och få en 26 � Kapitel 1. Byggstenar: variabler och fördelningar

Dricker sockrad läsk Dricker sockerfri läsk Dricker ingen läsk

överblick över vilka mönster som finns i en så stor mängd siffror. Frekvens tabeller bör därför i normalfallet inte användas när antalet möjliga värden är mycket större än i exemplen här. Däremot är varje värdes frekvens nästan alltid betydligt större än i det här lilla exemplet. Med så få observationer som vi hade nu, var det faktiskt lättare att läsa hela ursprungsdatan i tabell 1.1, än den tvåvägs frekvens tabellen i tabell 1.4. Men det hade varit helt annorlunda med hundratals eller tusentals, eller redan vid tjugo, observationer.

Frekvensdiagram När antalet möjliga värden är större, har vi desto större nytta av att använda grafik. Det bör vi göra ofta. Vår förmåga att ta till oss information om mönster är långt större om dessa redovisas grafiskt än om de redovisas i tabellform. Den förmågan bör vi använda oss av så mycket som möjligt i allt vårt arbete. Grafik bör användas mycket när vi arbetar med statistik. Det innebär just nu att rita frekvensdiagram. Ett sådant innehåller samma information som en frekvenstabell. Men i stället för att ett värdes frekvens representeras av en siffra i en tabellkolumn, representeras den av höjden av en stapel i ett diagram. Vi ska inte rita frekvensdiagram när de inte tillför något. Att redovisa informationen i tabell 1.2 i ett frekvensdiagram blir bara löjligt. Vi behöver inte grafiskt stöd för att ta till oss vilka ”mönster” som finns i de endast 5 raderna i den tabellen. Då är det bättre med en tabell, för den tar mindre plats. (Och – skulle man kunna säga – den nedvärderar inte läsaren genom att antyda att hen behöver grafiskt stöd för att ta till sig så lite information.) Men när frekvensdiagram kan tillföra något bör vi rita dem. Vi kan exempelvis vilja redovisa längdfördelningen bland kvinnor i åldern 20–50 år i USA. För det syftet har vi ett urval av 500 kvinnor från National Health and Nutrition Examination Survey 1997. Deras längder fördelar sig mellan 136 och 182 cm. En frekvenstabell med alla de värdena skulle bli obekvämt lång, och det skulle ta oss en stund att processa den och föreställa oss vilka mönster den representerade. Om vi då i stället ritar ett frekvensdiagram vinner vi dels att vi sparar utrymme, men framför allt att det då går sekundsnabbt för oss att ta till oss Kapitel 1. Byggstenar: variabler och fördelningar � 27

140

150

160 längd (cm)

170

180

Figur 1.1 Längdfördelning hos 500 kvinnor i åldern 20–50 år i USA.

Beroende på sammanhanget är vi ibland mest intresserade av att redovisa en fördelning med faktiska frekvenser, som i figur 1.1, och ibland av att fokusera på variabelns procentuella fördelning, det vill säga fördelning av andelar. Då visar vi på den vertikala axeln, inte hur många gånger ett värde förekommer, utan vilken andel av alla observationer som antar just det värdet. Detta visas för samma datamängd i figur 1.2. Det är alltså exakt samma fördelning som i figur 1.1, men med en annan skala på den vertikala axeln. Notera redan nu att om vi adderar höjderna på alla staplarna i figur 1.2 blir summan exakt 100 procent, eftersom alla andelar tillsammans måste bli lika med helheten 100 procent. Det kommer vi att återkomma till flera gånger i olika former. (Och om vi adderar höjderna på alla staplarna i figur 1.1 blir summan det totala antalet observationer: 500.)

28 � Kapitel 1. Byggstenar: variabler och fördelningar

Frekvens 20

vilka mönster som finns i fördelningen. Det kan vi lätt bekräfta genom att titta ett par sekunder på just det diagrammet, som visas som figur 1.1. Vi kan till och med avgöra variabelns medelvärde i fördelningen med hyfsat god precision, bara genom en ganska snabb titt på diagrammet. Det hade inte gått i närheten av lika snabbt med en frekvenstabell.

8 6 Andel (%) 4 2 0

140

150

160 längd (cm)

170

180

Figur 1.2 Procentuell längdfördelning hos 500 kvinnor i åldern 20–50 år i USA.

Histogram Om vi vill redovisa fördelningen hos en variabel som bara antar ett fåtal olika värden i ett urval är det lämpligt med en frekvenstabell. Med en variabel som kan anta flera värden är det bättre med ett frekvensdiagram. Vi såg precis att ett sådant diagram blev tydligt och bra också när den horisontella axeln spände över nästan 50 olika värden. Men om antalet värden blir mycket större än så blir staplarna för många för att få plats på bredden, eller för att diagrammet ska bli tydligt. I sådana fall kan vi rita ett histogram. Ett histogram är en variant av ett frekvens diagram. Det som är särskiljer det är att varje stapel i diagrammet inte visar frekvensen av ett enda värde, utan av ett intervall av värden. Histogram: Frekvensdiagram där varje stapel visar frekvensen av ett intervall av värden. Ett exempel visas i figur 1.3, i form av ett histogram över BNP/capita i värld ens länder 2017. Dess första stapel visar frekvensen i intervallet 0–5,000 dollar, och så vidare. Eftersom det inte finns två länder med exakt samma BNP/capita, skulle ett vanligt frekvensdiagram inte fungera särskilt bra här. Det skulle bli nästan 200 staplar, och alla staplar skulle vara exakt lika höga: frekvensen 1. Med så många värden blir vi tvungna att kompromissa mellan detaljnivå och tydlighet i en grafisk framställning. Histogrammet gör det. Det visar inte all information om exakt vilka värden som finns. (I den meningen är det lite fel att presentera det under rubriken fullständiga redovisningar av fördelningar.) Men det ger en snabb och tydlig bild av hur fördelningen ser ut. Och all informationen om exakt vilken BNP/capita som varje land har, bryr vi oss nog inte så mycket om ändå. Kapitel 1. Byggstenar: variabler och fördelningar � 29

Joakim Ruist har arbetat med samhällsvetenskaplig forskning i många år och är statistiklärare vid Göteborgs universitet.

Statistik och regression i praktiken

Statistik är läran om osäkra slutsatser. Den ger oss verktyg för att bedöma vilka slutsatser vi vågar uttala oss om, och hur säkert, i fall där vi inte kan bli helt säkra. Vi använder statistik, ofta i form av regressionsanalys, för att besvara många typer av frågor inom olika områden. Som universitetsstudent kan man på kort tid lära sig att behärska alla statistikens och regressionens viktigaste delar. Men för det behövs ett fokus på djupförståelse för grunderna, samt på hur de statistiska verktygen kan göra som mest nytta i praktiken. Det är sällan fruktsamt, för detta ändamål, att gräva ner sig i de teoretiska och matematiska detaljer som många studenter har bekymmer med. Statistik och regression i praktiken har detta fokus på praktisk användbarhet och på djupförståelse för de centrala delarna om hur man bedömer osäkerhet, om svårigheterna i att tolka resultat, och om nyttan av regression som verktyg för att sammanfatta komplexa mönster. Den fokuserar också konsekvent på statistikens begränsningar och vikten av att matematiska beräkningar kompletteras med subjektiva värderingar. Det finns sällan ett helt rätt sätt att utföra en analys eller att tolka dess resultat på. Den som läser boken ska bli både kompetent i att använda statistiska verktyg och ödmjuk inför deras begränsningar. Statistik och regression i praktiken är en lärobok för grundkurser i statistik, men är med sitt grundliga och praktiska tilltal också en bok att ta med sig till fortsättningsstudierna och kommande uppsatsarbeten.

Art.nr 40493

30 � Kapitel 1. Byggstenar: variabler och fördelningar

studentlitteratur.se