9789152327821 by Smakprov Media AB

Kar l Wah li n

Till채mpad statistik en grundkurs

Sanoma Utbildning Postadress: Box 30091, 104 25 Stockholm Besöksadress: Alströmergatan 12, Stockholm Hemsida: www.sanomautbildning.se E-post: info@sanomautbildning.se Order/Läromedelsinformation Telefon 08-587 642 10 Telefax 08-587 642 02

Redaktör/projektledare: Kristoffer Edshage Grafisk form: Leif Andersson Omslag: Leif Andersson

Kopieringsförbud! Detta verk är skyddat av lagen om upphovsrätt. Kopiering utöver lärares rätt att kopiera för undervisningsbruk enligt BonusPresskopias avtal, är förbjuden. Sådant avtal tecknas mellan upphovsrättsorganisationer och huvudman för utbildningsanordnare, t.ex. kommuner/universitet. För information om avtalet hänvisas till utbildningsanordnares huvudman eller BonusPresskopia. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman/rättsinnehavare. Printed in Latvia by Livonia Print Riga 2015

fö r o r d

Förord Tillämpad statistik är är ett komplett läromedel för grundkurser i til�lämpad statistik på högskolenivå. Boken är sprungen ur välbeprövade föreläsningsmaterial från grundkurser i statistik för civilekonomer, statsvetare och statistiker. Tillämpad statistik skiljer sig från befintliga läromedel för grundkurser i statistik genom en ny pedagogisk struktur. Boken är uppbyggd kring frågorna ”varför”, ”när” och ”hur”: varje metod som behandlas i boken förankras i praktiska tillämpningar, för att läsaren hela tiden ska förstå varför metodiken behövs, och få lättbegripliga exempel hämtade från samhällsvetenskap och ekonomi att hänga upp den på. Mycket fokus ligger på att få läsaren att förstå när respektive metod är tillämplig, detta genom att beskrivningen av varje metodik tydligt föregås av vilka antaganden som måste uppfyllas för att den ska vara giltig. Slutligen visas det genom både teori och exempel på hur metodiken används. Varje metodik har brutits ned i mindre delar, för att göra den enklare att förstå och för att studenten ska kunna lösa problemen steg för steg. Tillämpad statistik ska inte bara fungera på högskolekursen, utan även följa med sin ägare ut i arbetslivet som en handbok i statistiska metoder. Därför ges alla statistiska termer även på engelska, vilket ökar läsarens statistiska allmänbildning och underlättar förståelsen av annan (engelskspråkig) statistiklitteratur. Dessutom ges genom hela boken rekommendationer om inom vilka statistiska områden som den intresserade läsaren kan finna mer information om den aktuella metodiken. Detta ökar läsarens statistiska allmänbildning, väcker nyfikenhet och visar på statistikämnets bredd. Tillämpad statistik är rikt illustrerad: figurer i form av diagram lägger en väsentlig grund för förståelsen och är även en viktig del i det pedagogiska upplägg som genomsyrar boken. För denna andra upplaga har fokus legat på att klargöra och förtydliga. Tack till studenter och kollegor som kommit med synpunkter på den första upplagan! Texten har granskats av Lars Valter. Stort tack till dig, Lasse! karl wahlin Linköping i februari 2015 3

i n n e h å ll

Innehåll Kapitel 1. Inledning ............................... 8

Kapitel 3. Sannolikhetsteori ........ 47

1.1 Varför behöver man kunna statistik? ....... 8

3.1 Mängdlära ............................................................ 47

1.2 Matematisk statistik och tillämpad statistik ......................................................................... 9

3.1.1 Utfallsrum och händelser .............................. 47 3.1.2 Snitt ................................................................... 49

1.3 Om denna bok .................................................... 10

3.1.3 Union ................................................................. 50

Övningsuppgifter ...................................................... 10

3.1.4 Disjunkta händelser ........................................ 51 3.1.5 Oberoende händelser . .................................. 52

Kapitel 2. Populationer, stickprov och variabler....................... 11

3.1.6 Skillnad mellan disjunkta och . oberoende händelser . .............................................. 52

2.1 Populationer och stickprov ........................... 11

3.2 Kombinatorik ...................................................... 53

2.1.1 Population ........................................................ 11

3.2.1 Multiplikationsprincipen . ............................... 54

2.1.2 Stickprov ........................................................... 12

3.2.2 Kombinationer utan återläggning ................ 55

2.1.3 Statistisk inferens ........................................... 13

3.2.3 Kombinationer med återläggning ................ 56

2.2 Variabler ................................................................ 13

3.2.4 Permutationer utan återläggning ................. 57

2.2.1 Att åskådliggöra fördelningen. för en kvalitativ variabel ............................................ 14

3.2.5 Permutationer utan återläggning . när vissa element är lika ........................................... 58

2.2.2 Att åskådliggöra fördelningen . för en diskret kvantitativ variabel ............................ 18

3.2.6 Permutationer med återläggning ................. 59

2.2.3 Att åskådliggöra fördelningen . för en kontinuerlig kvantitativ variabel ................... 19

3.3 Sannolikhetslära ............................................... 60 3.3.1 Definition av sannolikhetsbegreppet .......... 61

2.2.4 Andra typer av diagram för en . variabels fördelning ................................................... 21

3.3.2 Regler för sannolikheter ................................ 61

2.2.5 Skalor ................................................................ 22

3.3.4 Odds . ................................................................ 63

2.3 Beskrivande mått för kvalitativa variabler ........................................................................ 24

3.4 Räknemetoder för sannolikheter ............... 65

2.3.1 Lägesmått ......................................................... 24 2.4 Beskrivande mått för kvantitativa variabler ........................................................................ 25 2.4.1 Lägesmått ......................................................... 25 2.4.2 Spridningsmått ................................................ 33 2.5 Standardvägning ............................................... 39 Övningsuppgifter ...................................................... 42

3.3.3 Relativa frekvenser ......................................... 62

3.4.1 Additionssatsen för disjunkta händelser ... 65 3.4.2 Additionssatsen för icke disjunkta . händelser ..................................................................... 66 3.4.3 Multiplikationssatsen för oberoende . händelser ..................................................................... 67 3.4.4 Betingad sannolikhet ..................................... 68 3.4.5 Multiplikationssatsen för beroende. händelser ..................................................................... 70

i n n e håll

3.4.6 Satsen om total sannolikhet ......................... 71

5.2.1 Övertäckning ................................................... 130

3.4.7 Bayes sats . ...................................................... 73

5.2.2 Undertäckning ................................................. 130

3.5 Att undersöka oberoende mellan två händelser ..................................................................... 75

5.2.3 Replikat ............................................................. 131

Övningsuppgifter ...................................................... 76

Kapitel 4. Sannolikhetsfördelningar ..................................................... 81 4.1 Slumpvariabler ................................................... 81 4.1.1 Beskrivande mått för en slumpvariabel ...... 81 4.1.2 Linjära variabeltransformationer av . slumpvariabler ............................................................ 84 4.2 Diskreta sannolikhetsfördelningar ........... 85 4.2.1 Binomialfördelning .......................................... 85 4.2.2 Hypergeometrisk fördelning ......................... 90

5.2.4 Bortfall ............................................................... 131 5.3 Väntevärdesriktiga skattningar . ................. 132 5.3.1 Stickprovsmedelvärde ................................... 133 5.3.2 Stickprovsvarians och stickprovs-. standardavvikelse ...................................................... 134 5.3.3 Stickprovsandel .............................................. 134 5.3.4 Fler egenskaper hos stickprovs-. statistikorna . ............................................................... 135 5.3.5 Effektiva skattningar ....................................... 137 5.4 Samplingfördelningar ..................................... 138 5.5 Stickprovsdimensionering ............................ 147 Övningsuppgifter ...................................................... 148

4.2.3 Poissonfördelning ........................................... 94 4.2.4 Geometrisk fördelning ................................... 98 4.3 Kontinuerliga sannolikhetsfördelningar ................................................................ 101 4.3.1 Täthetsfunktion ................................................ 101 4.3.2 Normalfördelning ............................................ 103 4.3.3 Normalfördelningsapproximation av . binomialfördelning ..................................................... 114

Kapitel 6. Inferens om en population .......................................................... 153 6.1 Konfidensintervall för populationsmedelvärde . ................................................................ 153 6.1.1 Dubbelsidiga konfidensintervall . ................. 154 6.1.2 Enkelsidiga konfidensintervall ...................... 157

4.3.4 Andra vanliga kontinuerliga . fördelningar ................................................................. 117

6.2 Konfidensintervall för populationsandel .............................................................................. 158

Övningsuppgifter ...................................................... 119

6.2.1 Dubbelsidiga konfidensintervall . ................. 159 6.2.2 Enkelsidiga konfidensintervall ...................... 160

Kapitel 5. Stickprovsteori ............... 127 5.1 Metoder för stickprovsdragning ................. 127 5.1.1 Obundet slumpmässigt urval ....................... 127 5.1.2 Stratifierat urval ............................................... 128 5.2 Felkällor vid stickprovsdragning ................ 129

6.3 Hypotesprövning för populationsmedelvärde . ................................................................ 161 6.4 Hypotesprövning för populationsandel .............................................................................. 166 6.5 Om populationens standardavvikelse är känd ...................................................... 169

i n n e h å ll

6.5.2 Enkelsidiga konfidensintervall ...................... 170

Kapitel 8. Inferens om en ändlig population ...................................... 210

6.5.3 Hypotesprövning . ........................................... 171

8.1 Urval från ändliga populationer .................. 210

6.6 Hypotesprövning med p-värde .................... 173

8.1.1 Konfidensintervall för populations-. medelvärde ................................................................. 210

6.5.1 Dubbelsidiga konfidensintervall . ................. 169

6.7 Relation mellan konfidensintervall och hypotesprövning .............................................. 178 6.8 Feltyper och styrka ........................................... 179

8.1.3 Konfidensintervall för populationsandel . ... 213

Övningsuppgifter ...................................................... 180

8.1.4 Konfidensintervall för totalt antal ................. 214

Kapitel 7. Jämförelse av två populationer .................................................... 186

8.2 Stratifierat urval ................................................. 215 8.2.1 Konfidensintervall för populations-. medelvärde ................................................................. 215 8.2.2 Konfidensintervall för populationsandel . ... 218

7.1 Konfidensintervall för jämförelse av populationsmedelvärden ...................................... 186

8.3 Allokering ............................................................. 219

7.1.1 Dubbelsidiga konfidensintervall ................... 187

8.3.1 Lika allokering .................................................. 219

7.1.2 Enkelsidiga konfidensintervall . ..................... 188

8.3.2 Proportionell allokering .................................. 219

7.2 Konfidensintervall för jämförelse av populationsandelar ................................................. 189

8.3.3 Neymanallokering ........................................... 220

7.2.1 Dubbelsidiga konfidensintervall ................... 189

Övningsuppgifter ...................................................... 224

7.2.2 Enkelsidiga konfidensintervall . ..................... 191 7.3 Hypotesprövning för jämförelse av populationsmedelvärden ...................................... 192

8.3.4 Optimal allokering . ......................................... 222

Kapitel 9. Samband mellan kvalitativa variabler ................................ 230

7.4 Hypotesprövning för jämförelse av populationsandelar ................................................. 195

9.1 Analys av frekvenstabeller ............................ 230

7.5 Om populationsstandardavvikelserna är kända ........................................................................ 198

9.3 Analys av korstabeller . ................................... 236

7.5.1 Dubbelsidiga konfidensintervall ................... 198

9.2 Korstabeller ......................................................... 234

9.3.1 Chitvåtest ......................................................... 236 9.3.2 Sammanslagning ............................................ 240

7.5.2 Enkelsidiga konfidensintervall . ..................... 198

9.3.3 Fishers exakta test . ........................................ 241

7.5.3 Hypotesprövning ............................................. 199

9.3.4 Jämförelse av andelar .................................... 242

7.6 Parvisa jämförelser ........................................... 200

Övningsuppgifter ...................................................... 245

7.7 Relation mellan konfidensintervall och hypotesprövning .............................................. 203 Övningsuppgifter ...................................................... 204

8.1.2 Konfidensintervall för totalmängd ............... 212

Kapitel 10. Samband mellan kvantitativa variabler ............................ 250

i n n e håll

10.1 Variabelroller .................................................... 251

Hansen-Hurvitz bortfallsplan ................................... 309

10.2 Spridningsdiagram . ....................................... 251

Substitution . ............................................................... 310

10.3 Korrelationskoefficienten ........................... 253

Kodning ........................................................................ 310

10.4 Enkel linjär regression ................................. 255

Frågor med endast ett tillåtet svarsalternativ ...... 310

10.4.1 Prognosticering ............................................ 257

Frågor med flera tillåtna svarsalternativ ................ 311

10.4.2 Förklaringsgrad ............................................. 259

Öppna frågor .............................................................. 312

10.4.3 Residualanalys .............................................. 260

Kodning av partiellt bortfall ...................................... 313

10.4.4 Hypotesprövning av lutningsparametern .... 263

Statistisk bearbetning . .......................................... 314

10.4.5 Konfidensintervall för lutningsparametern . . 268

Att skriva en statistisk rapport ........................... 315

10.4.6 Intervall för prognosticering ....................... 269

Sammanfattning: Att genomföra en enkätundersökning ........................................... 316

10.4.7 Enkel linjär regression i datorn .................. 270 10.4 Introduktion till multipel linjär regression 272 Övningsuppgifter ...................................................... 280

Appendix B. Tabeller ............................. 318 Normalfördelningstabell (negativa värden) ..... 318 Normalfördelningstabell (positiva värden) . ..... 319

Kapitel 11. Ickeparametriska metoder ................................................................ 287

t-tabell (negativa värden) ..................................... 320

11.1 Mann-Whitneys test . ..................................... 287

t-tabell (positiva värden) ....................................... 321

11.2 Teckentest .......................................................... 292

Chitvåtabell ................................................................. 322

11.3 Wilcoxons teckenrangtest .......................... 295

Tabell över kritiska värden för Mann-Whitneys test ................................................ 323

11.4 Spearmans rangkorrelation ....................... 299 Övningsuppgifter ...................................................... 301

Tabell över kritiska värden för Wilcoxons teckenrangtest .................................... 324

Kapitel 12. Avslutning ......................... 304

Appendix C. Formelsamling ........ 325

Övningsuppgifter ...................................................... 304

Appendix A. Om enkäter och enkätkonstruktion ................................... 305

Svensk-engelsk ordlista .................. 338 Lösningsförslag .......................................... 345

Förberedelser . ........................................................... 305 Enkätkonstruktion ................................................... 306

Sakregister ....................................................... 420

Bortfallshantering .................................................... 308

k a p i t e l 1 / i n le d n i n g

Kapitel 1. Inledning 1.1 Varför behöver man kunna statistik? Statistik är vetenskapen om att fatta beslut utan fullständig information. Besluten baseras på sifferunderlag och inom snart sagt alla samhällsområden läggs stora resurser på att samla in information som består av siffror: Miljöräkenskaper

Finansmarknad Jord- och skogsbruk

Arbetsmarknad Priser

Konsumtion

Demokrati

Boende

Energiproduktion Skatter Inflation

Omsättning

Transporter och kommunikationer Levnadsförhållanden

Befolkning

e-handel

Livsmedelsförsäljning

Kriminalvård

Investeringar

BNP

Statsskuld

Materialflöden Hälso- och sjukvård Utbildning

Fiske

Byggande

Inköpsvanor Rättsväsende Samhällets kulturutgifter

Prisindex

Börskurser

Vad gör man då med alla dessa siffror eller data, som statistikern hellre säger? Jo, här kommer statistiken in! Bland annat används statistiska 8

kap ite l 1 / i n le d n i n g

metoder för att samla in data så kostnadseffektivt och korrekt som möjligt. Men statistikens viktigaste uppgift är att plocka fram den information som data innehåller. Detta görs genom kloka val ur den verktygslåda av statistiska metoder som denna bok ger en introduktion till. Informationen kan sedan användas för att besvara viktiga frågor eller ligga till grund för beslut. Exempel på frågor som man kan besvara med statistikens hjälp är: l Vad är de genomsnittliga kostnaderna för transporter bland svenska hushåll? l Finns det någon skillnad i dessa kostnader gentemot hushåll i övriga nordiska länder? l Hur mycket har genomsnittstemperaturen stigit sedan industrialiseringen? l Hur stor är skillnaden i genomsnittliga sjukskrivningskostnader per företag mellan olika branscher? l Vad är sannolikheten för att generalindex kommer att stiga imorgon? Denna mängd av frågeställningar är också anledningen till att man på högskola och universitet nästan oavsett utbildningsprogram läser statistik: under er utbildnings gång kommer ni att märka att statistiken kommer in i de flesta kurser ni läser, vilket i sin tur kommer sig av att väldigt många vetenskapliga metoder baseras på statistik. Goda statistiska kunskaper lägger därför grunden för er framtida karriär!

1. 2 Matematisk statistik och tillämpad statistik Vetenskapen statistik kan delas upp i två grenar: matematisk statistik och tillämpad statistik. Inom den matematiska statistiken är man inriktad mot den matematik som statistiken baseras på. Man utvecklar och förbättrar statistiska 9

k a p i t e l 1 / i n le d n i n g

metoder. I den mån man söker tillämpningar handlar det ofta om matematiskt tunga områden såsom fysik eller genetik. Inom den tillämpade statistiken använder man statistiska metoder för att beskriva omvärlden, från att samla in data till att använda data för att söka efter samband, göra jämförelser och dra slutsatser. Problemområdena är vitt skilda: det handlar om allt ifrån nationalekonomiska problemställningar till att prognosticera valresultat eller modellera halten av föroreningar i vattendrag.

1.3 Om denna bok Denna bok utgör en grundkurs i tillämpad statistik, med särskild fokus på den statistik som samhällsvetare och ekonomer behöver. Boken innehåller dessutom smakprov på många statistiska metoder som man kan stöta på i sin framtida yrkesutövning samt rekommendationer för fortsatt läsning för den intresserade. I slutet av boken finns en svensk-engelsk ordlista med de statistiska termer som används i boken. Detta hjälper till att öka den statistiska allmänbildningen och underlättar för fortsatta studier. Hänvisningar ges där så är relevant till olika områden inom den statistiska vetenskapen, för den som vill hitta mer information. Varje statistisk metod har tilldelats ett eget kapitel eller delkapitel, vilket gör boken överblickbar och ökar dess användbarhet som uppslagsbok vid framtida yrkesutövning. Boken innehåller tre appendix. Appendix A handlar om enkätundersökningar – hur man skapar enkäter, sprider dem och analyserar resultaten. Appendix B innehåller de statistiska tabeller som hänvisas till i boken och detta innebär att boken i sig själv utgör ett komplett läromedel för en grundkurs i tillämpad statistik. Appendix C utgörs av en formelsamling, där alla formler som tas upp i boken finns sammanställda.

Övningsuppgifter 1.1

Studera en morgontidning. Hur många gånger nämns ordet statistik?

kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Kapitel 2. Populationer, stickprov och variabler 2.1 Populationer och stickprov När det är riksdagsval i Sverige blir man överöst med partisympatiundersökningar. En sådan undersökning går ut på att ett antal röstberättigade medborgare blir uppringda och tillfrågade om vilket parti de tänker rösta på. Det brukar handla om 1000-2000 individer som kontaktas – man drar alltså ett stickprov bland alla röstberättigade i Sverige. Detta var ett exempel på stickprov och sådana görs hela tiden: l Man tar prover på luft och vatten för att söka efter föroreningar l Man undersöker kvaliteten på slumpmässigt utvalda produkter i l fabriker l Man undersöker vilken dagligvarukedja som är billigast, baserat på ett urval av produkter Vi definierar två viktiga begrepp i detta sammanhang: population och närmare vad stickprov betyder. 2.1.1 Population

En population är den samling enheter (exempelvis individer) som vi vill dra slutsatser om. Populationen definieras på logisk väg med utgångspunkt från den frågeställning vi vill besvara. Exempel på populationer är studerande vid Linköpings universitet, eller alla boende i Linköpings kommun. Antalet enheter i populationen betecknas med N. Ibland finns en urvalsram – ett register över populationen. Det kan vara befolkningsregistret, en klasslista, eller kanske medlemsförteckningen i en idrottsförening.

k a p i t e l 2 / P o p u l ati o n e r, sti c k p r ov o c h var iab le r

Inom statistiken är det vanligt att man talar om ändliga respektive oändliga populationer. En oändlig population förenklar räknearbetet, eftersom de enheter som väljs ut ur stickprovet då kan betraktas som oberoende. E x e m pe l

Vi tänker oss en skål med 5 kulor, vilket vi betraktar som en population. Ur populationen vill vi dra ett stickprov om 3 kulor. Sannolikheten för en specifik kula att bli utvald som den första är 1/5. Nu finns det bara fyra kulor kvar i skålen. Sannolikheten för en specifik kula av de fyra som är kvar att bli utvald som den andra är 1/4. Sannolikheten för en specifik kula av de tre resterande att bli den sista utvalda kulan är 1/3. Vi ser att sannolikheterna förändras mellan varje dragning – med statistiskt språkbruk säger vi att det råder ett beroende. Om skålen istället hade innehållit 10000 kulor och vi skulle välja 3 hade sannolikheten för en specifik kula att bli utvald som den första varit 1/10000, som den andra 1/9999 och som den tredje 1/9998. Den praktiska skillnaden i sannolikhet mellan varje dragning är så liten att den kan betraktas som försumbar, och vi kan betrakta dragningarna som oberoende. Ett vanligt sätt att betrakta oändliga respektive ändliga populationer är genom dragning med eller utan återläggning. Ett exempel på dragning med återläggning är tärningskast: sannolikheten för sexa vid tärningskast förändras inte oavsett hur många gånger vi kastar tärningen. En vanlig tumregel är att populationen ur statistiskt perspektiv kan betraktas som oändlig om stickprovet utgör mindre än 10 procent av populationsstorleken. 2.1.2 Stickprov

Men vi kan i allmänhet inte undersöka alla enheter i populationen, eftersom det ofta är dyrt, tidskrävande och svårt att nå alla. För att ändå få information om populationen, så använder vi vår urvalsram för att slumpmässigt välja ut ett antal enheter ur populationen – vi drar ett stickprov. Antalet enheter i stickprovet, stickprovsstorleken, betecknas med n och de enheter som blivit utvalda i stickprovet kallas i det generella fallet urvalsenheter och om stickprovet består av 12

kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

människor respondenter. Mer om hur man praktiskt drar stickprov lär vi oss i kapitel 5, Stickprovsteori. 2.1.3 Statistisk inferens

Konsten att använda ett stickprov för att dra slutsatser om populationen det dragits ur kallas statistisk inferens och är ett av de viktigaste områdena inom statistiken. Det är också vad huvuddelen av denna bok handlar om.

2.2 Variabler Populationen (och stickprovet) innehåller en eller flera variabler. En variabel är resultatet av upprepade observationer av ett fenomen eller ett experiment. Variabeln antar olika värden. Slumpmässigt valda personers längd eller dagskassan i en butik är exempel på variabler. Man delar upp variabler i två typer. l kvalitativa variabler Kvalitativa eller kategoriska variabler är variabler som inte antar numeriska värden. E x e m pe l

Kön, nationalitet, huvudsaklig sysselsättning. l kvantitativa variabler Kvantitativa variabler är variabler som antar numeriska värden. Man delar upp kvantitativa variabler i två kategorier: • diskreta kvantitativa variabler: variabler som endast kan anta heltalsvärden. E x e m pe l

Antalet anställda vid ett företag.

k a p i t e l 2 / P o p u l ati o n e r, sti c k p r ov o c h var iab le r

• kontinuerliga kvantitativa variabler: variabler som kan mätas med en eller flera decimalers noggrannhet. E x e m pe l

En lastbils bränsleförbrukning per mil. Oavsett typ betecknar man en variabel med stor bokstav, oftast X, medan de värden som variabeln kan anta betecknas med små bokstäver, oftast x1, x2, och så vidare. E x e m pe l

X = dagskassan i en butik en slumpmässigt vald dag x1 = 9300 kr x2 = 12200 kr . . När vi studerar en variabel är det centralt att undersöka dess fördelning. En variabels fördelning är en sammanställning i diagramform över vilka värden variabeln kan anta och hur ofta respektive värde antas. Olika typer av diagram används beroende på om man har att göra med en kvalitativ eller kvantitativ variabel. 2.2.1 Att åskådliggöra fördelningen för en kvalitativ variabel

Låt oss börja med att betrakta hur man åskådliggör fördelningen för en kvalitativ variabel. E x e m pe l

En opinionsundersökning genomförs bland 1000 slumpmässigt utvalda röstberättigade i Sverige. Vi definierar X = vilket parti respondenten sympatiserar med Det inses att X är en kvalitativ variabel och dess fördelning (resultatet av opinionsundersökningen) beskrivs enligt

kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

parti (x)

antal ( f )

Vänsterpartiet (V)

Miljöpartiet (Mp)

Socialdemokraterna (S)

318

Sverigedemokraterna (Sd)

110

Centerpartiet (C)

Folkpartiet (Fp)

Kristdemokraterna (Kd)

Moderaterna (M) Övriga (Övr) Totalt

269 34 1000

Detta kallas för en frekvenstabell med absoluta frekvenser, eftersom tabellen innehåller antalet personer med respektive partisympati. Lägg märke till notationen f för de absoluta frekvenserna. Notera också att g

Rf =n i

i =1

där g är antalet grupper i frekvenstabellen. Dock måste vi när vi läser tabellen hela tiden tänka efter hur många de som röstar på exempelvis Moderaterna utgör av den totala stickprovsstorleken. En bättre typ av tabell fås istället genom

k a p i t e l 2 / P o p u l ati o n e r, sti c k p r ov o c h var iab le r

parti (x)

antal ( f )

andel (%)

Vänsterpartiet (V)

3.9

Miljöpartiet (Mp)

5.5

Socialdemokraterna (S)

318

31.8

Sverigedemokraterna (Sd)

110

11.0

Centerpartiet (C)

5.4

Folkpartiet (Fp)

8.0

Kristdemokraterna (Kd)

4.1

269

26.9

3.4

1000

100

Moderaterna (M) Övriga (Övr) Totalt

Detta kallas för en frekvenstabell med relativa frekvenser, vilket i tabellen betecknats som andelar uttryckta i procent. Ännu tydligare blir det om vi åskådliggör de relativa frekvenserna i ett diagram. När man har att göra med en kvalitativ variabel konstruerar man ofta stapeldiagram. 35% 30% 25% 20% 15% 10% 5% 0% V

övr

På ena axeln (x-axeln) har vi de politiska partierna och på den andra axeln (y-axeln) har vi andelen respondenter som sympatiserar med respektive parti. Totalt summerar staplarna till 100 procent. Därmed 16

kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

ser vi fördelningen för variabeln som representerar vilket parti man sympatiserar med. Slutsatsen blir att det enskilt största partiet är Socialdemokraterna, medan sammanslagning i block (V, Mp, S respektive C, Fp, Kd, M) visar att det borgerliga blocket är störst: 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%

V, Mp, s

c, fp, kd, m

Ibland väljer man att åskådliggöra fördelningen för en kvalitativ variabel i cirkeldiagram. 3,4% 3,9%

5,5%

V Mp

26,9%

s sd c

31,8%

fp kd m

4,1%

övr 8,0% 5,4%

11,0%

Cirkeldiagrammet konstrueras genom att respektive av variabelns värden tilldelas ett område proportionellt mot dess relativa frekvens. Vi noterar att för en variabel som kan anta många värden blir cirkeldiagrammet rörigt. Det är också viktigt att tänka på att färgerna spelar en stor roll i cirkeldiagram, och därför kan cirkeldiagrammet bli svårläst i svartvit utskrift. Då lämpar sig ofta stapeldiagram bättre. 17

k a p i t e l 2 / P o p u l ati o n e r, sti c k p r ov o c h var iab le r

2.2.2 Att åskådliggöra fördelningen för en diskret kvantitativ variabel

En diskret kvantitativ variabel åskådliggörs i stolpdiagram. Ett stolpdiagram är till konstruktionen mycket lik stapeldiagram, men staplarna konstrueras som tunnare stolpar. E x e m pe l

En vårdcentral kartlägger antalet besök varje patient gjort de senaste 12 månaderna. Vi inser att X = antalet vårdcentralsbesök de senaste 12 månaderna är en diskret kvantitativ variabel. Resultatet sammanställs i en frekvenstabell med både absoluta och relativa frekvenser. antal besök (x)

antal ( f )

andel (%)

351

28.44

452

36.63

212

17.18

121

9.81

5.19

1.94

0.65

0.08

1234

100

Totalt

Ett stolpdiagram konstrueras då enligt

kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

40% 35% 30% 25% 20% 15% 10% 5% 0%

antal besök senaste 12 månaderna

Ur diagrammet drar vi slutsatsen att de flesta patienter besökt vårdcentralen noll eller en gång de senaste 12 månaderna. Fler än fyra besök är ovanligt. 2.2.3 Att åskådliggöra fördelningen för en kontinuerlig kvantitativ variabel E x e m pe l

Ett företag har 20 anställda och vi önskar studera lönefördelningen vid företaget. Följande resultat (lönerna uttryckta i tusentals kronor) erhålles.

Låt X = månadslön i tusentals kronor X är en kontinuerlig kvantitativ variabel. Men en sådan variabel lämpar sig inte att åskådliggöra i stolpdiagram: det skulle bli en stolpe för varje person och därmed helt oläsligt. Lösningen är att klassindela variabeln. Här har man fria händer att bilda lämpliga klasstorlekar och i detta fall valdes att bilda klasser om tiotusentals kronor. Vi bildar en frekvenstabell med absoluta och relativa frekvenser:

k a p i t e l 2 / P o p u l ati o n e r, sti c k p r ov o c h var iab le r

klass (x)

antal ( f )

andel (%)

11-20

21-30

31-40

41-50

51-60

61-70

Totalt

100

Den diagramtyp som används för att åskådliggöra fördelningen för en kontinuerlig kvantitativ variabel kallas för histogram. 35% 30% 25% 20% 15% 10% 5% 0%

11–20

21–30

31–40

41–50

51–60

61–70

månadslön (tkr)

På x-axeln har vi månadslön, och för varje klass ser vi på y-axeln procentandelen personer. För att vara tydlig med att variabeln är kontinuerlig och klassindelad låter man staplarna i ett histogram ligga intill varandra. Slutsatsen blir att lönespridningen vid företaget är relativt symmetrisk kring den enskilt största gruppen, vilken är lönekategorin 31–40 tkr. kom i håg

Diagram kan uttryckas i absoluta eller relativa frekvenser, men relativa frekvenser är alltid att föredra eftersom diagrammet då blir lättare för läsaren att ta till sig. Arbeta därför alltid med relativa frekvenser i diagram! 20

Tillämpad statistik är en komplett kursbok som lämpar sig för studier inom alla fält som använder statistiska metoder för undersökande arbete. Boken är sprungen ur välbeprövat föreläsningsmaterial från grundkurser i statistik för civilekonomer, statsvetare och statistiker. Tillämpad statistik innehåller utöver statistisk teori även övningsuppgifter, fullständiga lösningar, formelsamling, tabeller, ett avsnitt om enkätundersökningar samt ett svensk-engelskt lexikon med statistiska termer. Boken är dessutom rikt illustrerad, vilket lägger en väsentlig grund för förståelsen och är en viktig del i det pedagogiska upplägg som genomsyrar boken. Karl Wahlin är doktor i statistik och universitetslektor i statistik vid Linköpings universitet. Han är dessutom programstudierektor för Kandidatprogrammet för Statistik och dataanalys. Han är en populär föreläsare och har tilldelats flera utmärkelser för sina pedagogiska insatser.

ISBN 978-91-523-2782-1

(523-2782-1)

9 789152 327821