9789152307182

Page 1

Tillämpad statistik innehåller utöver statistisk teori även övningsuppgifter, fullständiga lösningar, formelsamling, tabeller, ett avsnitt om enkätundersökningar samt ett svensk-engelskt lexikon med statistiska termer. Boken är dessutom rikt illustrerad, vilket lägger en väsentlig grund för förståelsen och är en viktig del i det pedagogiska upplägg som genomsyrar boken. Karl Wahlin är doktor i statistik och universitetslektor i statistik vid Linköpings universitet. Han är dessutom programstudierektor för Kandidatprogrammet för Statistik och dataanalys. Han är en populär föreläsare och har tilldelats flera utmärkelser för sina pedagogiska insatser.

l

Tillämpad statistik en grundkurs

Tillämpad statistik är en komplett kursbok som lämpar sig för studier inom alla fält som använder statistiska metoder för undersökande arbete. Boken är sprungen ur välbeprövat föreläsningsmaterial från grundkurser i statistik för civilekonomer, statsvetare och statistiker.

ISBN 978-91-523-0718-2

9 789152 307182 www.bonnierutbildning.se

(523-0718-2)

Kar l Wah li n

l

Tillämpad statistik en grundkurs


Bonnier Utbildning Postadress: Box 3159, 103 63 Stockholm Besöksadress: Sveavägen 56, Stockholm Hemsida: www.bonnierutbildning.se E-post: info@bonnierutbildning.se Order/Läromedelsinformation Telefon 08-696 86 00 Telefax 08-696 86 10

Redaktör/projektledare: Kristoffer Edshage Grafisk form: Leif Andersson Omslag: Leif Andersson

Tillämpad statistik ISBN 978-91-523-0718-2 © 2011 Karl Wahlin och Bonnier Utbildning AB, Stockholm Första upplagan Första tryckningen

Kopieringsförbud! Detta verk är skyddat av lagen om upphovsrätt. Kopiering utöver lärares rätt att kopiera för undervisningsbruk enligt BonusPresskopias avtal, är förbjuden. Sådant avtal tecknas mellan upphovsrättsorganisationer och huvudman för utbildningsanordnare, t.ex. kommuner/universitet. För information om avtalet hänvisas till utbildningsanordnares huvudman eller BonusPresskopia. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman/rättsinnehavare. Printed in Latvia by Livonia Print Riga 2011


fö r o r d

Förord Tillämpad statistik är ett komplett läromedel för grundkurser i tillämpad statistik på högskolenivå, skriven med särskilt fokus på studenter inriktade mot samhällsvetenskap eller ekonomi. Boken är sprungen ur välbeprövade föreläsningsmaterial från grundkurser i statistik för civilekonomer, statsvetare och statistiker. Tillämpad statistik skiljer sig från befintliga läromedel för grundkurser i statistik genom en ny pedagogisk struktur. Boken är uppbyggd kring frågorna ”varför”, ”när” och ”hur”: varje metod som behandlas i boken förankras i praktiska tillämpningar, för att läsaren hela tiden ska förstå varför metodiken behövs och få lättbegripliga exempel hämtade från samhällsvetenskap och ekonomi att hänga upp den på. Fokus ligger på att få läsaren att förstå när respektive metod är tillämplig, detta genom att beskrivningen av varje metodik tydligt föregås av vilka antaganden som måste uppfyllas för att den ska vara giltig. Slutligen visas genom både teori och exempel hur metodiken används. Varje metodik har brutits ned i mindre delar, för att göra den enklare att förstå och för att studenten ska kunna lösa problemen steg för steg. Tillämpad statistik ska inte bara fungera på högskolekursen, utan även följa med sin ägare ut i arbetslivet som en handbok i statistiska metoder. Därför ges alla statistiska termer även på engelska, vilket ökar läsarens statistiska allmänbildning och underlättar förståelsen av annan (engelskspråkig) statistiklitteratur. Dessutom ges genom hela boken rekommendationer om inom vilka statistiska områden som den intresserade läsaren kan finna mer information om den aktuella metodiken. Detta ökar läsarens statistiska allmänbildning, väcker nyfikenhet och visar på statistikämnets bredd. Tillämpad statistik är rikt illustrerad: figurer i form av diagram lägger en väsentlig grund för förståelsen och är en viktig del i det pedagogiska upplägg som genomsyrar boken. Texten har granskats av Lars Valter och många värdefulla påpekanden har därvid gjorts. För detta framföres ett varmt tack. Linköping, juni 2011 karl wahlin 3


i n n e h å ll

Innehåll Kapitel 1. Inledning ............................... 8

Kapitel 3. Sannolikhetsteori ........ 47

1.1 Varför behöver man kunna statistik? ....... 8

3.1 Mängdlära ............................................................ 47

1.2 Matematisk statistik och tillämpad statistik ......................................................................... 9

3.1.1 Utfallsrum och händelser .............................. 47 3.1.2 Snitt ................................................................... 49

1.3 Om denna bok .................................................... 10

3.1.3 Union ................................................................. 50

Övningsuppgifter ...................................................... 10

3.1.4 Disjunkta händelser ........................................ 51 3.1.5 Oberoende händelser . .................................. 52

Kapitel 2. Populationer, stickprov och variabler....................... 11

3.1.6 Skillnad mellan disjunkta och . oberoende händelser . .............................................. 52

2.1 Populationer och stickprov ........................... 11

3.2 Kombinatorik ...................................................... 53

2.1.1 Population ........................................................ 11

3.2.1 Multiplikationsprincipen . ............................... 54

2.1.2 Stickprov ........................................................... 12

3.2.2 Permutationer när alla element är olika . .... 55

2.1.3 Statistisk inferens ........................................... 13

3.2.3 Permutationer när vissa element är lika ..... 57

2.2 Variabler ................................................................ 13

3.2.4 Kombinationer utan upprepning .................. 58

2.2.1 Att åskådliggöra fördelningen. för en kvalitativ variabel ............................................ 14

3.2.5 Kombinationer vid upprepning . ................... 58

2.2.2 Att åskådliggöra fördelningen . för en diskret kvantitativ variabel ............................ 18 2.2.3 Att åskådliggöra fördelningen . för en kontinuerlig kvantitativ variabel ................... 19 2.2.4 Andra typer av diagram för en . variabels fördelning ................................................... 21 2.2.5 Skalor ................................................................ 22 2.3 Beskrivande mått för kvalitativa variabler ........................................................................ 24 2.3.1 Lägesmått ......................................................... 24 2.4 Beskrivande mått för kvantitativa variabler ........................................................................ 26 2.4.1 Lägesmått ......................................................... 26

3.3 Sannolikhetslära ............................................... 59 3.3.1 Definition av sannolikhetsbegreppet .......... 60 3.3.2 Regler för sannolikheter ................................ 60 3.3.3 Relativa frekvenser ......................................... 61 3.3.4 Odds . ................................................................ 62 3.4 Räknemetoder för sannolikheter ............... 64 3.4.1 Additionssatsen för disjunkta händelser ... 64 3.4.2 Additionssatsen för icke disjunkta . händelser ..................................................................... 65 3.4.3 Multiplikationssatsen för oberoende . händelser ..................................................................... 66 3.4.4 Betingad sannolikhet ..................................... 67

2.4.2 Spridningsmått ................................................ 33

3.4.5 Multiplikationssatsen för beroende. händelser ..................................................................... 69

2.5 Standardvägning ............................................... 39

3.4.6 Satsen om total sannolikhet ......................... 70

Övningsuppgifter ...................................................... 42

3.4.7 Bayes sats . ...................................................... 72

4


i n n e håll

3.5 Att undersöka oberoende mellan två händelser ..................................................................... 74 Övningsuppgifter ...................................................... 75

Kapitel 4. Sannolikhetsfördelningar ..................................................... 79 4.1 Slumpvariabler ................................................... 79 4.1.1 Beskrivande mått för en slumpvariabel ...... 79 4.1.2 Linjära variabeltransformationer av . slumpvariabler ............................................................ 82 4.2 Diskreta sannolikhetsfördelningar ........... 83 4.2.1 Binomialfördelning .......................................... 83 4.2.2 Hypergeometrisk fördelning ......................... 88

5.2.3 Replikat ............................................................. 129 5.2.4 Bortfall ............................................................... 129 5.3 Väntevärdesriktiga skattningar . ................. 130 5.3.1 Stickprovsmedelvärde ................................... 131 5.3.2 Stickprovsvarians och stickprovs-. standardavvikelse ...................................................... 132 5.3.3 Stickprovsandel .............................................. 132 5.3.4 Fler egenskaper hos stickprovs-. statistikorna . ............................................................... 133 5.3.5 Effektiva skattningar ....................................... 135 5.4 Samplingfördelningar ..................................... 136 5.5 Stickprovsdimensionering ............................ 145 Övningsuppgifter ...................................................... 146

4.2.3 Poissonfördelning ........................................... 92 4.2.4 Geometrisk fördelning ................................... 96 4.3 Kontinuerliga sannolikhetsfördelningar ................................................................ 100 4.3.1 Täthetsfunktion ................................................ 100 4.3.2 Normalfördelning ............................................ 101

Kapitel 6. Inferens om en population .......................................................... 151 6.1 Konfidensintervall för populationsmedelvärde . ................................................................ 151 6.1.1 Dubbelsidiga konfidensintervall . ................. 152

4.3.3 Normalfördelningsapproximation av . binomialfördelning ..................................................... 112

6.1.2 Enkelsidiga konfidensintervall ...................... 157

4.3.4 Andra vanliga kontinuerliga . fördelningar ................................................................. 115

6.2 Konfidensintervall för populationsandel .............................................................................. 158

Övningsuppgifter ...................................................... 117

6.2.1 Dubbelsidiga konfidensintervall . ................. 158 6.2.2 Enkelsidiga konfidensintervall ...................... 159

Kapitel 5. Stickprovsteori ............... 125 5.1 Metoder för stickprovsdragning ................. 125 5.1.1 Obundet slumpmässigt urval ....................... 125 5.1.2 Stratifierat urval ............................................... 126

6.3 Hypotesprövning för populationsmedelvärde . ................................................................ 160 6.4 Hypotesprövning för populationsandel .............................................................................. 166

5.2 Felkällor vid stickprovsdragning ................ 128

6.5 Om populationens standardavvikelse är känd ...................................................... 169

5.2.1 Övertäckning ................................................... 128

6.5.1 Dubbelsidiga konfidensintervall . ................. 169

5.2.2 Undertäckning ................................................. 129

6.5.2 Enkelsidiga konfidensintervall ...................... 170

5


i n n e h å ll

6.5.3 Hypotesprövning . ........................................... 171 6.6 Hypotesprövning med p-värde .................... 173 6.7 Relation mellan konfidensintervall och hypotesprövning .............................................. 178

8.1.1 Konfidensintervall för populations-. medelvärde ................................................................. 210 8.1.2 Konfidensintervall för totalmängd ............... 212 8.1.3 Konfidensintervall för populationsandel . ... 213

6.8 Feltyper och styrka ........................................... 179

8.1.4 Konfidensintervall för totalt antal ................. 214

Övningsuppgifter ...................................................... 180

8.2 Stratifierat urval ................................................. 215

Kapitel 7. Jämförelse av två populationer .................................................... 186 7.1 Konfidensintervall för jämförelse av populationsmedelvärden ...................................... 186 7.1.1 Dubbelsidiga konfidensintervall ................... 187 7.1.2 Enkelsidiga konfidensintervall . ..................... 188 7.2 Konfidensintervall för jämförelse av populationsandelar ................................................. 189 7.2.1 Dubbelsidiga konfidensintervall ................... 189 7.2.2 Enkelsidiga konfidensintervall . ..................... 191 7.3 Hypotesprövning för jämförelse av populationsmedelvärden ...................................... 192 7.4 Hypotesprövning för jämförelse av populationsandelar ................................................. 195 7.5 Om populationsstandardavvikelserna är kända ........................................................................ 198

8.2.1 Konfidensintervall för populations-. medelvärde ................................................................. 215 8.2.2 Konfidensintervall för populationsandel . ... 218 8.3 Allokering ............................................................. 219 8.3.1 Lika allokering .................................................. 219 8.3.2 Proportionell allokering .................................. 219 8.3.3 Neymanallokering ........................................... 220 8.3.4 Optimal allokering . ......................................... 221 Övningsuppgifter ...................................................... 224

Kapitel 9. Samband mellan kvalitativa variabler ................................ 230 9.1 Analys av frekvenstabeller ............................ 230 9.2 Korstabeller ......................................................... 234 9.3 Analys av korstabeller . ................................... 236 9.3.1 Chitvåtest ......................................................... 236 9.3.2 Sammanslagning ............................................ 240

7.5.1 Dubbelsidiga konfidensintervall ................... 198

9.3.3 Fishers exakta test . ........................................ 241

7.5.2 Enkelsidiga konfidensintervall . ..................... 199

9.3.4 Jämförelse av andelar .................................... 242

7.5.3 Hypotesprövning ............................................. 199

Övningsuppgifter ...................................................... 245

7.6 Parvisa jämförelser ........................................... 200 7.7 Relation mellan konfidensintervall och hypotesprövning .............................................. 203

Kapitel 10. Samband mellan kvantitativa variabler ............................ 250

Övningsuppgifter ...................................................... 204

10.1 Spridningsdiagram . ....................................... 251 10.2 Korrelationskoefficienten ........................... 252

6

Kapitel 8. Inferens om en ändlig population ...................................... 210

10.3 Enkel linjär regression ................................. 254

8.1 Urval från ändliga populationer .................. 210

10.3.2 Förklaringsgrad ............................................. 259

10.3.1 Prognosticering ............................................ 257


i n n e håll

10.3.3 Residualanalys .............................................. 259 10.3.4 Hypotesprövning av lutningsparametern .... 263 10.3.5 Konfidensintervall för lutningsparametern . . 267 10.3.6 Intervall för prognosticering ....................... 267 10.3.7 Enkel linjär regression i datorn .................. 269 10.4 Introduktion till multipel linjär regression 271 Övningsuppgifter ...................................................... 278

Sammanfattning: Att genomföra en enkätundersökning ........................................... 314

Appendix B. Tabeller ............................. 316 Normalfördelningstabell (negativa värden) ..... 316 Normalfördelningstabell (positiva värden) . ..... 317 t-tabell (negativa värden) ..................................... 318 t-tabell (positiva värden) ....................................... 319

Kapitel 11. Ickeparametriska metoder ................................................................ 285 11.1 Mann-Whitneys test . ..................................... 285 11.2 Teckentest .......................................................... 290 11.3 Wilcoxons teckenrangtest .......................... 293 11.4 Spearmans rangkorrelation ....................... 297 Övningsuppgifter ...................................................... 299

Kapitel 12. Avslutning ......................... 302 Övningsuppgifter ...................................................... 302

Appendix A. Om enkäter och enkätkonstruktion ................................... 303

Chitvåtabell ................................................................. 320 Tabell över kritiska värden för Mann-Whitneys test ................................................ 321 Tabell över kritiska värden för Wilcoxons teckenrangtest .................................... 322

Appendix C. Formelsamling ........ 323 Svensk-engelsk ordlista .................. 336 Lösningsförslag .......................................... 343 Sakregister ....................................................... 418

Förberedelser . ........................................................... 303 Enkätkonstruktion ................................................... 304 Bortfallshantering .................................................... 306 Hansen-Hurvitz bortfallsplan ................................... 307 Substitution . ............................................................... 308 Kodning ........................................................................ 308 Frågor med endast ett tillåtet svarsalternativ ...... 308 Frågor med flera tillåtna svarsalternativ ................ 309 Öppna frågor .............................................................. 310 Kodning av partiellt bortfall ...................................... 311 Statistisk bearbetning . .......................................... 312 Att skriva en statistisk rapport ........................... 313

7


k a p i t e l 1 / i n le d n i n g

Kapitel 1. Inledning 1.1 Varför behöver man kunna statistik? Statistik är vetenskapen om att fatta beslut utan fullständig information. Besluten baseras på sifferunderlag och inom snart sagt alla samhällsområden läggs stora resurser på att samla in information som består av siffror: Miljöräkenskaper

Finansmarknad Jord- och skogsbruk

Arbetsmarknad Priser

Konsumtion

Demokrati

Boende

Energiproduktion Skatter Inflation

Omsättning

Transporter och kommunikationer Levnadsförhållanden

Befolkning

e-handel

Livsmedelsförsäljning

Kriminalvård

Investeringar

BNP

Statsskuld

Materialflöden Hälso- och sjukvård Utbildning

Fiske

Byggande

Inköpsvanor Rättsväsende Samhällets kulturutgifter

Prisindex

Börskurser

Vad gör man då med alla dessa siffror eller data, som statistikern hellre säger? Jo, här kommer statistiken in! Bland annat används statistiska 8


kap ite l 1 / i n le d n i n g

metoder för att samla in data så kostnadseffektivt och korrekt som möjligt. Men statistikens viktigaste uppgift är att plocka fram den information som data innehåller. Detta görs genom kloka val ur den verktygslåda av statistiska metoder som denna bok ger en introduktion till. Informationen kan sedan användas för att besvara viktiga frågor eller ligga till grund för beslut. Exempel på frågor som man kan besvara med statistikens hjälp är: l Vad är de genomsnittliga kostnaderna för transporter bland svenska hushåll? l Finns det någon skillnad i dessa kostnader gentemot hushåll i övriga nordiska länder? l Hur mycket har genomsnittstemperaturen stigit sedan industrialiseringen? l Hur stor är skillnaden i genomsnittliga sjukskrivningskostnader per företag mellan olika branscher? l Vad är sannolikheten för att generalindex kommer att stiga imorgon? Denna mängd av frågeställningar är också anledningen till att man på högskola och universitet nästan oavsett utbildningsprogram läser statistik: under er utbildnings gång kommer ni att märka att statistiken kommer in i de flesta kurser ni läser, vilket i sin tur kommer sig av att väldigt många vetenskapliga metoder baseras på statistik. Goda statistiska kunskaper lägger därför en grund för er framtida karriär!

1. 2 Matematisk statistik och tillämpad statistik Vetenskapen statistik kan delas upp i två grenar: matematisk statistik och tillämpad statistik. Inom den matematiska statistiken är man inriktad mot den matematik som statistiken baseras på. Man utvecklar och förbättrar statistiska 9


k a p i t e l 1 / i n le d n i n g

metoder. I den mån man söker tillämpningar handlar det ofta om matematiskt tunga områden såsom fysik eller genetik. Inom den tillämpade statistiken använder man statistiska metoder för att beskriva omvärlden, från att samla in data till att använda data för att söka efter samband, göra jämförelser och dra slutsatser. Problemområdena är vitt skilda: det handlar om allt ifrån nationalekonomiska problemställningar till att prognostisera valresultat eller modellera halten av föroreningar i vattendrag.

1.3 Om denna bok Denna bok utgör en grundkurs i tillämpad statistik, med särskild fokus på den statistik som samhällsvetare och ekonomer behöver. Boken innehåller dessutom smakprov på många statistiska metoder som man kan stöta på i sin framtida yrkesutövning samt rekommendationer för fortsatt läsning för den intresserade. I slutet av boken finns en svensk-engelsk ordlista med de statistiska termer som används i boken. Detta hjälper till att öka den statistiska allmänbildningen och underlättar för fortsatta studier. Hänvisningar ges där så är relevant till olika områden inom den statistiska vetenskapen, för den som vill hitta mer information. Varje statistisk metod har tilldelats ett eget kapitel eller delkapitel, vilket gör boken överblickbar och ökar dess användbarhet som uppslagsbok vid framtida yrkesutövning. Boken innehåller tre appendix. Appendix A handlar om enkätundersökningar – hur man skapar enkäter, sprider dem och analyserar resultaten. Appendix B innehåller de statistiska tabeller som hänvisas till i boken och detta innebär att boken i sig själv utgör ett komplett läromedel för en grundkurs i tillämpad statistik. Appendix C utgörs av en formelsamling, där alla formler som tas upp i boken finns sammanställda.

Övningsuppgifter 1.1

10

Studera en morgontidning. Hur många gånger nämns ordet statistik?


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Kapitel 2. Populationer, stickprov och variabler 2.1 Populationer och stickprov När det är riksdagsval i Sverige blir man överöst med partisympatiundersökningar. En sådan undersökning går ut på att ett antal röstberättigade medborgare blir uppringda och tillfrågade om vilket parti de tänker rösta på. Det brukar handla om 1000-2000 individer som kontaktas – man drar alltså ett stickprov bland alla röstberättigade i Sverige. Detta var ett exempel på stickprov och sådana görs hela tiden: l Man tar prover på luft och vatten för att söka efter föroreningar l Man undersöker kvaliteten på slumpmässigt utvalda produkter i l fabriker l Man undersöker vilken dagligvarukedja som är billigast, baserat på ett urval av produkter Vi definierar två viktiga begrepp i detta sammanhang: population och närmare vad stickprov betyder. 2.1.1 Population

En population är den samling enheter (exempelvis individer) som vi vill dra slutsatser om. Populationen definieras på logisk väg med utgångspunkt från den frågeställning vi vill besvara. Exempel på populationer är studerande vid Linköpings universitet, eller alla boende i Linköpings kommun. Antalet enheter i populationen betecknas med N. Ibland finns en urvalsram – ett register över populationen. Det kan vara befolkningsregistret, en klasslista, eller kanske medlemsförteckningen i en idrottsförening.

11


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Inom statistiken är det vanligt att man talar om ändliga respektive oändliga populationer. En oändlig population förenklar räknearbetet, eftersom de enheter som väljs ut ur stickprovet då kan betraktas som oberoende. E x e m pe l

Vi tänker oss en skål med 5 kulor, vilket vi betraktar som en population. Ur populationen vill vi dra ett stickprov om 3 kulor. Sannolikheten för en specifik kula att bli utvald som den första är 1/5. Nu finns det bara fyra kulor kvar i skålen. Sannolikheten för en specifik kula av de fyra som är kvar att bli utvald som den andra är 1/4. Sannolikheten för en specifik kula av de tre resterande att bli den sista utvalda kulan är 1/3. Vi ser att sannolikheterna förändras mellan varje dragning – med statistiskt språkbruk säger vi att det råder ett beroende. Om skålen istället hade innehållit 10000 kulor och vi skulle välja 3 hade sannolikheten för en specifik kula att bli utvald som den första varit 1/10000, som den andra 1/9999 och som den tredje 1/9998. Den praktiska skillnaden i sannolikhet mellan varje dragning är så liten att den kan betraktas som försumbar, och vi kan betrakta dragningarna som oberoende. Ett vanligt sätt att betrakta oändliga respektive ändliga populationer är genom dragning med eller utan återläggning. Ett exempel på dragning med återläggning är tärningskast: sannolikheten för sexa vid tärningskast förändras inte oavsett hur många gånger vi kastar tärningen. En vanlig tumregel är att populationen ur statistiskt perspektiv kan betraktas som oändlig om stickprovet utgör mindre än 10 procent av populationsstorleken. 2.1.2 Stickprov

Men vi kan i allmänhet inte undersöka alla enheter i populationen, eftersom det ofta är dyrt, tidskrävande och svårt att nå alla. För att ändå få information om populationen, så använder vi vår urvalsram för att slumpmässigt välja ut ett antal enheter ur populationen – vi drar ett stickprov. Antalet enheter i stickprovet, stickprovsstorleken, betecknas med n och de enheter som blivit utvalda i stickprovet kallas i det generella fallet urvalsenheter och om stickprovet består av 12


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

människor respondenter. Mer om hur man praktiskt drar stickprov lär vi oss i kapitel 5, Stickprovsteori. 2.1.3 Statistisk inferens

Konsten att använda ett stickprov för att dra slutsatser om populationen det dragits ur kallas statistisk inferens och är ett av de viktigaste områdena inom statistiken. Det är också vad huvuddelen av denna bok handlar om.

2.2 Variabler Populationen (och stickprovet) innehåller en eller flera variabler. En variabel är resultatet av upprepade observationer av ett fenomen eller ett experiment. Variabeln antar olika värden. Slumpmässigt valda personers längd eller den dagliga dagskassan i en butik är exempel på variabler. Man delar upp variabler i två typer. l kvalitativa variabler Kvalitativa eller kategoriska variabler är variabler som inte antar numeriska värden. E x e m pe l

En slumpmässigt vald persons kön, hennes nationalitet, om hon har husdjur eller ej. l kvantitativa variabler Kvantitativa variabler är variabler som antar numeriska värden. Man delar upp kvantitativa variabler i två kategorier: • diskreta kvantitativa variabler: variabler som endast kan anta heltalsvärden. E x e m pe l

Antalet anställda vid ett företag.

13


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

• kontinuerliga kvantitativa variabler: variabler som kan mätas med en eller flera decimalers noggrannhet. E x e m pe l

Hållfastheten på en slumpmässigt vald produkt ur ett företags produktion. Oavsett typ betecknar man en variabel med stor bokstav, oftast X, medan de värden som variabeln kan anta betecknas med små bokstäver, oftast x1, x2, och så vidare. E x e m pe l

X = dagskassan i en butik en slumpmässigt vald dag x1 = 9300 kr x2 = 12200 kr . . När vi studerar en variabel är det centralt att undersöka dess fördelning. En variabels fördelning är en sammanställning i diagramform över vilka värden variabeln kan anta och hur ofta respektive värde antas. Olika typer av diagram används beroende på om man har att göra med en kvalitativ eller kvantitativ variabel. 2.2.1 Att åskådliggöra fördelningen för en kvalitativ variabel

Låt oss börja med att betrakta hur man åskådliggör fördelningen för en kvalitativ variabel. E x e m pe l

En opinionsundersökning genomförs bland 1985 slumpmässigt utvalda röstberättigade i Sverige. Vi definierar X = vilket parti respondenten sympatiserar med Det inses att X är en kvalitativ variabel och dess fördelning (resultatet av opinionsundersökningen) beskrivs enligt

14


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

parti (x)

antal ( f )

Vänsterpartiet (V)

142

Miljöpartiet (Mp)

72

Socialdemokraterna (S)

695

Centerpartiet (C)

148

Folkpartiet (Fp)

238

Kristdemokraterna (Kd)

111

Moderaterna (M)

423

Övriga (Övr)

156

Totalt

1985

Detta kallas för en frekvenstabell med absoluta frekvenser, eftersom tabellen innehåller antalet personer med respektive partisympati. Lägg märke till notationen f för de absoluta frekvenserna. Notera också att g

Rf =n i

i =1

där g är antalet grupper i frekvenstabellen. Dock måste vi när vi läser tabellen hela tiden tänka efter hur många de som röstar på exempelvis Centerpartiet utgör av den totala stickprovsstorleken. En bättre typ av tabell fås istället genom

15


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

parti (x)

antal ( f )

andel (%)

Vänsterpartiet (V)

142

7.15

Miljöpartiet (Mp)

72

3.63

Socialdemokraterna (S)

695

35.01

Centerpartiet (C)

148

7.46

Folkpartiet (Fp)

238

11.99

Kristdemokraterna (Kd)

111

5.59

Moderaterna (M)

423

21.31

Övriga (Övr)

156

7.86

1985

100

Totalt

Detta kallas för en frekvenstabell med relativa frekvenser, vilket i tabellen betecknats som andelar uttryckta i procent. Ännu tydligare blir det om vi åskådliggör de relativa frekvenserna i ett diagram. När man har att göra med en kvalitativ variabel konstruerar man ofta stapeldiagram. 40% 35% 30% 25% 20% 15% 10% 5% 0% V

Mp

s

c

fp

kd

m

övr

På ena axeln (x-axeln) har vi de politiska partierna och på den andra axeln (y-axeln) har vi andelen respondenter som sympatiserar med respektive parti. Totalt summerar staplarna till 100 procent. Därmed ser vi fördelningen för variabeln som representerar vilket parti man sympatiserar med. Slutsatsen blir att det enskilt största partiet är Socialdemokraterna, medan sammanslagning i block (V, Mp, S respektive C, 16


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Fp, Kd, M) visar att det borgerliga blocket är störst: 50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%

V, Mp, s

c, fp, kd, m

övr

Ibland väljer man att åskådliggöra fördelningen för en kvalitativ variabel i cirkeldiagram. 7,86%

V Mp s c fp kd m övr

7,15%

3,63%

21,31%

35,01%

5,59%

11,99% 7,46%

Cirkeldiagrammet konstrueras genom att respektive av variabelns värden tilldelas ett område proportionellt mot dess relativa frekvens. Vi noterar att för en variabel som kan anta många värden blir cirkeldiagrammet lätt rörigt. Det är också viktigt att tänka på att färgerna spelar en stor roll i cirkeldiagram, och därför kan cirkeldiagrammet bli svårläst i svartvit utskrift. Då lämpar sig ofta stapeldiagram bättre.

17


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

2.2.2 Att åskådliggöra fördelningen för en diskret kvantitativ variabel

En diskret kvantitativ variabel åskådliggörs i stolpdiagram. Ett stolpdiagram är till konstruktionen mycket lik stapeldiagram, men staplarna konstrueras som tunnare stolpar. E x e m pe l

En vårdcentral kartlägger antalet besök varje patient gjort de senaste 12 månaderna. Vi inser att X = antalet vårdcentralsbesök de senaste 12 månaderna är en diskret kvantitativ variabel. Resultatet sammanställs i en frekvenstabell med både absoluta och relativa frekvenser. antal besök

antal ( f )

andel (%)

0

351

28.44

1

452

36.63

2

212

17.18

3

121

9.81

4

64

5.19

5

24

1.94

6

8

0.65

7

1

0.08

8

1

0.08

1234

100

Totalt

Ett stolpdiagram konstrueras då enligt

18


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

40% 35% 30% 25% 20% 15% 10% 5% 0%

0

1

2

3

4

5

6

7

8

antal besök senaste 12 månaderna

Ur diagrammet drar vi slutsatsen att de flesta patienter besökt vårdcentralen noll eller en gång de senaste 12 månaderna. Fler än fyra besök är ovanligt. 2.2.3 Att åskådliggöra fördelningen för en kontinuerlig kvantitativ variabel E x e m pe l

Ett företag har 20 anställda och vi önskar studera lönefördelningen vid företaget. Följande resultat (lönerna uttryckta i tusentals kronor) erhålles.

15

28

38

49

19

31

39

51

21

32

41

55

23

34

43

58

25

37

47

62

Låt X = månadslön i tusentals kronor X är en kontinuerlig kvantitativ variabel. Men en sådan variabel lämpar sig inte att åskådliggöra i stolpdiagram: det skulle bli en stolpe för varje person och därmed helt oläsligt. Lösningen är att klassindela varia19


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

beln. Här har man fria händer att bilda lämpliga klasstorlekar och i detta fall valdes att bilda klasser om tiotusentals kronor. Vi bildar en frekvenstabell med absoluta och relativa frekvenser: klass

antal ( f )

andel (%)

11-20

2

10

21-30

4

20

31-40

6

30

41-50

4

20

51-60

3

15

61-70

1

5

Totalt

20

100

Den diagramtyp som används för att åskådliggöra fördelningen för en kontinuerlig kvantitativ variabel kallas för histogram. 35% 30% 25% 20% 15% 10% 5% 0%

11–20

21–30

31–40

41–50

51–60

61–70

månadslön (tkr)

På x-axeln har vi månadslön, och för varje klass ser vi på y-axeln procentandelen personer. För att vara tydlig med att variabeln är kontinuerlig och klassindelad låter man staplarna i ett histogram ligga tätt intill varandra. Slutsatsen blir att lönespridningen vid företaget är relativt symmetrisk kring den enskilt största gruppen, vilken är lönekategorin 31–40 tkr.

20


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

kom i håg

Diagram kan uttryckas i absoluta eller relativa frekvenser, men relativa frekvenser är alltid att föredra eftersom diagrammet då blir lättare för läsaren att ta till sig. Arbeta därför alltid med relativa frekvenser i diagram! 2.2.4 Andra typer av diagram för en variabels fördelning l stam- och bladdiagram

En annan typ av diagram som ofta är användbar för kvantitativa variabler (både diskreta och kontinuerliga) är stam- och bladdiagram. Stamoch bladdiagrammet bygger som namnet antyder på en trädstruktur. Antag att våra observationer är tvåsiffriga. Vi bildar då stammen av den första siffran i våra observationer och sedan lägger vi på bladen – den andra siffran. Vi bildar ett stam- och bladdiagram för lönefördelningen vid företaget i föregående exempel: 1

59

2

1358

3

124789

4

1379

5

158

6

2

Genom stam- och bladdiagrammet har vi på ett tydligt sätt åskådliggjort den kvantitativa variabelns fördelning. Metoden var särskilt vanlig innan datorernas tid eftersom stam- och bladdiagrammet faktiskt kan skapas med en skrivmaskin! Diagramtypen kan förstås generaliseras till observationer med fler siffror. Hade observationerna exempelvis varit tresiffriga hade vi normalt bildat stammen av observationernas första två siffror.

21


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

l prickdiagram

En annan diagramtyp som också är användbar för både diskreta och kontinuerliga kvantitativa variabler är prickdiagram. E x e m pe l

En idrottsförening har 250 medlemmar. Vi åskådliggör åldersfördelningen i föreningen med ett prickdiagram:

7

14

21

28

35

42

49

ålder

Ett prickdiagram har bara en axel, x-axeln, på vilken variabeln vi studerar ligger. Sedan tilldelas varje observation en punkt. Vi kan därmed på ett mycket överskådligt sätt betrakta idrottsföreningens åldersfördelning. 2.2.5 Skalor

I vissa sammanhang har man nytta av att kunna göra en ännu finare indelning av variabler, nämligen genom att studera relationen mellan de värden som variabeln kan anta. Man kan då dela upp variabler i tre skalor: nominalskala, ordinalskala och metrisk skala. l nominalskala

Nominalskala hittar vi hos kvalitativa variabler, som är sådana att det ej på något naturligt sätt går att rangordna variabelns värden. E x e m pe l

I en enkät ställs frågan ”Bedömer Du att generalindex kommer att stiga under april månad?”. De tillåtna svarsalternativen är Ja och Nej. Då är variabeln X = respondentens prognos för generalindex utveckling under april månad 22


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

på nominalskala. Likaså är en slumpmässigt vald persons kön, hennes nationalitet eller om hon har husdjur eller ej exempel på variabler på nominalskala. l ordinalskala

Ordinalskala hittas hos både kvalitativa och kvantitativa variabler. Ordinalskala uppträder när variabelns värden har en inbördes storleksordning och därmed kan rangordnas, men avstånden ändå kan vara olika mellan värdena. E x e m pe l

I en enkät ställs frågan ”Hur bedömer Du Din närmaste chefs ledaregenskaper?”. Svarsalternativen är n Mycket goda

n Ganska goda

n Ganska dåliga

n Mycket dåliga

n Godkända

Variabeln X = respondentens bedömning av sin närmaste chefs ledaregenskaper är då på ordinalskala eftersom det finns en inbördes storleksordning mellan variabelns möjliga värden. E x e m pe l

Vi studerar antalet anställda vid företag inom en viss sektor och kategoriserar varje företag i klasserna upp till 5, 6-15, 16-50 och 51 eller fler. Variabeln X = antalet anställda är då på ordinalskala. l metrisk skala

Metrisk skala finner vi hos kvantitativa variabler, där avstånden är desamma mellan variabelns värden. E x e m pe l

Vi studerar den dagliga försäljningen i en butik.

23


k a p i t e l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Variabeln X = dagkassan i butiken en slumpmässigt vald dag är då på metrisk skala eftersom dagskassan mäts i kronor och avståndet mellan en krona och nästa alltid är detsamma.

2.3 Beskrivande mått för kvalitativa variabler Ofta vill man sammanfatta en variabels fördelning med ett eller flera beskrivande mått. Syftet är förstås att på ett smidigt sätt kunna uttala sig om variabeln utan att behöva visa en tabell eller ett diagram. Det finns två typer av beskrivande mått, som kompletterar varandra: lägesmått och spridningsmått. Ett lägesmått kan betraktas som en beskrivning av fördelningens vanligaste värde eller som ett genomsnitt i fördelningen, medan spridningsmått talar om hur pass utspridd längs en talaxel fördelningen är. 2.3.1 Lägesmått l andelar

Andelar är ett lägesmått som fungerar väl för kvalitativa variabler. Vi bestämmer • andel baserat på ett stickprov (stickprovsandel)

p=

antal enheter i stickprovet med studerad egenskap stickprovsstorlek

• andel baserat på populationen (populationsandel)

r=

24

antal enheter i populationen med studerad egenskap population sstorlek


kap ite l 2 / Po p u lati o n e r, sti c k p r ov o c h var iab le r

Vi noterar beteckningarna: p betecknar en stickprovsandel och r en populationsandel. E x e m pe l

Företagshälsovården vid ett företag gör en undersökning om rökvanor. För ett stickprov om 550 anställda uppgav 187 att de röker. Stickprovsandelen rökare är p=

187 = 0. 34 550

Andelar uttrycks ofta i procent och vi drar därför slutsatsen att 34 procent av de anställda som besvarade enkäten är rökare. l typvärde

Typvärdet är värdet som förekommer med högst frekvens i en fördelning. E x e m pe l

Vi har slumpmässigt valt ut fyra studenter ur en universitetsklass och undersökt vilket språk man studerade på gymnasiet (franska, spanska eller tyska). Resultatet blev Franska

Spanska

Spanska

Tyska

Spanska

Spanska

Typvärdet är spanska! Om resultatet istället hade varit Franska

Franska

hade vi fått lov att presentera både franska och spanska som typvärden. Typvärdet är ett praktiskt mått och det lämpar sig också i mer elementära texter, eftersom det inte kräver någon matematisk förståelse.

25


Tillämpad statistik innehåller utöver statistisk teori även övningsuppgifter, fullständiga lösningar, formelsamling, tabeller, ett avsnitt om enkätundersökningar samt ett svensk-engelskt lexikon med statistiska termer. Boken är dessutom rikt illustrerad, vilket lägger en väsentlig grund för förståelsen och är en viktig del i det pedagogiska upplägg som genomsyrar boken. Karl Wahlin är doktor i statistik och universitetslektor i statistik vid Linköpings universitet. Han är dessutom programstudierektor för Kandidatprogrammet för Statistik och dataanalys. Han är en populär föreläsare och har tilldelats flera utmärkelser för sina pedagogiska insatser.

l

Tillämpad statistik en grundkurs

Tillämpad statistik är en komplett kursbok som lämpar sig för studier inom alla fält som använder statistiska metoder för undersökande arbete. Boken är sprungen ur välbeprövat föreläsningsmaterial från grundkurser i statistik för civilekonomer, statsvetare och statistiker.

ISBN 978-91-523-0718-2

9 789152 307182 www.bonnierutbildning.se

(523-0718-2)

Kar l Wah li n

l

Tillämpad statistik en grundkurs


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.