9789144075242

Page 1

Praktisk statistik

Praktisk statistik

|  Praktisk statistik

Alla är vi statistikkonsumenter! Den som tvivlar behöver bara bläddra i en tidning för att bli övertygad. Idag när detta skrivs får vi veta att pojkar som har idrott i skolan varje dag får högre betyg och att fibrer i maten ger bra skydd mot hjärt-kärlsjukdomar, speciellt för kvinnor. På kultursidan (!) läser vi att dagens medianmänniska är 28 år, kines och tjänar runt 80 000 kronor per år och på en annan sida refereras och kommenteras den senaste partisympatiundersökningen. För att nu inte tala om ekonomi- och sportsidorna … Men, kan man lita på statistiken? Hur läser man tabeller och diagram? Hur analyserar man sambandet mellan kost och cancer? Hur mäter man inflationen? Hur gör man befolkningsprognoser? Svaren på dessa och många andra frågor finns i den här boken. Utan krånglig matematik visar författarna hur man samlar in, presenterar och tolkar statistik. Med praktiska exempel förklaras de statistiska begreppen och samtidigt får läsaren ett grundläggande statistiskt ordförråd och en bred statistisk allmänbildning. Boken har under många år använts på introducerande kurser i statistik och också i andra ämnen där statistik spelar en viktig roll. Den har också visat sig fungera väl för personer som på egen hand vill utforska statistikens mysterier. Statistik upplevs av många som svårt och tråkigt. Med denna bok visar författarna ännu en gång att statistik kan vara både lätt och roligt.

Svante Körner Lars Wahlgren

Svante Körner och Lars Wahlgren är lärare vid statistiska institutionen i Lund och välkända läromedelsförfattare.

Svante Körner och Lars Wahlgren

Fjärde upplagan Art.nr 3917 4:e uppl.

www.studentlitteratur.se

978-91-44-07524-2_01_cover.indd 1

2012-06-18 10.20


Kopieringsförbud Detta verk är skyddat av lagen om upphovsrätt. Kopiering, utöver lärares begränsade rätt att kopiera för undervisningsbruk enligt BONUS-Presskopias avtal, är förbjuden. Sådant avtal ­tecknas mellan upphovsrättsorganisationer och huvudman för utbildningsanordnare t.ex. kommuner/universitet. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller BONUS-presskopia. Den som bryter mot lagen om upphovsrätt kan åtalas av ­a llmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till ­ upphovsman/rättsinnehavare. Denna trycksak är miljöanpassad, både när det gäller papper och tryckprocess.

Art.nr 3917 ISBN 978-91-44-07524-2 Upplaga 4:1 © Svante Körner och Studentlitteratur 1993 (första upplagan) © Svante Körner, Lars Wahlgren och Studentlitteratur 2002, 2012 www.studentlitteratur.se Studentlitteratur AB, Lund Omslagslayout: Jens Martin/Signalera Omslagsbild: trendywest/Shutterstock Printed by Pozkal, Poland 2012

978-91-44-07524-2_p001-002.indd 2

2012-06-18 10.01


Innehåll

Förord

7

1 Vad är statistik? 9 1.1 Vårt behov av statistik 10 1.2 Statistiska undersökningar – mål och medel 13 1.2.1 Beskrivande och analytiska undersökningar 14 1.2.2 Experimentella och icke-experimentella undersökningar 16 1.3 Hur ska populationen definieras? 20 1.4 Vilka uppgifter ska vi samla in – varför och hur? 22 1.5 Variabler och skalor 28 1.6 Vilka individer skall ingå i undersökningen? 33 1.6.1 Sannolikhetsurval 35 1.6.2 Icke-sannolikhetsurval 38 1.7 Fel i undersökningar – de statistiska uppgifternas kvalitet 40 Övningsuppgifter 43 2 Tabeller och diagram 45 2.1 Kategorivariabler 45 2.2 Kvantitativa variabler 54 Övningsuppgifter 66 3 Genomsnitt 69 3.1 Typvärdet 69 3.2 Medianen 71 3.3 Aritmetiska medelvärdet 76 3.4 Vilket genomsnitt? 80 3.5 Betingade medelvärden och regression fallacy 3.6 Standardvägning 86 3.6.1 Direkt standardisering 87 3.6.2 Indirekt standardisering 89 Övningsuppgifter 91

82

3


4 Spridning 95 4.1 Minsta och största värde – variationsområde 4.2 Fraktiler 97 4.3 Lådagram 100 4.4 Standardavvikelsen 102 4.4.1 Praktiska beräkningar 104 4.4.2 Normalfördelningsregeln 106 4.4.3 Snabbskattning av s 108 4.4.4 Standardavvikelsens släktingar 108 4.4.5 Linjära transformationer 109 Övningsuppgifter 112 Repetitionsuppgifter, kapitel 1–4 116

97

5 Index 119 5.1 Att beräkna och begripa indexserier 119 5.2 Hur stor är förändringen per år? 122 5.3 Byte av bastidpunkt 123 5.4 Index för grupper av varor 128 5.5 Indexformler 131 5.6 Kedjeindex 133 5.7 Konsumentprisindex 136 5.8 Omräkning med konsumentprisindex 141 5.9 Att kedja indexserier med olika basår 145 Övningsuppgifter 147 6 Regression och korrelation 151 6.1 Minsta-kvadratmetoden 158 6.2 Spridningen kring regressionslinjen 162 6.3 Hur starkt är sambandet? 165 6.4 Prediktioner och betingade medelvärden. Effekten av stympning 168 6.5 Korrelationskoefficienten – effekten av extremvärden 6.6 Aggregerade data – ekologisk korrelation 173 Övningsuppgifter 175

4

171


7 Tidsserier 179 7.1 Jämförelser 179 7.2 Variationsorsaker 181 7.3 Linjär trend 183 7.3.1 Prognoser 185 7.4 Exponentiell trend 189 7.5 Säsonganalys 193 Övningsuppgifter 201 8 Demografi 203 8.1 Några grundläggande begrepp 203 8.2 Dödlighet och livslängd 209 8.3 Fruktsamhet och reproduktion 218 8.4 Befolkningsstrukturer och befolkningsförändringar 8.5 Befolkningsprognoser och framtiden 227 Övningsuppgifter 229 Numeriska svar till vissa uppgifter Sakregister

224

233

247

5



Förord

Alla är vi statistikkonsumenter! Den som tvivlar behöver bara bläddra i en tidning för att bli övertygad. Idag när detta skrivs får vi veta att pojkar som har idrott i skolan varje dag får högre betyg och att fibrer i maten ger bra skydd mot hjärtkärlsjukdomar, speciellt för kvinnor. På kultursidan (!) läser vi att dagens medianmänniska är 28 år, kines och tjänar runt 80 000 kronor per år och på en annan sida refereras och kommenteras den senaste partisympatiundersökningen. För att nu inte tala om ekonomi- och sportsidorna… Men, kan man lita på statistiken? Hur läser man tabeller och diagram? Hur analyserar man sambandet mellan kost och cancer? Hur mäter man inflationen? Hur gör man befolkningsprognoser? Svaren på dessa och många andra frågor finns i den här boken. Utan krånglig matematik berättar vi om de metoder man använder för att samla in, presentera och tolka statistik. Med många praktiska exempel förklaras de statistiska begreppen och samtidigt får du som läsare ett grundläggande statistiskt ordförråd och en god statistisk allmänbildning. Boken har under många år använts på introducerande kurser i statistik och också i andra ämnen där statistik spelar en viktig roll. Den har också visat sig fungera väl för personer som på egen hand vill utforska statistikens mysterier. Lycka till med statistikstudierna önskar vi författare! Stadsparken i Lund 30 april 2012

Svante Körner

Lars Wahlgren

Svante.Korner@stat.lu.se

Lars.Wahlgren@stat.lu.se

7



3 Genomsnitt

Tabeller och diagram kan ge en god bild av ett statistiskt material. Vid en fördjupad beskrivning och analys försöker man också beräkna tal som lyfter fram väsentliga egenskaper i materialet. För en kvantitativ variabel är det framförallt två egenskaper man vill mäta: observationernas genomsnitt och observationernas spridning kring detta genomsnitt. I detta kapitel behandlar vi olika genomsnittsmått. Andra ord för genomsnittsmått är lägesmått och centralmått. Exempel 1 Deltagarna i en kvällskurs i italienska beskrivs på följande sätt:   

De flesta är kvinnor. Medianinkomsten är 27 800 kronor per månad. Medelåldern är 37 år.

Med hjälp av typvärdet, medianen och aritmetiska medelvärdet har vi här angett olika genomsnitt för variablerna kön, inkomst och ålder.

3.1

Typvärdet

Typvärdet (som på engelska heter mode) är det vanligaste värdet, dvs. det värde som har den högsta frekvensen. Typvärdet motsvarar alltså fördelningens maximum. För klassindelade material låter man typvärdet vara klassmitten i den klass som representeras av den högsta stapeln i histogrammet. Under förutsättning att alla klasser har samma bredd innebär detta att typvärdet blir klassmitten i den klass som har högst frekvens. Om klassbredden varierar sätter vi frekvensen i relation till klassbredden och låter typvärdet vara klassmitten i den klass där denna kvot är störst.

69


Exempel 2 Hur många dagstidningar prenumererar du på? En grupp slumpmässigt valda akademiker besvarade frågan så här: Antal tidningar

Antal akademiker

0 1 2 3

9 14 3 1

Av tabellen framgår att 14 av 27 akademiker i urvalet prenumererar på 1 dagstidning. Variabelvärdet 1 är alltså fördelningens typvärde. Exempel 3 Resultaten på en kurs betygsätts med en skala från 1 till 5. För 78 deltagare i kursen fick man denna betygsfördelning: Betyg

Antal deltagare

1 2 3 4 5

5 26 17 26 4

Den högsta frekvensen 26 förekommer två gånger. I detta material finns alltså två typvärden, nämligen variabelvärdena 2 och 4. Man säger att observationerna har en bimodal fördelning. Exempel 4 Här möter vi ett klassindelat material: Klass 0– 5 5 – 15 15 – 25

70

Frekvens 8 12 9

Frekvens/klassbredd 8/5 = 1,6 12/10 = 1,2 9/10 = 0,9


Den första klassen har bredden 5, de övriga två klasserna bredden 10. Mittklassen har den största frekvensen men när vi ser på frekvenserna i förhållande till klassbredden får den lägsta klassen den största kvoten. Därför sätter vi typvärdet till 2,5 som är klassmitten i klassen 0–5.  Typvärdet ställer små krav på observationernas datanivå. Variabeln behöver inte ens vara kvantitativ. Det räcker med att observationerna kan ordnas i grupper och att det går att tala om vilken grupp som är störst. Kravet är alltså nominalskala. När beräknar man typvärdet? Här ger vi några tumregler:    

När det vanligaste värdet är av speciellt intresse. När man utan närmare beräkningar vill ange ett genomsnittsmått. När fler än hälften av observationerna antar samma värde. När observationernas datanivå inte tillåter beräkning av andra genomsnittsmått.

Slutligen och inte minst viktigt: typvärdet är lätt att förstå även för sifferovana personer.

3.2

Medianen

När observationerna i ett statistiskt material är ordnade i storleksordning är medianen (md) mittobservationens variabelvärde. När materialet består av ett jämnt antal observationer är medianen medelvärdet av de två mittobservationerna. Exempel 5 Fem personer har deltagit i ett intelligenstest med följande resultat: 102

128

98

103

107

Först ordnar vi observationerna i storleksordning: 98

102

103 

107

128

medianen

Mittvärdet 103 är medianen. Två observationer ligger under medianen (till vänster) och två observationer ligger över. 71


Exempel 6 På en skrivning i sannolikhetslära med åtta uppgifter har sex studenter haft följande antal rätt: 0

1

3 

5

5

8

mittvärdena

I exemplet är antalet observationer jämnt, vilket innebär att mitten i materialet ligger mellan två värden. Då blir medianen md 

35 4 2

Här ligger tre observationer under medianvärdet och tre observationer över.  n 1 hittar man snabbt 2 vilket av de ordnade värdena som är medianen. I exemplet blir ordningsnumret (n + 1)/2 = (6 + 1)/2 = 3,5. Det betyder att medianen ligger mellan det tredje och fjärde ordnade värdet.

Genom att använda medianens ordningsnummer 

I exempel 5 och 6 har vi samma antal observationer på båda sidor av medianen. Men det är fel att tro att antalet individer med värden mindre än medianvärdet alltid är lika stort som antalet individer med värden större än medianvärdet. Det visar nästa exempel. Exempel 7 Antalet barn i 25 hushåll i ett äldre bostadsområde redovisas så här: Antal barn Antal hushåll

0

1

2

14

8

3

I frekvenstabellen är observationerna ordnade efter storlek. De första fjorton hushållen har inga barn. Medianen är antalet barn i det hushåll som har ordningsnummer 13, dvs. 0 barn. Som vi ser har ingen av de 25 observationerna i exempel 7 ett värde mindre än medianvärdet. När variabeln bara antar ett fåtal olika värden kan alltså medianen vara ett missvisande – och därmed olämpligt – genomsnittsmått.  72


När man ska bestämma medianen utgår man ofta från de ackumulerade eller kumulerade frekvenserna. Exempel 8 Hur ofta brukar du motionera? Här kan det vara naturligt att fråga hur begreppet motion har definierats! Men vi hoppar över den diskussionen och visar direkt hur 137 studenter svarade. Antal gånger/vecka

Antal studenter

Kumulerad frekvens

0 1 2 3 4–

39 12 24 40 22

39 39+12=51 39+12+24=75 39+12+24+40=115 39+12+24+40+22=137

Observationernas ordningsnummer 1 – 39 40 – 51 52 – 75 76 – 115 116 – 137

I tabellen har vi beräknat de kumulerade frekvenserna genom att stegvis addera frekvenserna från det lägsta variabelvärdet till det högsta. För variabelvärdet 2 är den kumulerade frekvensen 75, vilket innebär att 75 studenter motionerade högst 2 gånger per vecka. Med hjälp av de kumulerade frekvenserna är det enkelt att för varje variabelvärde ange observationernas ordningsnummer. Det finns totalt 137 observationer, vilket innebär att medianen har ordningsnummer 69. Av tabellen kan vi utläsa att 24 observationer med variabelvärdet 2 har ordningsnummer 52 till 75. Medianen är alltså 2 gånger per vecka. 

73


När materialet är klassindelat och vi inte känner de individuella mätvärdena kan vi göra en approximativ beräkning av medianen. Då låter vi medianen vara det variabelvärde som delar histogrammets area i två lika stora delar. Exempel 9 Åldersfördelningen för 67 personer redovisas så här: Ålder/år

Antal personer

–19 20–24 25–29 30–39 40–49

5 10 17 27 8

Kumulerad frekvens 5 15 32 59 67

I materialet finns sammanlagt 67 individer. I ett histogram över fördelningen ska varje individ representeras av en lika stor areaenhet, dvs. histogrammet omfattar totalt n  67 areaenheter. Medianen delar denna area i två lika stora delar. På båda sidor om medianen finns alltså n 67   33,5 areaenheter. 2 2 Av de kumulerade frekvenserna framgår att medianen ligger i klassen 30– 39 år (där den nedre klassgränsen är 30 år och den övre klassgränsen är 40 år). Med en figur beskriver vi denna del av fördelningen. totalt 27 individer i intervallet 30–39 år

32 yngre

1,5

30 år

8 äldre

25,5

medianen

40 år

Under medianklassens nedre gräns, som alltså är 30 år, finns sammanlagt 32 individer (motsvarande 32 areaenheter i histogrammet). I median74


klassen finns sammanlagt 27 individer. Vi förutsätter att dessa är jämnt fördelade över intervallet 30–40 år. Då ligger 1,5 till vänster om medianen (32+1,5 = 33,5 = n/2) och alltså 25,5 till höger. Med hjälp av interpolering beräknar vi nu medianen: 30 

1,5  10  30,6 27

Medelåldern är alltså nästan 31 år. Medianen delar histogrammets area i två lika stora delar och kan givetvis också beräknas ”från höger till vänster”. Till höger om den övre gränsen 40 år finns 8 individer. Av medianklassens 27 individer måste vi alltså ta 25,5 (8+25,5 = 33,5 = n/2), vilket ger resultatet 40 

25,5  10  30,6 år 27

Slutligen upprepar vi: den approximativa beräkningen av medianen gör vi enbart då vi inte känner de individuella mätvärdena. Har vi tillgång till det ursprungliga materialet beräknar vi givetvis medianen på vanligt sätt. I exempel 8 känner vi de absoluta frekvenserna för olika klasser. Men självklart går det lika bra att beräkna medianen med de relativa frekvenserna. När använder man medianen som genomsnittsmått? Här ger vi några tumregler:  

Medianen är i likhet med typvärdet lätt att begripa. Ur den synpunkten är medianen ofta ett bra beskrivande mått. När observationernas datanivå inte tillåter beräkning av andra genomsnittsmått. Beräkning av medianen innebär enbart att observationerna ordnas efter storlek; det är alltså tillräckligt med en ordinalskala. När materialet innehåller extremvärden – dvs. kraftigt avvikande värden – som gör att andra genomsnittsmått blir missvisande. Medianen bestäms av mittvärdet/mittvärdena i materialet och påverkas inte av eventuella extremvärden. Man säger att medianen är ett robust genomsnittsmått.

75


3.3

Det aritmetiska medelvärdet

Det aritmetiska medelvärdet – som oftast kallas medelvärdet – är summan av de observerade värdena dividerad med antalet observationer. Matematiskt kan man skriva definitionen så här: Medelvärdet x för n observationer x1, x2 ,..., xn är x

x1  x2  ...  xn  x  n n

Exempel 10 I fyra familjer finns 1, 2, 2 och 5 barn. Medelvärdet är 1  2  2  5 10   2,5 4 4

dvs. i genomsnitt 2,5 barn per familj. Trots att variabeln – antal barn – enbart kan anta heltalsvärden behöver inte medelvärdet anges i heltal, men decimalerna bör naturligtvis inte vara flera än att de ger korrekt och meningsfull information. Lägg märke till att medelvärdet förutsätter att det är meningsfullt att summera mätvärdena. Det krävs alltså minst intervallskala för observationerna. Vid lägre datanivåer bör man istället ange medianen eller typvärdet. Exempel 11 40 personer med diskbråck får subjektivt – på en femgradig skala från 1 till 5 – ange den smärta de upplever vid en viss rörelse. Observationernas summa och därmed medelvärdet är här inget bra mått, eftersom de ursprungliga subjektiva mätvärdena både är omöjliga att tolka individuellt och att jämföra inbördes. Typvärdet och medianen skulle ge en mer korrekt beskrivning av materialet.

76


Exempel 12 För 38 arbetstagare på ett stort företag finns följande uppgifter om antalet frånvarodagar under oktober månad: 1 2 1 0

0 4 3 0

3 5 2 2

4 2 3 0

2 1 0 3

0 2 0 3

3 0 1 2

2 0 3 0

1 2 2

1 3 0

Medelvärdet får vi genom att summera de 38 observationerna och därefter dividera summan med 38. Totala antalet frånvarodagar är  x  63 och den genomsnittliga frånvaron per arbetstagare

x 63 x   1,66 n 38 Medelvärdet är alltså 1,7 dagar. Exempel 13 Observationerna i exempel 12 kan också sammanställas en frekvenstabell. Då får vi detta resultat: Frånvaro/antal dagar (x) Antal arbetstagare (f)

0

1

2

3

4

5

11

6

10

8

2

1

Och beräkningarna gör vi så här: x

f

f·x

0 1 2 3 4 5

11 6 10 8 2 1

0 6 20 24 8 5

 38

 f  x  63

f

Vi får givetvis exakt samma resultat som i exempel 12:

x

 f  x   f  x  63  1,66 38 n f 77


Praktisk statistik

Praktisk statistik

|  Praktisk statistik

Alla är vi statistikkonsumenter! Den som tvivlar behöver bara bläddra i en tidning för att bli övertygad. Idag när detta skrivs får vi veta att pojkar som har idrott i skolan varje dag får högre betyg och att fibrer i maten ger bra skydd mot hjärt-kärlsjukdomar, speciellt för kvinnor. På kultursidan (!) läser vi att dagens medianmänniska är 28 år, kines och tjänar runt 80 000 kronor per år och på en annan sida refereras och kommenteras den senaste partisympatiundersökningen. För att nu inte tala om ekonomi- och sportsidorna … Men, kan man lita på statistiken? Hur läser man tabeller och diagram? Hur analyserar man sambandet mellan kost och cancer? Hur mäter man inflationen? Hur gör man befolkningsprognoser? Svaren på dessa och många andra frågor finns i den här boken. Utan krånglig matematik visar författarna hur man samlar in, presenterar och tolkar statistik. Med praktiska exempel förklaras de statistiska begreppen och samtidigt får läsaren ett grundläggande statistiskt ordförråd och en bred statistisk allmänbildning. Boken har under många år använts på introducerande kurser i statistik och också i andra ämnen där statistik spelar en viktig roll. Den har också visat sig fungera väl för personer som på egen hand vill utforska statistikens mysterier. Statistik upplevs av många som svårt och tråkigt. Med denna bok visar författarna ännu en gång att statistik kan vara både lätt och roligt.

Svante Körner Lars Wahlgren

Svante Körner och Lars Wahlgren är lärare vid statistiska institutionen i Lund och välkända läromedelsförfattare.

Svante Körner och Lars Wahlgren

Fjärde upplagan Art.nr 3917 4:e uppl.

www.studentlitteratur.se

978-91-44-07524-2_01_cover.indd 1

2012-06-18 10.20


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.