9789144094687

Page 1

31 mm

Grundläggande statistisk analys Med statistik kan man beskriva insamlad data på många olika sätt. Man kan också använda statistik för att analysera företeelser med hjälp av stickprov. I denna bok beskrivs grunderna för hur detta går till. Områden som tas upp är beskrivande statistik, sannolikhetslära, diskreta och kontinuerliga fördelningar, punkt- och intervallskattning, regressionsanalys, hypotesprövning, variansanalys, chi-tvåtester, icke-parametriska metoder, med mera. Det är en illusion att man ”kan statistik” för att man vet vilken formel man ska använda i vilket sammanhang eller för att man behärskar ett datorprogram med stöd för statistisk databearbetning. Naturligtvis är det viktigt att man kan hantera såväl den räknetekniska som den datormässiga delen av ämnet, men en god förståelse för statistisk metod kräver förståelse för ämnets teoretiska grund. Stor vikt har därför lagts på den pedagogiska framställningen. Tanken är att man med hjälp av boken inte bara ska kunna använda sig av statistiska metoder och modeller, man ska även få en känsla för den teoretiska grund som metoderna och modellerna baseras på. Den övergripande idén med boken är alltså att man som statistikanvändare inte bara ska förstå hur man gör i en viss situation, man ska även förstå varför.

Björn Lantz  |  Grundläggande statistisk analys

Björn Lantz är docent i industriell ekonomi på Chalmers tekniska högskola. Han har stor erfarenhet av kvantitativa metoder i både undervisning och forskning.

Grundläggande statistisk analys

Den matematiska begreppsapparaten som används baseras på att läsaren är bekant med gymnasiematematikens kurser A-C. Med ett stort antal övningsuppgifter – samtliga med svar – lämpar sig boken även väl för självstudier. Som illustrerande datorstöd i boken används framför allt Microsoft Excel, men i några fall används även det mer renodlade statistikprogrammet Minitab där Excel inte är tillräckligt. Andra upplagan Art.nr 31909

Björn Lantz www.studentlitteratur.se

978-91-44-09468-7_01_cover.indd 1

2013-07-22 14:49


Kopieringsförbud Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares begränsade rätt att kopiera för undervisningsbruk enligt Bonus Presskopias skolkopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Presskopia. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Denna trycksak är miljöanpassad, både när det gäller papper och tryckprocess.

Art.nr 31909 isbn 978-91-44-09468-7 Upplaga 2:1 © Författaren och Studentlitteratur 2013 www.studentlitteratur.se Studentlitteratur AB, Lund Omslag: Francisco Ortega Printed by Holmbergs i Malmö AB, Sweden 2013


Introduktion till statistisk analys

Innehåll

Förord .................................................................................................. 9 1 Introduktion till statistisk analys ............................................... 11 1.1 Inledning ............................................................................... 11 1.2 Mått på centraltendens ......................................................... 13 1.3 Variabeltyper......................................................................... 16 1.4 Populationer och stickprov.................................................... 19 1.5 Mått på spridning .................................................................. 22 1.6 Klasser och stapeldiagram ................................................... 29 1.7 Index ..................................................................................... 34 1.8 Syntes................................................................................... 39 Övningsuppgifter ........................................................................... 40 2 Sannolikhetslära ......................................................................... 45 2.1 Inledning ............................................................................... 45 2.2 Betingade sannolikheter ....................................................... 51 2.3 Oberoende händelser ........................................................... 53 2.4 Bayes teorem........................................................................ 56 2.5 Kombinatorik ......................................................................... 59 2.6 Syntes................................................................................... 63 Övningsuppgifter ........................................................................... 64 3 Diskreta fördelningar .................................................................. 73 3.1 Inledning ............................................................................... 73 3.2 Centraltendens och spridning ............................................... 78 3.3 Standardfördelade diskreta slumpvariabler .......................... 82 3.4 Binomialfördelningen ............................................................ 85 3.5 Poissonfördelningen ............................................................. 90 3.6 Hypergeometriska fördelningen ............................................ 94 3.7 Geometriska fördelningen..................................................... 99 3.8 Negativa binomialfördelningen............................................ 101 3.9 Syntes................................................................................. 105

© Författaren och Studentlitteratur

3


Introduktion till statistisk analys

Övningsuppgifter ......................................................................... 106 4 Kontinuerliga fördelningar ....................................................... 115 4.1 Inledning ............................................................................. 115 4.2 Normalfördelningen ............................................................ 123 4.3 Standardnormalfördelningen .............................................. 127 4.4 Transformering av normalfördelade slumpvariabler ........... 131 4.5 Normalfördelningsapproximationer ..................................... 142 4.6 Syntes................................................................................. 148 4.7 Appendix: Erlangfördelningen............................................. 149 4.8 Appendix: Gammafördelningen .......................................... 152 4.9 Appendix: Weibullfördelningen ........................................... 155 Övningsuppgifter ......................................................................... 158 5 Stickprovsfördelningar............................................................. 165 5.1 Inledning ............................................................................. 165 5.2 Centrala gränsvärdessatsen ............................................... 170 5.3 t-fördelningen...................................................................... 176 5.4 Stickprovsfördelningen för proportioner .............................. 180 5.5 Syntes................................................................................. 183 Övningsuppgifter ......................................................................... 185 6 Konfidensintervall..................................................................... 189 6.1 Inledning ............................................................................. 189 6.2 Konfidensintervall för  när  är känd ................................ 191 6.3 Konfidensintervall för  när  är okänd .............................. 196 6.4 Konfidensintervall för p ....................................................... 201 6.5 Konfidensintervall för parametrar i ändliga populationer..... 205 6.6 Att bestämma stickprovsstorlek .......................................... 209 6.7 Syntes................................................................................. 213 Övningsuppgifter ......................................................................... 214 7 Test av hypoteser...................................................................... 223 7.1 Inledning ............................................................................. 223 7.2 Kritiska värden och p-värden .............................................. 229 7.3 Hypotestest för populationsmedelvärde.............................. 232 7.3.1 Normalfördelad population......................................... 233 7.3.2 Ej normalfördelad population ..................................... 240 7.4 Hypotestest för populationsproportion ................................ 242 7.4.1 Stort stickprov: Normalfördelningsapproximation ...... 243 7.4.2 Litet stickprov: Binomialfördelning ............................. 246 7.5 Hypotestest för populationsvarians..................................... 249

4

© Författaren och Studentlitteratur


Introduktion till statistisk analys

7.6 Syntes................................................................................. 255 7.7 Appendix: Styrkan för ett statistiskt test .............................. 256 Övningsuppgifter ......................................................................... 258 8 Jämförelse av två populationer ............................................... 265 8.1 Inledning ............................................................................. 265 8.2 Att jämföra varianser för två oberoende populationer......... 266 8.3 Att jämföra proportioner för två oberoende populationer .... 270 8.4 Att jämföra medelvärden för två oberoende populationer... 276 8.5 Att jämföra parvisa observationer ....................................... 284 8.6 Syntes................................................................................. 289 Övningsuppgifter ......................................................................... 290 9 Variansanalys ............................................................................ 297 9.1 Inledning ............................................................................. 297 9.2 Ensidig variansanalys ......................................................... 300 9.3 Tukeys test ......................................................................... 309 9.4 Tvåsidig variansanalys ....................................................... 312 9.5 Randomiserad blockdesign ................................................ 318 9.6 Syntes................................................................................. 323 Övningsuppgifter ......................................................................... 324 Appendix 1: Formler för tvåsidig variansanalys ......................... 332 Appendix 2: Formler för randomiserad blockdesign.................... 334 10 Chitvå-tester .............................................................................. 335 10.1 Inledning ............................................................................. 335 10.2 Test av anpassningsgrad – diskret fördelning .................... 336 10.3 Test av anpassningsgrad – kontinuerlig fördelning............. 341 10.4 Korstabellanalys ................................................................. 344 10.5 Syntes................................................................................. 347 Övningsuppgifter ......................................................................... 348 11 Icke-parametriska metoder ...................................................... 357 11.1 Inledning.............................................................................. 357 11.2 Teckentest........................................................................... 358 11.3 Wilcoxons teckenrangtest ................................................... 362 11.4 Mann-Whitneys test ............................................................ 368 11.5 Kruskal-Wallis test............................................................... 374 11.6 Syntes ................................................................................ 380 Övningsuppgifter ......................................................................... 380

© Författaren och Studentlitteratur

5


Introduktion till statistisk analys

12 Introduktion till regression och korrelation............................ 387 12.1 Inledning.............................................................................. 387 12.2 Minsta-kvadratmetoden....................................................... 391 12.3 Korrelation........................................................................... 397 12.4 Prediktion ............................................................................ 403 12.5 Vanliga problem vid enkel regression ................................. 405 12.6 Fullständig regressionsanalys med Excel........................... 407 12.7 Syntes ................................................................................. 409 12.8 Appendix: Härledning av formler för minsta kvadratmetoden .............................................................................. 410 Övningsuppgifter ......................................................................... 413 13 Mer om regressionsanalys....................................................... 419 13.1 Inledning ............................................................................. 419 13.2 Hypotestest för den sanna korrelationskoefficienten ρ ....... 419 13.3 Konfidensintervall för regressionslinjens parametrar .......... 423 13.4 Hypotestest för regressionslinjens parametrar ................... 425 13.5 Prediktionsintervall.............................................................. 427 13.6 F-test för regressionsmodellen ........................................... 428 13.7 Introduktion till multipel regression ..................................... 429 13.8 Syntes................................................................................. 433 13.9 Appendix: Transformering av icke-linjära samband i regressionsanalys ............................................................... 434 13.9.1 Introduktion .............................................................. 434 13.9.2 Anpassning till potensfunktion ................................. 435 13.9.3 Anpassning till semi-logaritmisk funktion ................. 437 13.9.4 Anpassning till exponentialfunktion.......................... 440 13.9.5 Anpassning till reciprokalfunktion ............................ 442 13.9.6 Utvärdering av regressionssamband baserade på transformering................................................................ 444 13.9.7 Anpassning till andragradsfunktion .......................... 445 13.9.8 Anpassning till tredjegradsfunktion .......................... 448 13.10 Appendix: Logistisk regression ......................................... 450 14 Avslutning .................................................................................. 455 14.1 Något om totalundersökningar och signifikanstester .......... 455 14.2 Några ord om statistik som vetenskaplig metod ................. 457 Svar till övningsuppgifter .............................................................. 459 Kapitel 1 ...................................................................................... 459 Kapitel 2 ...................................................................................... 463 Kapitel 3 ...................................................................................... 471

6

© Författaren och Studentlitteratur


Introduktion till statistisk analys

Kapitel 4 ...................................................................................... 479 Kapitel 5 ...................................................................................... 485 Kapitel 6 ...................................................................................... 488 Kapitel 7 ...................................................................................... 499 Kapitel 8 ...................................................................................... 511 Kapitel 9 ...................................................................................... 523 Kapitel 10 .................................................................................... 533 Kapitel 11 .................................................................................... 543 Kapitel 12 .................................................................................... 546 Appendix ......................................................................................... 559 Sakregister ...................................................................................... 585

Š FÜrfattaren och Studentlitteratur

7


Introduktion till statistisk analys

8

Š FÜrfattaren och Studentlitteratur


Introduktion till statistisk analys

Förord

Den klassiska klyschan uppger att det finns tre sorters osanningar: ren lögn, förbannad dikt och statistik. Och det stämmer kanske – om man inte begriper sig på hur och varför man använder sig av statistik. För egentligen är det faktiskt precis tvärtom. Med statistiska metoder får man fram ”sanningen” om verkligheten, om än endast med viss grad av säkerhet och endast under vissa bestämda antaganden. Den här boken introducerar läsaren till den grundläggande statistiska analysen. Målet är inte bara att läsaren ska får lära sig hur man gör när man arbetar med grundläggande statistiska metoder och modeller, utan också varför man gör som man gör i olika situationer. Matematiska formler kan vara svåra att tränga in i och det är inte alltid uppenbart vid en första anblick varför de ser ut som de gör. En medveten ansträngning har därför gjorts att förklara olika formler och samband. Undantagsvis görs detta med hjälp av direkt matematisk härledning, men i de flesta fall baseras dessa förklaringar på exempel och resonemang i ord. Förhoppningen är att de flesta läsare därmed ska kunna uppleva logiken i den matematiska framställning som trots allt är nödvändig för en bok på detta område. En vanlig fundering bland studenter som möter statistikämnet för första gången är varför man behöver kunna räkna ”för hand” med de statistiska modellerna när det finns datorstöd för nästan allt på området. Svaret är att datorstöd är jättebra och ofta till och med nödvändigt – för den som verkligen vet och förstår vad det är han/hon håller på med. Man måste ta det i tur och ordning. Datorstöd används alltså med fördel när man väl har skaffat sig en god erfarenhet av och god förståelse för den statistiska teorigrunden, och sådan erfarenhet och förståelse kan bara uppnås genom att man arbetar konkret med de statistiska verktygen –

© Författaren och Studentlitteratur

9


Introduktion till statistisk analys

metoderna och modellerna – på lägsta nivå. När man har kommit så pass långt att man utan att behöva räkna instinktivt ”vet” när något inte stämmer eller hur något bör sluta, då är man på god väg att bli en rutinerad statistikanvändare. Nackdelarna med att bara använda datorstöd innan man verkligen har grepp om teorin bakom de statistiska modellerna kan alltså sammanfattas med att det dels kan ge en falsk känsla av insikt gällande de koncept som används, dels en bristande utveckling av den grundläggande matematiska förståelse som faktiskt krävs. Syftet med den här boken är alltså inte bara att visa hur man gör när man arbetar med grundläggande statistiska modeller, utan även varför. Lerum, januari 2009 Björn Lantz

Förord till andra upplagan I bokens andra upplaga har flera tillägg gjorts jämfört med första upplagan. I kapitel 4 tas numera även Erlangfördelningen, gammafördelningen och Weibullfördelningen upp. I kapitel 7 gås konceptet statistisk styrka (”power”) igenom. I kapitel 10 visas hur chitvåfördelningen kan användas för att jämföra tre eller fler populationsproportioner. I kapitel 13 visas hur olika slags icke-linjära samband kan hanteras med regressionsanalys genom s.k. transformation. Även logistisk regression tas upp i kapitel 13. Ett antal kända korrekturfel i boken har också rättats. Augusti 2013 Björn Lantz

10

© Författaren och Studentlitteratur


Diskreta fördelningar

3 Diskreta fördelningar

3.1 Inledning En torghandlare har en viss dag tagit med sig 4 kartonger med hallon till sitt försäljningsställe på torget. Han säljer hallonen endast i hela kartonger. Hur många kartonger kommer torghandlaren att sälja den aktuella dagen? Ja, uppenbarligen måste svaret bli 0, 1, 2, 3 eller 4 kartonger, eftersom han säljer hallonen bara i hela kartonger och varken kan sälja färre än 0 eller fler än 4. Utfallsrummet är alltså {0, 1, 2, 3, 4}. Men innan försäljningen börjar kan han inte säkert veta hur många kartonger han faktiskt kommer att sälja eftersom slumpen påverkar utfallet. Det antal kartonger som torghandlaren faktiskt kommer att sälja under dagen kallas därför för slumpvariabel. En slumpvariabel X är en variabel som får sitt värde x i en process som är påverkad av slumpen. Det faktiska antalet kartonger med hallon som torghandlaren säljer under dagen, utfallet, kommer alltid att vara ett heltal. När utfallsrummet för en slumpvariabel är begränsat så att variabeln endast kan anta vissa värden säger vi att slumpvariabeln är diskret. Några exempel på diskreta slumpvariabler: 

Antalet defekta komponenter som kommer att hittas i ett stickprov om fem komponenter. Utfallsrummet är då {0, 1, 2, 3, 4, 5}.

Antalet pojkar i en barnfamilj med ett barn. Utfallsrummet är då {0, 1}.

Antalet pojkar i en barnfamilj med två barn. Utfallsrummet är då {0, 1, 2}.

© Författaren och Studentlitteratur

73


Diskreta fördelningar

Antalet kunder i en viss affär en viss dag. Utfallsrummet är då {0, 1, 2, 3…}.

I nästan alla praktiska tillämpningar är en diskret slumpvariabel avgränsad till just heltalsvärden. Om en viss variabel bara kan anta heltalsvärden så är den alltså diskret. Motsatsen till en diskret slumpvariabel är en slumpvariabel som kan anta precis vilket värde som helst i ett visst intervall. En sådan slumpvariabel kallar vi kontinuerlig. Några exempel på kontinuerliga variabler: 

Temperaturen (i grader Celsius) i en viss masugn

Tiden (i minuter) en kund får vänta på betjäning i en viss kassakö

Vikten (i gram) på vissa nyskördade äpplen

Diametern (i cm) på vissa kullagerringar

Alla fyra exemplen ovan har det gemensamt att det inte går att specificera utfallsrummen. En kontinuerlig slumpvariabel har alltid ett oändligt antal olika möjliga utfall, eftersom utfallet är ett resultat av en mätning som åtminstone teoretiskt går att genomföra hur noggrant som helst. En diskret slumpvariabel kan bara anta vissa värden, normalt heltalsvärden. En kontinuerlig slumpvariabel kan anta vilket värde som helst inom ett visst intervall. Eftersom en kontinuerlig variabel har ett oändligt antal möjliga utfall saknar det mening att analysera hur sannolikt ett visst specifikt utfall är. Alternativt kan vi säga att varje enskilt utfall för en kontinuerlig variabel är förknippat med en sannolikhet som matematiskt sett går mot noll. När det gäller kontinuerliga variabler analyserar vi därför endast sannolikheten för att få ett utfall som är större än ett specifikt värde, mindre än ett specifikt värde eller inom ett specifikt intervall. Analys av kontinuerliga variabler kommer vi att gå in närmare på i nästa kapitel.

74

© Författaren och Studentlitteratur


Diskreta fördelningar

För diskreta slumpvariabler kan vi däremot analysera sannolikheten för såväl olika enskilda utfall som sannolikheten att ett utfall kommer att vara större än ett specifikt värde, mindre än ett specifikt värde eller inom ett specifikt intervall. Utgångspunkten är då slumpvariabelns sannolikhetsfördelning, eller bara fördelning, vilken associerar en sannolikhet med vart och ett av alla tänkbara värden som variabeln kan anta. För en slumpvariabel X betecknar vi sannolikheten för att vi får det enskilda utfallet x med P ( X  x) . Enligt lagen om total sannolikhet måste summan av de olika utfallens sannolikheter dessutom bli 1, eftersom en diskret slumpvariabel alltid utfaller med något av de möjliga värdena i utfallsrummet. Varje diskret sannolikhetsfördelning måste uppfylla villkoret n

 P( X  x )  1 i 1

i

Sannolikhetsfördelningen för en slumpvariabel specificerar alltså sannolikheten att slumpvariabeln får ett visst värde. När dessa sannolikheter är kända kan vi enkelt beräkna sannolikheten att slumpvariabeln får högst ett visst värde x. Denna sannolikhet betecknas med F(x) och erhålls genom att vi summerar sannolikheterna för alla utfall som är mindre än eller lika med x. Det gäller alltså att F ( x)  P( X  x) . F(x) kallas för slumpvariabelns kumulativa fördelningsfunktion eftersom vi får värdet på F(x) genom att ackumulera sannolikheter.

Exempel 3-1

Arne är torghandlare. Han brukar bland annat ha med sig 4 kartonger med hallon varje dag till torget. Av erfarenhet vet han att han i genomsnitt var 20:e dag inte säljer några hallonkartonger alls, att han i genomsnitt var 5:e dag säljer alla 4 kartongerna, samt att det övriga dagar är lika sannolikt att han säljer 1, 2 eller 3 kartonger. Hur sannolikt är det att Arne säljer minst 3 kartonger med hallon?

© Författaren och Studentlitteratur

75


Diskreta fördelningar

Lösning

Låt X vara antalet sålda kartonger. Direkt av uppgiften kan vi utläsa att

P ( X  0)  1 / 20  0,05 och att

P( X  4)  1 / 5  0,2 . Vi vet att summan av sannolikheterna ska bli 1, vilket innebär att

P ( X  1)  P( X  2)  P( X  3)  1  0,05  0,2  0,75 . Eftersom utfallen 1, 2 och 3 ska ha samma sannolikhet vet vi att denna sannolikhet måste vara 0,75 / 3 = 0,25. Sannolikhetsfördelningen framgår av tabell 3.1.

Tabell 3.1: Sannolikhetsfördelningen för antalet sålda kartonger hallon

x

P ( X  x)

0

0,05

1

0,25

2

0,25

3

0,25

4

0,20 1,00

Notera att sannolikheterna kan summeras till 1,00, vilket är ett villkor för att det ska röra sig om en fullständig en sannolikhetsfördelning. Sannolikhetsfördelningen i exemplet kan illustreras med ett stolpdiagram, som i figur 3.1.

76

© Författaren och Studentlitteratur


Diskreta fördelningar

Figur 3.1: Stolpdiagram för sannolikhetsfördelningen i exempel 3-1.

Vi kan nu ta fram den kumulativa fördelningsfunktionen F(x). Denna framgår av tabell 3.2. Tabell 3.2: Den kumulativa fördelningsfunktionen för antalet sålda kartonger hallon

x P( X  x)

F ( x)  P ( X  x)

0

0,05

P( X  0) = 0,05

1

0,25

P( X  0) + P ( X  1) = 0,30

2

0,25

P( X  0) + P ( X  1) + P ( X  2) = 0,55

3

0,25

P( X  0) + P ( X  1) + P ( X  2) + P( X  3) = 0,80

4

0,20

P( X  0) + P ( X  1) + P ( X  2) + P( X  3) + P ( X  4) = 1,00

Av tabellen framgår att sannolikheten att Arne säljer högst 2 kartonger med hallon är F (2)  P( X  2) = 0,55. Vi kan nu utnyttja lagen om total sannolikhet för att beräkna sannolikheten att han säljer minst 3 kartonger:

© Författaren och Studentlitteratur

77


Diskreta fördelningar

P ( X  3)  1  P( X  2) = 1 – 0,55 = 0,45. Vi kunde också ha kommit fram till denna sannolikhet genom att summera sannolikheterna för de enskilda utfall som innebär att minst 3 kartonger säljs. Vi får då

P ( X  3)  P( X  3)  P( X  4) = 0,25 + 0,20 = 0,45.

3.2 Centraltendens och spridning Av bokens inledningskapitel framgick att medelvärde är det viktigaste måttet på centraltendens för datamängder, medan varians och standardavvikelse är de viktigaste måtten på spridning. En diskret variabels centraltendens beräknas genom att de olika möjliga tänkbara utfallen vägs ihop till ett medelvärde med respektive utfalls sannolikhet som vikt. Detta vägda medelvärde för en diskret variabel X kallas variabelns väntevärde (på engelska: expected value) och betecknas med E(X). Väntevärdet för en diskret variabel är det värde vi i genomsnitt kan förvänta oss blir utfallet för variabeln. Väntevärdet för en diskret slumpvariabel X: n

E ( X )   xi  p ( X  xi ) i 1

Variansen för en diskret slumpvariabel X betecknas med V(X) och detta värde beräknar vi genom att väga ihop de olika utfallens kvadrerade avvikelser från centraltendensen med respektive utfalls sannolikhet som vikt. Variansen för en diskret slumpvariabel X: n

V ( X )   ( xi  E ( X )) 2  p ( X  xi ) i 1

78

© Författaren och Studentlitteratur


Diskreta fördelningar

Notera att i det speciella fallet där alla de n tänkbara utfallen för en diskret slumpvariabel har samma sannolikhet, d.v.s. där P ( X  x)  (1 / n) för alla x, kommer uttrycket för varians att bli identiskt med det uttryck för varians som vi känner igen sedan tidigare från kapitlet om beskrivande statistik. Variansen för en diskret slumpvariabel X när P ( X  x)  (1 / n) för alla x: n

n

V ( X )   ( xi  E ( X )) 2  (1 / n)  i 1

2  ( xi   )

i 1

n

, då E (X )  

Standardavvikelsen för en diskret slumpvariabel X betecknas S(X) och beräknas som roten ur variansen precis som tidigare. Standardavvikelsen för en diskret slumpvariabel X: S(X )  V (X )

Exempel 3-2

Beräkna det förväntade antal kartonger hallon som torghandlaren Arne i exempel 3-1 kommer att sälja en viss dag. Beräkna också variansen och standardavvikelsen. Lösning

Låt X symbolisera antalet sålda kartonger. Vi beräknar då det förväntade värdet för X som

E( X ) 

 x  p( X  x)  0  0,05  1  0,25  2  0,25  3  0,25  4  0,2  2,3

Alla _ x

Givetvis kommer Arne inte någon enskild dag att sälja just 2,3 kartonger hallon eftersom X är en diskret slumpvariabel som endast kan anta

© Författaren och Studentlitteratur

79


Diskreta fördelningar

heltalsvärden, men det är vad han i genomsnitt kommer att sälja över tiden så länge sannolikhetsfördelningen i exempel 3-1 gäller. Variansen beräknas som V (X ) 

 ( x  E ( X ))

2

 p ( X  x)  (0  2,3) 2  0,05 

Alla _ x

 (1  2,3) 2  0,25  (2  2,3) 2  0,25  (3  2,3) 2  0,25  (4  2,3) 2  0,2  1,41 Standardavvikelsen är roten ur variansen: S ( X )  V ( X )  1,41 = 1,187.

Ofta är vi intresserade av värdet av en funktion av en slumpvariabel snarare än värdet av slumpvariabeln i sig. Vi betecknar en funktion av en diskret slumpvariabel X med f(X). Väntevärdet av f(X), betecknat med E(f(X)), beräknar vi genom att väga ihop de olika utfallens funktionsvärden med respektive sannolikhet. Väntevärdet för en funktion av en diskret slumpvariabel X: n

E ( f ( X ))   f ( xi )  p ( X  xi ) i 1

På samma sätt beräknar vi variansen av en funktion av en diskret slumpvariabel genom att väga ihop de kvadrerade avvikelserna från väntevärdet med respektive sannolikhet. Variansen för en funktion av en diskret slumpvariabel X: n

V ( f ( X ))   ( f ( xi )  E ( f ( X ))2  p ( X  xi ) i 1

80

© Författaren och Studentlitteratur


Diskreta fördelningar

Om en funktion är en linjär funktion av X, d.v.s. om funktionen kan skrivas f(X) = aX + b där a och b är konstanter, så förenklas beräkningsformeln för funktionens väntevärde väsentligt då a kan brytas ut. Väntevärdet för en linjär funktion av en diskret slumpvariabel X: E (aX  b)  a  E ( X )  b Variansen för en linjär funktion av en diskret slumpvariabel blir också tämligen enkel att beräkna, eftersom a även här kan brytas ut. Variansen för en linjär funktion av en diskret slumpvariabel X: V (aX  b)  a 2  V ( X )

Exempel 3-3

Torghandlaren Arne tror att han i snitt varje månad säljer ungefär ett ton äpplen. Från Arnes revisor erhålls exaktare uppgifter, i form av sannolikhetsfördelningen i tabell 3.3, där slumpvariabeln X symboliserar antalet ton sålda äpplen per månad (som synes avrundat till närmsta kvartston). Arne köper in äpplen för 7 kr/kg och säljer dem för 12 kr/kg. Äppleförsäljningen innebär dessutom fasta kostnader varje månad på 2 000 kr. Hjälp Arne att bestämma den förväntade månatliga försäljningen samt den förväntade månatliga vinsten och dess varians och standardavvikelse. Tabell 3.3: Sannolikhetsfördelningen för antalet ton sålda äpplen

x

P ( X  x)

0,25

0,1

0,5

0,1

0,75

0,2

1

0,3

1,25

0,3

© Författaren och Studentlitteratur

81


31 mm

Grundläggande statistisk analys Med statistik kan man beskriva insamlad data på många olika sätt. Man kan också använda statistik för att analysera företeelser med hjälp av stickprov. I denna bok beskrivs grunderna för hur detta går till. Områden som tas upp är beskrivande statistik, sannolikhetslära, diskreta och kontinuerliga fördelningar, punkt- och intervallskattning, regressionsanalys, hypotesprövning, variansanalys, chi-tvåtester, icke-parametriska metoder, med mera. Det är en illusion att man ”kan statistik” för att man vet vilken formel man ska använda i vilket sammanhang eller för att man behärskar ett datorprogram med stöd för statistisk databearbetning. Naturligtvis är det viktigt att man kan hantera såväl den räknetekniska som den datormässiga delen av ämnet, men en god förståelse för statistisk metod kräver förståelse för ämnets teoretiska grund. Stor vikt har därför lagts på den pedagogiska framställningen. Tanken är att man med hjälp av boken inte bara ska kunna använda sig av statistiska metoder och modeller, man ska även få en känsla för den teoretiska grund som metoderna och modellerna baseras på. Den övergripande idén med boken är alltså att man som statistikanvändare inte bara ska förstå hur man gör i en viss situation, man ska även förstå varför.

Björn Lantz  |  Grundläggande statistisk analys

Björn Lantz är docent i industriell ekonomi på Chalmers tekniska högskola. Han har stor erfarenhet av kvantitativa metoder i både undervisning och forskning.

Grundläggande statistisk analys

Den matematiska begreppsapparaten som används baseras på att läsaren är bekant med gymnasiematematikens kurser A-C. Med ett stort antal övningsuppgifter – samtliga med svar – lämpar sig boken även väl för självstudier. Som illustrerande datorstöd i boken används framför allt Microsoft Excel, men i några fall används även det mer renodlade statistikprogrammet Minitab där Excel inte är tillräckligt. Andra upplagan Art.nr 31909

Björn Lantz www.studentlitteratur.se

978-91-44-09468-7_01_cover.indd 1

2013-07-22 14:49


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.