9789144099897

Page 1

Matematisk statistik med tillämpningar Sannolikhetsteori och statistiska metoder förekommer i de mest skiftande sammanhang och utgör en viktig verktygslåda inom t.ex. kvalitetskontroll, telekommunikation, tillförlitlighetsteknik, analys av laboratoriemätningar och marknadsundersökningar. Denna bok behandlar de klassiska områdena inom sannolikhetsteori samt statistisk teori och metodik med betoning av områden som är relevanta för ingenjörer och naturvetare. En introduktion till stokastiska processer i både diskret som kontinuerlig tid ingår, liksom grundläggande tillförlitlighetsteori och köteori. Simulering behandlas i samband med praktiska exempel på statistisk modellering. Den statistiska programvaran SPSS används i många beräkningar. Ett stort antal övningsuppgifter med svar eller lösningar ökar bokens användbarhet. Boken avslutas med ett avsnitt med bevis för några viktiga satser och ett om ämnets historia. I denna andra upplaga har några avsnitt om statistisk metodik utvidgats med bland annat jämförelse av två andelar och mer om ensidiga test och konfidensintervall samt om korrelation. Antalet övningsuppgifter på dessa avsnitt har också utökats och 75 övningsuppgifter från olika tekniska tillämpningsområden har lagts till.

Claes Jogréus  |  Matematisk statistik med tillämpningar

Claes Jogréus är universitetslektor i matematisk statistik vid Blekinge Tekniska Högskola. Han har tidigare tillsammans med docent Håkan Lennerstad gett ut läroboken Serier och transformer (tredje upplagan, Studentlitteratur 2013).

Matematisk statistik med tillämpningar

Andra upplagan

Claes J ogréus

www.studentlitteratur.se/33340 Art.nr 33340

2:a uppl.

www.studentlitteratur.se

978-91-44-09989-7_01_cover.indd 1

2013-12-18 16.09


Kopieringsförbud Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares begränsade rätt att kopiera för undervisningsbruk enligt Bonus Presskopias skolkopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Presskopia. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Denna trycksak är miljöanpassad, både när det gäller papper och tryckprocess.

Art.nr 33340 ISBN 978-91-44-09989-7 Upplaga 2:1 © Författaren och Studentlitteratur 2009, 2014 www.studentlitteratur.se Studentlitteratur AB, Lund Omslagslayout: Henry Sivula Omslagsbild: David Brimm/Shutterstock Printed by Eurographic Danmark A/S, Denmark 2014

978-91-44-09989-7_01_p001-002.indd 2

2013-11-20 08.09


Innehållsförteckning Förord till andra upplagan ............................................................................................ 9 Förord ............................................................................................................................. 11 1 Introduktion .............................................................................................................. 15 Vad är sannolikhet? ................................................................................................. 15 Vad använder man sannolikhetsteori och statistik till? ..................................... 16 Några grundbegrepp .............................................................................................. 17 Den klassiska sannolikhetsdefinitionen ............................................................... 19 Lite kombinatorik .................................................................................................... 19 Betingad sannolikhet ............................................................................................... 23 Övningar ................................................................................................................... 26 Svar ............................................................................................................................ 30 2 Diskreta fördelningar .............................................................................................. 33 Stokastisk variabel och sannolikhetsfunktion ..................................................... 33 Fördelningsfunktionen ........................................................................................... 34 Lägesmått: väntevärde och median ...................................................................... 35 Variationsmått: varians och standardavvikelse .................................................. 36 Likformig fördelning (rektangelfördelning) ........................................................ 37 Binomialfördelning .................................................................................................. 38 Hypergeometrisk fördelning ................................................................................. 39 Poissonfördelningen ................................................................................................ 40 Geometrisk fördelning ............................................................................................ 41 Övningar ................................................................................................................... 44 Svar ............................................................................................................................ 46 3 Kontinuerliga fördelningar ..................................................................................... 49 Täthetsfunktion och fördelningsfunktion ............................................................ 49 Lägesmått: väntevärde och median ...................................................................... 51 Variationsmått: varians och standardavvikelse .................................................. 51 Kvantiler .................................................................................................................... 52 Stora talens lag ......................................................................................................... 53 Likformig fördelning (rektangelfördelning) ........................................................ 55 Exponentialfördelning ............................................................................................ 56 Weibullfördelning.................................................................................................... 58 Normalfördelning .................................................................................................... 59 Övningar ................................................................................................................... 63 Svar ............................................................................................................................ 65

© Författaren och Studentlitteratur

3


4 Flerdimensionella fördelningar .............................................................................. 67 Fördelningsfunktion och täthetsfunktion för en tvådimensionell variabel .... 67 Marginalfördelningar .............................................................................................. 69 Oberoende ................................................................................................................. 70 Hur man mäter beroende: kovarians och korrelation ........................................ 71 Väntevärde, varians, standardavvikelse .............................................................. 73 Betingade sannolikheter ......................................................................................... 75 Flerdimensionell normalfördelning ...................................................................... 77 Övningar ................................................................................................................... 78 Svar ............................................................................................................................ 80 5 Transformationer med tillämpningar ................................................................... 83 Transformationer av en stokastisk variabel ......................................................... 83 Maximum och minimum – parallell‐ och seriekoppling ................................... 84 Funktioner av flera variabler: summa, kvot med mera ..................................... 85 Gauss approximationsformler ............................................................................... 88 Momentgenererande funktion ............................................................................... 89 Övningar ................................................................................................................... 92 Svar ............................................................................................................................ 95 6 Normalfördelningen ................................................................................................ 99 Varför är det normalt med normalfördelning? ................................................... 99 Standardiserad normalfördelning ......................................................................... 99 Allmän normalfördelning och centrala gränsvärdessatsen ............................ 101 Approximation av andra fördelningar ............................................................... 105 Bevis av centrala gränsvärdessatsen ................................................................... 107 Övningar ................................................................................................................. 108 Svar .......................................................................................................................... 111 7 Mer om fördelningar med tekniska tillämpningar ............................................ 115 Begreppet intensitet och tillämpningar inom tillförlitlighetsteknik .............. 115 Gamma‐ och Erlangfördelningarna .................................................................... 118 Negativ binomialfördelning ................................................................................. 119 Övningar ................................................................................................................. 120 Svar .......................................................................................................................... 122 8 Introduktion till stokastiska processer ................................................................ 125 Vad är en stokastisk process?............................................................................... 125 Markovkedjor ......................................................................................................... 126 Markovprocesser i kontinuerlig tid .................................................................... 130 Autokorrelationsfunktionen ................................................................................ 133 Övningar ................................................................................................................. 135 Svar .......................................................................................................................... 137

4

© Författaren och Studentlitteratur


9 Tillförlitlighet och köteori ...................................................................................... 139 Förväntad livslängd: MTTF .................................................................................. 139 Redundans .............................................................................................................. 140 Köteori: bakgrund .................................................................................................. 144 M/M/1 ...................................................................................................................... 144 M/M/n ...................................................................................................................... 146 Erlangs formel ........................................................................................................ 148 Övningar ................................................................................................................. 150 Svar .......................................................................................................................... 154 10 Statistisk modellering och simulering ................................................................ 161 Bakgrund ................................................................................................................. 161 Fem exempel på statistisk modellering .............................................................. 162 Slumptalsgeneratorer ............................................................................................ 165 Slumptal från kontinuerliga fördelningar: inversmetoden ............................. 166 Simulering av normalfördelade slumptal .......................................................... 167 Slumptal från diskreta fördelningar ................................................................... 168 Övningar ................................................................................................................. 169 Svar .......................................................................................................................... 171 11 Punktskattningar .................................................................................................. 175 Vad är en skattning? .............................................................................................. 175 Egenskaper hos en skattning ............................................................................... 175 Skattning av väntevärdet ...................................................................................... 176 Skattning av standardavvikelsen ........................................................................ 177 Maximum likelihood‐skattning ........................................................................... 177 Minsta kvadratmetoden ....................................................................................... 180 Standardavvikelsen för en skattning: medelfelet .............................................. 181 Övningar ................................................................................................................. 182 Svar .......................................................................................................................... 185 12 Intervallskattningar .............................................................................................. 189 Vad är en intervallskattning? ............................................................................... 189 Ett specialfall: konfidensintervall för väntevärdet i en normalfördelning .... 189 Normalapproximation av binomial‐, Poisson‐ och exponential‐ fördelningarna ........................................................................................................ 193 Jämförelse av väntevärden: två oberoende grupper ........................................ 196 Jämförelse av väntevärden: stickprov i par ....................................................... 197 Konfidensintervall för standardavvikelsen i en normalfördelning ............... 199 Övningar ................................................................................................................. 200 Svar .......................................................................................................................... 205

© Författaren och Studentlitteratur

5


13 Statistiska test ........................................................................................................ 209 Ett specialfall: normalfördelningen ..................................................................... 210 Normalapproximation av binomial‐ och Poissonfördelningarna .................. 212 Samband mellan hypotestest och konfidensintervall ...................................... 213 Jämförelse av väntevärden: två oberoende grupper ........................................ 214 Jämförelse av väntevärden: stickprov i par ....................................................... 215 Massignifikans ....................................................................................................... 215 Styrkeberäkning och dimensionering ................................................................. 216 Chitvåtestet: Är fördelningen korrekt? .............................................................. 217 Övningar ................................................................................................................. 222 Svar .......................................................................................................................... 226 14 Korrelation och regression .................................................................................. 231 Hur man mäter samband: korrelation ................................................................ 232 Punktskattningar av regressionskoefficienter ................................................... 236 Residualdiagram .................................................................................................... 239 Transformationer och dummyvariabler ............................................................. 240 Prognoser, konfidensintervall och test ............................................................... 242 Prognosintervall ..................................................................................................... 244 Enkel logistisk regression ..................................................................................... 244 Övningar ................................................................................................................. 246 Svar .......................................................................................................................... 250 15 Variansanalys ......................................................................................................... 255 Variansanalys med ensidig indelning ................................................................ 255 Flera test och massignifikans ............................................................................... 262 Randomiserade block ............................................................................................ 263 Variansanalys med tvåsidig indelning ............................................................... 265 Övningar ................................................................................................................. 268 Svar .......................................................................................................................... 271 16 Deskriptiv statistik ............................................................................................... 275 Medelvärde, median, typvärde ........................................................................... 275 Grupperade data: medelvärde och standardavvikelse .................................... 275 Några olika typer av diagram .............................................................................. 276 Övningar ................................................................................................................. 281 Svar .......................................................................................................................... 282 17 Icke‐parametriska test .......................................................................................... 285 Test för ett stickprov och stickprov i par ............................................................ 286 Test för att jämföra två oberoende grupper ....................................................... 288 Test för att jämföra tre eller fler oberoende grupper ........................................ 289 Hur man testar en fördelning .............................................................................. 292 Fishers exakta test .................................................................................................. 294

6

© Författaren och Studentlitteratur


McNemars test ....................................................................................................... 296 Att undersöka om slumptal är slumpmässiga: run‐test .................................. 297 Skattning av funktionssannolikheten: Kaplan‐Meier‐metoden ...................... 298 Övningar ................................................................................................................. 301 Svar .......................................................................................................................... 305 Blandade problem från elektro‐ och datateknik ................................................... 311 Blandade problem från maskinteknik ..................................................................... 323 Blandade problem från väg‐ och vattenbyggnad .................................................. 331 Appendix A Tabeller över statistiska fördelningar ............................................... 339 Appendix B Ordlista över statistiska termer på svenska och engelska .............. 357 Appendix C Något om den matematiska statistikens historia ............................ 359 Appendix D Grekiska alfabetet ................................................................................ 365 Appendix E Några härledningar och bevis ............................................................ 367 Referenser och litteratur för fortsatta studier ......................................................... 377 Sakregister ................................................................................................................... 379

© Författaren och Studentlitteratur

7



Förord till andra upplagan I denna andra upplaga har avsnitt om jämförelse mellan två andelar (Kapitel 12 och 13), dimensionering av stickprovsundersökningar (Kapitel 13) och om par‐ tiell korrelation (Kapitel 14) lagts till. Antalet övningsuppgifter i Kapitel 12 och 13 har utökats och framför allt har 75 övningsuppgifter från tillämpade ämnen lagts till. Dessa fördelas mellan elektro‐ och datateknik, maskinteknik och väg‐ och vattenbyggnad. Jag vill tacka universitetslektor Mattias Dahl för korrek‐ turläsning och många goda råd. Sist men inte minst vill jag tacka alla de stu‐ denter som bidragit med konstruktiva synpunkter. Karlskrona i november 2013 Claes Jogréus

© Författaren och Studentlitteratur

9



Förord Denna bok bygger på föreläsningar som hållits vid Blekinge Tekniska Högskola under 1990‐ och 2000‐talen. Avsikten är att åstadkomma en bok som är lämplig för blivande ingenjörer och civilingenjörer med en lagom blandning av teori och beräkningar, som ger förståelse för grundläggande formler, men också fär‐ dighet i att använda ett modernt programpaket när beräkningarna tar för lång tid. Framför allt har SPSS använts. Boken är också avsedd för inledande kurser i matematisk statistik för andra studentgrupper med åtminstone någon kurs i envariabelanalys, linjär algebra och (helst) flervariabelanalys bakom sig. En idé bakom boken är att den teori som är för svår att ta sig igenom när man läser ett avsnitt för första gången skall (åtminstone oftast) finnas i ett appendix i slutet av boken så den vetgirige lätt kan slå upp den. Detsamma gäller ifråga om den historiska bakgrunden som fått ett eget appendix. En annan bärande tanke är att hela tiden ha en koppling mellan nya teoribegrepp å ena sidan och realistiska exempel, oftast från teknik eller naturvetenskap å den andra. Detta utesluter inte att det finns ett nöjesvärde och allmänbildningsvärde i matema‐ tisk statistik också; spel och tankelekar av olika slag har också fått plats! Jag vill tacka de kollegor jag diskuterat manuskriptet med och som kommit med goda råd och synpunkter, främst universitetslektor Mattias Dahl och dok‐ torand Efraim Laksman, BTH. Jag vill också tacka avdelningschef Eva Petters‐ son för all uppmuntran. Karlskrona i oktober 2008 Claes Jogréus

© Författaren och Studentlitteratur

11



3 Kontinuerliga fördelningar De kontinuerliga fördelningarna skiljer sig principiellt från de diskreta. En kon‐ tinuerlig stokastisk variabel (s.v.) kan anta vilka värden som helst på ett visst intervall, inte bara vissa fixa värden. En motsvarighet är analoga respektive di‐ gitala mätinstrument. Analoga instrument, som motsvarar kontinuerliga fördel‐ ningar, har en visare som kan visa vilket värde som helst inom ett visst inter‐ vall, medan digitala instrument bara kan visa värdena 0, 1, 2, … Eftersom anta‐ let värden i det kontinuerliga fallet inte är uppräkneligt används integraler för att beräkna sannolikheter istället för summor – jämför övergången mellan Rie‐ mannsummor och Riemannintegraler i analysen.

Täthetsfunktion och fördelningsfunktion Fördelningsfunktionen definieras liksom i det diskreta fallet som

FX ( x)  P( X  x). Skillnaden är främst att varje händelse inte kan få en positiv sannolikhet. I så fall skulle nämligen den totala sannolikheten bli oändligt stor eftersom vi inte har uppräkneligt många händelser. Istället definierar man en sannolikhet för att en variabel ligger i ett visst intervall. Vi illustrerar med ett exempel. Exempel 3.1. En slumptalsgenerator i en dator brukar generera slumptal mellan 0 och 1 där alla tal är lika sannolika. Denna fördelning brukar kallas (kontinuer‐ lig) likformig fördelning eller rektangelfördelning – jämför den diskreta likfor‐ miga fördelningen som vi redan diskuterat. Vad är då sannolikheten att ett slumptal ligger mellan 0 och 0.3? f(x) 1.0 0.5

0

1

2

x

Figur 3.1. Rektangelfördelning på (0,1).

© Författaren och Studentlitteratur

49


”Sannolikhetstätheten” är tydligen i detta fall en enhet per x–enhet, så att ett in‐ tervall som är 0.3 enheter långt har sannolikheten 0.3. Sannolikheten motsvaras av ytan under kurvan, dvs. integralen av den s.k. täthetsfunktionen fX(x). Detta resonemang bör fungera även för andra sannolikhetsfördelningar. Vi vet att

P(a  X  b)  FX (b)  FX (a). Å andra sidan vet vi sedan analyskursen att b

FX (b)  FX (a)   f X ( x)dx a

om f X ( x) är derivatan av fördelningsfunktionen. Detta ger oss en definition. Definition 3.1. Täthetsfunktionen är derivatan av fördelningsfunktionen:

f X ( x)  FX ( x). Omvänt kan fördelningsfunktionen beräknas ur täthetsfunktionen med formeln x

FX ( x)   f X (u )du. 

Sannolikheten att X ligger i intervallet (a, b) blir då

P(a  X  b)  P( X  b)  P( X  a)  FX (b)  FX (a). Om vi kombinerar de bägge senaste formlerna får vi alltså b

P(a  X  b)   f X ( x)dx , a

som är en av de viktigaste formlerna i grundläggande sannolikhetsteori. Detta samband ger också en tolkning av vad täthetsfunktionen innebär. Sätt b  a  x. Då blir sannolikheten

a  x a

f X ( x)dx  x  f X (a),

se figuren nedan. f X ( x) a a  x x Figur 3.2. Täthetsfunktionen är alltså ingen sannolikhet, men sannolikheten att man får ett värde i närheten av x är proportionell mot f X ( x) . Höga värden på täthetsfunk‐ tionen f X ( x) innebär hög sannolikhet för att X antar värden i närheten av x.

50

© Författaren och Studentlitteratur


Lägesmått: väntevärde och median I Kapitel 2 definierade vi väntevärdet för en diskret fördelning som

 xp

E( X ) 

X

( x) .

alla x

I analogi med detta definieras väntevärdet för en kontinuerlig fördelning. Definition 3.2. Väntevärdet för en kontinuerlig stokastisk variabel X är

E( X )  

 

xf X ( x)dx .

Kommentar Väntevärdet är samma sak som fördelningens tyngdpunkt (mass‐ centrum). Koordinaten i x‐led för masscentrum definieras ju som

xP

  

  

xf X ( x)dx f X ( x)dx

.

Nämnaren är 1 eftersom den är integralen av en täthetsfunktion över reella axeln. Median definieras på samma sätt som för diskreta fördelningar, dvs. medianen x0.50 definieras av ekvationen FX ( x0.50 )  0.5.

Variationsmått: varians och standardavvikelse Vi repeterar definitionerna från Kapitel 2 eftersom de är desamma för konti‐ nuerliga och diskreta stokastiska variabler. Definition 2.7. Variansen för en s.v. X är

V ( X )  E (( X  m) 2 ), där m är väntevärdet. Standardavvikelsen är kvadratroten ur variansen:

  V ( X ). Utveckling av kvadraten i variansuttrycket ger

V ( X )  E ( X 2 )  ( E ( X )) 2 , vilket är enklare och mindre tidsödande att beräkna. Kommentar I en del böcker används beteckningen Var ( X ).

© Författaren och Studentlitteratur

51


Räkneregler för väntevärde, varians och standardavvikelse Följande räkneregler gäller både för diskreta och kontinuerliga stokastiska variabler. Låt a och b vara konstanter. Då gäller E ( aX  b)  aE ( X )  b,

V ( aX  b)  a 2V ( X ),

 aX b  a  X . Reglerna följer direkt vid insättning i definitionerna. Observera absolutbelopps‐ tecknet i den tredje räkneregeln som följer av det enkla, men av studenter ofta bortglömda, faktum att a 2  a , inte a. Exempel 3.2. Låt X vara ett slumptal från en vanlig slumptalsgenerator, dvs. alla tal mellan 0 och 1 är lika sannolika. Detta brukar skrivas X  R(0,1). Vi skall bestämma variansen och standardavvikelsen för Y = 3X. Vi börjar med att räkna ut variansen: 2

2

V ( X )  E ( X )  ( E ( X )) .

Av symmetriskäl blir väntevärdet 1/2, medan väntevärdet av kvadraten blir 1 1 1 E ( X 2 )   x 2 f X ( x ) dx   x 2 dx  . 0 0 3

Alltså blir variansen 2

V (X ) 

1 1 1    . 3 2 12

Variansen för 3X blir enligt räkneregeln 32/12 = 0.75, och  3 X  0.75  0.866.

Kvantiler Om man vill ha lite mer detaljer om en fördelning än bara väntevärdet, anger man ofta vilket värde som 10 % ligger över, 25 % ligger över etc. Till exempel är detta vanligt ifråga om lönestatistik. Att första kvartilen för en viss grupps löner är 19 000 kr innebär att en fjärdedel (25 %) har lägre lön än 19 000 kr – jämför ordet kvart = fjärdedel. Om andra kvartilen, dvs. medianen, är 20 000 kr innebär detta att 50 % ligger under och 50 % över 20 000 kr. Tredje kvartilen, låt oss säga 21 200 kr, är definierad genom att tre fjärdedelar, 75 %, ligger under och 25 % över denna. Man behöver ju inte dela in observationerna i just fyra delar – man kan tänka sig tiondelar, procent eller någon egenhändigt påhittad variant. All‐ mänt kallas dessa tal kvantiler – observera stavningen med n istället för r. En strikt definition ges nedan.

52

© Författaren och Studentlitteratur


Definition 3.3. Det tal x p som är lösning till ekvationen FX ( x p )  1  p

kallas p‐kvantilen. f(x)

p

xp

x

Figur 3.3. Definitionen av kvantil. Exempel 3.3. Rektangelfördelningen på (0,1) som vi diskuterat tidigare, har för‐ delningsfunktionen

FX ( x)  x, 0  x  1. Låt oss räkna ut första kvartilen, dvs. ett tal som är sådant att sannolikheten är 0.25 att vi får ett slumptal under detta värde och 0.75 att vi får ett högre värde. Alltså gäller

FX ( x0.75 )  x0.75  0.25, dvs. x0.75 = 0.25.

Stora talens lag Som vi tidigare diskuterat har medelvärdet av t.ex. tio mätningar mindre stan‐ dardavvikelse än en enda mätning. Detta är ju anledningen till att man vid krav på hög noggrannhet mäter flera gånger och beräknar medelvärdet. Det verkar då troligt att andelen data som uppfyller ett visst villkor varierar mindre ju stör‐ re datamängden blir och till sist stabiliserar sig andelen kring ett visst värde som vi kallar sannolikheten för händelsen, se även figuren i början av detta ka‐ pitel. Vi formulerar detta mer matematiskt i följande sats. Sats 3.1. Stora talens lag Låt X1, X 2 ... vara oberoende och likafördelade s.v., var och en med väntevärde m och standardavvikelse  och sätt X  ...  X n . Xn  1 n Då gäller för alla   0 lim n   P ( m    X n  m   )  1.

© Författaren och Studentlitteratur

53


Med andra ord: om bara antalet försök n blir tillräckligt stort så svänger medel‐ värdet in sig hur nära väntevärdet som helst! För att bevisa Stora talens lag behöver vi två hjälpsatser. Sats 3.2. Markovs olikhet För a > 0 och den stokastiska variabeln Y  0 gäller P (Y  a ) 

E (Y ) . a

Bevis (kontinuerliga fallet): 

a

0

0

a

a

a

E (Y )   yf Y ( y )dy   yf Y ( y )dy   yf Y ( y )dy   yf Y ( y )dy  a  f Y ( y )dy   aP(Y  a).

Division med a ger satsen. Sats 3.3. Chebyshevs olikhet Låt X vara en s.v. med väntevärde m och standardavvikelse   0 . Då gäller för varje konstant k > 0 att

P ( X  m  k ) 

1 k2

.

Bevis: Sannolikheten är 2

2

2

P( X  m  k )  P(( X  m)  k  ). 2

2

Låt nu Y i Markovs olikhet vara ( X  m) 2 och sätt a  k  . Då erhålls 2

2

2

P(( X  m)  k  ) 

E (( X  m) 2 ) 2

k

2

1 2  2 , 2 2 k k

vilket skulle bevisas. Bevis för Stora talens lag: Vi har P (m    X  m   )  P ( X  m   ).

Sätt i Chebyshevs olikhet k   n /  . Då får man

P( X  m   ) 

2 . 2 n

Eftersom n går mot oändligheten följer satsen. Vi har i beviset antagit att varian‐ sen är ändlig, men satsen gäller även med oändlig varians.

54

© Författaren och Studentlitteratur


Vi skall nu studera några specifika fördelningar. Det viktiga i detta avsnitt är att förstå i vilket sammanhang varje fördelning används, inte formlerna.

Likformig fördelning (rektangelfördelning) Vi har tidigare definierat likformig fördelning i det diskreta fallet. Även i det kontinuerliga fallet kan man ha en fördelning som gör att alla tal i ett intervall (a,b) blir lika sannolika, medan värden utanför intervallet inte kan förekomma. Definition 3.3. En variabel med täthetsfunktionen

1 /(b  a), a  x  b, f X ( x)    0 för andra x, sägs vara likformigt fördelad eller rektangelfördelad på (a, b). Alla värden mellan a och b är alltså lika sannolika. Slumptalsgeneratorer på da‐ torer och räknare ger ofta slumptal som är rektangelfördelade på intervallet (0,1). Om man istället vill ha slumptal som är rektangelfördelade på (a,b) kan man multiplicera slumptalet från slumptalsgeneratorn med b‐a och sedan ad‐ dera a. Andra transformationer ger helt andra fördelningar, se Kapitel 5. f(x)

1/(b‐a)

x a b Figur 3.4. Täthetsfunktion för rektangelfördelningen.

Viktiga fakta om (kontinuerlig) rektangelfördelning

ab 2 (b  a ) 2 V (X )  12 ba   12 E(X ) 

© Författaren och Studentlitteratur

55


Exponentialfördelning I många sammanhang är det användbart att ha en fördelning där sannolikheten att få ett visst värde x avtar exponentiellt med x. En betydligt mer detaljerad förklaring till varför detta är en viktig fördelning – särskilt i tekniska samman‐ hang – kommer i Kapitel 7.

f(x)

x

Figur 3.5. Täthetsfunktion för exponentialfördelningen. Definition 3.4. En s.v. X med täthetsfunktionen

f X ( x)  e  x , x  0,   0, sägs vara exponentialfördelad. Viktiga fakta om exponentialfördelning

E(X)  1 /  , V(X)  1 /  2 σ  1 / . Ett faktum som ofta används i tillämpningar, t.ex. telekommunikation, är att det finns ett samband mellan exponentialfördelningen och Poissonfördelningen. Om nämligen tiden mellan första och andra händelsen, andra och tredje händel‐ sen och så vidare är exponentialfördelade variabler så är antalet händelser i ett visst tidsintervall Poissonfördelat. (Två händelser som följer efter varandra utan någon annan händelse emellan brukar kallas konsekutiva händelser.) Omvänd‐ ningen gäller också: om antalet händelser är Poissonfördelat är tiden mellan två konsekutiva händelser exponentialfördelat. Detta används t.ex. vid studium av telefonväxlar, biltrafik, sprickor i konstruktionsmaterial… Vi skall formulera sambandet lite mer strikt. Sats 3.4. Antalet händelser X i intervallet (0,t) är Poissonfördelat med vän‐ tevärdet m   t om och endast om avståndet mellan konsekutiva händelser är oberoende och exponentialfördelat med parametern  .

56

© Författaren och Studentlitteratur


Bevis (Poisson medför exponential): Fördelningsfunktionen för tiden Y mellan två händelser är ju P (Y  t )  1  P(Y  t ). Sannolikheten att Y > t är ju samma sak som sannolikheten att det in‐ träffar noll händelser i intervallet (0,t). Eftersom antalet händelser är Poisson‐ fördelat är denna sannolikhet m0  e  m  e  t . 0!

P ( X  0)  e  m

Alltså gäller

FY (t )  1  P(Y  t )  1  e  t , t  0, dvs. tiden mellan konsekutiva händelser är exponentialfördelad, vilket skulle bevisas. (Exponential medför Poisson): I detta bevis, som är betydligt längre än det föregående, används gammafördel‐ ning och transformteori. Se t.ex. Chung & AitSahlia (2003). Exempel 3.4. Till en viss telefonväxel kommer i genomsnitt 10 samtal/minut. En telekomstudent studerar anropen till växeln. Vad är sannolikheten att hon be‐ höver vänta högst fem sekunder på första samtalet? Här utgår vi från att antalet samtal under en tidsperiod av längden t är Pois‐ sonfördelat med väntevärdet  t. Tydligen är   10 om t räknas i minuter. Det innebär alltså att väntetiden är exponentialfördelad med parametern 10. San‐ nolikheten att telekomingenjören väntar högst fem sekunder, dvs. 5/60 minuter, är då

FY (5)  1  e 105 / 60  0.565. Exempel 3.5. Vi skall beräkna 5%‐kvantilen för exponentialfördelningen. Ekva‐ tionen blir F X ( x 0.05 )  1  e

  x0.05

 0.95,

vilket ger x 0.05  

1

ln 0.05.

Allmänt ges  ‐kvantilen av x  

© Författaren och Studentlitteratur

1

ln  .

57


Weibullfördelning En enkel generalisering av exponentialfördelningen är att ersätta x i exponenten för fördelningsfunktionen med någon potens av x. Fördelningsfunktionen blir då c

F X ( x )  1  e  ( x / b ) , x  0, b , c  0 .

När c = 1 får man alltså exponentialfördelningen som ett specialfall. Beräkning av täthetsfunktionen ger följande definition. Definition 3.5. En s.v. X som har täthetsfunktionen f X ( x) 

c x   bb

c 1

c

e ( x / b )

sägs ha en Weibullfördelning. f(x)

x Figur 3.6. Täthetsfunktioner för Weibullfördelningar med c = 1 (heldragen linje), c = 2 (streckad) och c = 3 (streckad och prickad). Specialfallet c = 1 är exponen‐ tialfördelningen. Weibullfördelningen är uppkallad efter KTH‐professorn Waloddi Weibull (1887‐1979). Fördelningen har den utmärkta egenskapen att minimum av n obe‐ roende Weibullvariabler också blir Weibullfördelad, men med parametrarna

bmin  b / n1/ c , cmin  c. Se Kapitel 5 för härledning av fördelningen för minimum av oberoende stokas‐ tiska variabler! Detta resultat har tillämpning till exempel i hållfasthetslära: en kedja är lika stark som sin svagaste länk och om hållfastheten för en slumpmäs‐ sigt vald länk är Weibullfördelad är hållfastheten för den svagaste länken också Weibullfördelad. Inom tillförlitlighetsteori är detta också användbart: ett serie‐ kopplat system går sönder när den mest kortlivade komponenten går sönder. Om livslängden är Weibullfördelad så är livslängden för den mest kortlivade komponenten också Weibullfördelad. Varför är det då naturligt att anta att håll‐ fasthet och livslängd har denna fördelning? Svaret diskuteras i Kapitel 7. För att

58

© Författaren och Studentlitteratur


beräkna väntevärde, varians och standardavvikelse för en Weibullfördelad va‐ riabel behöver vi den s.k. gammafunktionen. Definition 3.6. Gammafunktionen (x) definieras av sambandet 

( x)   e  y y x 1dy. 0

Man kan visa att ( x  1)  x( x), vilket i sin tur ger att ( x)  ( x  1)! i spe‐ cialfallet då x är ett positivt heltal. Detta är också ett sätt att definiera x! då x inte är heltal. Med tanke på att formlerna nedan är komplicerade påminner vi om att for‐ melavsnitten är avsedda att slås upp när de behövs, inte för inlärning utantill! Viktiga fakta om Weibullfördelningen E(X)  b ((c  1) / c )

V(X)  b 2 ( ((c  2) / c)  ( (c  1) / c ) 2 ) σ  V (X )

Exempel 3.6. Specialfallet c = 1 är exponentialfördelningen. Väntevärdet blir

b(2)  b och variansen

b 2 (3)  ((2)) 2  b 2 . Specialfallet c = 2 kallas ofta Rayleighfördelning. Täthetsfunktionen blir f X ( x) 

2 x ( x / b )2 e , b2

medan väntevärdet är b  / 2 och variansen E ( X 2 )  ( E ( X )) 2  b 2 (1   4).

Normalfördelning (Gaussfördelning) I många sammanhang uppträder variabler som har en symmetrisk fördelning kring väntevärdet. Ofta avtar sannolikheten att få ett visst värde snabbt när man kommer längre bort från väntevärdet. Några klassiska exempel är män‐ niskors längd, mätfel, brusspänning i elektriska system... Ofta använder man 2

funktioner av typen e  kx för att beskriva denna typ av fördelning.

© Författaren och Studentlitteratur

59


Normalfördelningen karakteriseras av sitt väntevärde m och sin standardavvi‐ kelse  . Dessa parametrar kan varieras oberoende av varandra. För att förenkla beskrivningen skall vi börja med specialfallet m  0,   1. Fördelningsfunktio‐ nen för detta vanliga specialfall kallas  (x ) , dvs. stora ”fi” av x, och finns tabel‐ lerad i Appendix A, Tabell A. 0.4 0.3 0.2 0.1 -3

-2

-1

0

1

2

3

Figur 3.7. Täthetsfunktion för standardiserad normalfördelning Definition 3.7. Den normalfördelning som har väntevärde m  0 och standard‐ avvikelse   1 kallas standardiserad normalfördelning. Täthetsfunktionen är

1  x2 / 2 e ,    x  . 2

 ( x)  och fördelningsfunktionen ( x)  

x



1 2

e u

2 /2

du,    x  .

Observera att de grekiska bokstäverna lilla fi och stora fi används istället för f och F. Dessa beteckningar används för att man direkt skall se att det är fråga om en standardiserad normalfördelning. Man kan visa att  (x ) , fördelningsfunk‐ tionen för en standardiserad normalfördelad variabel, inte kan uttryckas med elementära funktioner. Istället har man räknat ut värdet för de vanligaste x‐vär‐ dena och gjort tabeller. En sådan tabell finns i Appendix A (Tabell A). Fördel‐ ningsfunktionen för denna och andra vanliga fördelningar finns även i t.ex. Microsoft Excel: under rubrikerna Insert och Function finns både fördelnings‐ funktioner och många andra statistiska funktioner. Exempel 3.7. Om X är en standardiserad normalfördelad variabel är sannolik‐ heten att X är mindre än 2 lika med (2)  0.9772. Sannolikheten att X är större än 1 är 1  P( X  2)  1  (2)  0.0228. Sannolikheten att X ligger mellan 1 och 2 är

(2)  (1)  0.1359.

60

© Författaren och Studentlitteratur


Symmetri hos den standardiserade normalfördelningen

P(X<-a)

P(X>a)

-a

0

a

Figur 3.8. Symmetri hos standardiserad normalfördelning. På grund av symmetrin kring y‐axeln är ytan längst till vänster lika stor som ytan längst till höger, dvs. P( X  a)  P( X  a). Sannolikheten i högerledet är lika med 1  P( X  a), så med andra ord gäller för alla x sambandet

( x)  1  ( x) . Man behöver alltså bara ha en tabell över fördelningsfunktionen för positiva x‐ värden. Exempel 3.8. Sannolikheten att en standardiserad normalfördelad variabel Y är mindre än ‐1.5 är P ( X  1.5)  P (Y  1.5)  1   (1.5)  0.067 . Exempel 3.9. Sannolikheten att en standardiserad normalvariabel Y ligger mel‐ lan –1 och 2 är

(2)  (1)   (2)  (1  (1))  0.9772  1  0.8413  0.8185. Exempel 3.10. Man vill bestämma ett intervall (‐a,a) sådant att en standardi‐ serad normalfördelad variabel ligger i intervallet med sannolikheten 0.95. Vad skall a vara? Ekvationen blir  (a )   ( a )  0.95, dvs.

(a )  (1   (a))  2(a)  1  0.95. Alltså gäller  (a )  0.975, vilket enligt Tabell A, Appendix A, ger a  1.96. Att ha väntevärde 0 är ju inte alltid så användbart. Längd för svenska män och kvinnor är normalfördelad med väntevärdena 178 respektive 167 cm. Hållfast‐

© Författaren och Studentlitteratur

61


Matematisk statistik med tillämpningar Sannolikhetsteori och statistiska metoder förekommer i de mest skiftande sammanhang och utgör en viktig verktygslåda inom t.ex. kvalitetskontroll, telekommunikation, tillförlitlighetsteknik, analys av laboratoriemätningar och marknadsundersökningar. Denna bok behandlar de klassiska områdena inom sannolikhetsteori samt statistisk teori och metodik med betoning av områden som är relevanta för ingenjörer och naturvetare. En introduktion till stokastiska processer i både diskret som kontinuerlig tid ingår, liksom grundläggande tillförlitlighetsteori och köteori. Simulering behandlas i samband med praktiska exempel på statistisk modellering. Den statistiska programvaran SPSS används i många beräkningar. Ett stort antal övningsuppgifter med svar eller lösningar ökar bokens användbarhet. Boken avslutas med ett avsnitt med bevis för några viktiga satser och ett om ämnets historia. I denna andra upplaga har några avsnitt om statistisk metodik utvidgats med bland annat jämförelse av två andelar och mer om ensidiga test och konfidensintervall samt om korrelation. Antalet övningsuppgifter på dessa avsnitt har också utökats och 75 övningsuppgifter från olika tekniska tillämpningsområden har lagts till.

Claes Jogréus  |  Matematisk statistik med tillämpningar

Claes Jogréus är universitetslektor i matematisk statistik vid Blekinge Tekniska Högskola. Han har tidigare tillsammans med docent Håkan Lennerstad gett ut läroboken Serier och transformer (tredje upplagan, Studentlitteratur 2013).

Matematisk statistik med tillämpningar

Andra upplagan

Claes J ogréus

www.studentlitteratur.se/33340 Art.nr 33340

2:a uppl.

www.studentlitteratur.se

978-91-44-09989-7_01_cover.indd 1

2013-12-18 16.09


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.