Innhold 1 Innledning ..................................................................................................... 13 1.1 Hva er statistikk?............................................................................................ 13 1.2 Bruk av modeller............................................................................................ 16 1.3 Beskrivende statistikk................................................................................... 18 1.4 Bruk av dataverktøy...................................................................................... 32 Oppgaver .................................................................................................................. 33 2 Sannsynlighetsregning .............................................................................. 35 2.1 En enkel sannsynlighetsmodell.................................................................. 35 2.2 Hendelser og mengdelære.......................................................................... 42 2.3 Regneregler for sannsynlighet................................................................... 46 2.4 Kombinatorikk og utvalgsmodeller........................................................... 51 2.5 Betinget sannsynlighet................................................................................ 62 2.6 Uavhengighet og produktmodeller.......................................................... 72 Oppgaver .................................................................................................................. 78 3 Diskrete stokastiske variabler ................................................................. 89 3.1 Hva er en stokastisk variabel?..................................................................... 89 3.2 Sannsynlighetsfordeling og fordelingsfunksjon..................................... 91 3.3 Forventning.................................................................................................... 97 3.4 Varians............................................................................................................. 104 3.5 Flere stokastiske variabler............................................................................ 114 3.6 Binomisk fordeling........................................................................................ 120 3.7 Hypergeometrisk fordeling......................................................................... 126 3.8 Poissonfordeling............................................................................................ 129 Oppgaver .................................................................................................................. 134 4 Kontinuerlige stokastiske variabler ........................................................ 143 4.1 Oppbygging av en kontinuerlig sannsynlighetsmodell........................ 143 4.2 Eksponentialfordelingen.............................................................................. 156
10
innhold
4.3 Normalfordelingen....................................................................................... 159 4.4 Tilnærming til normalfordeling.................................................................. 167 Oppgaver .................................................................................................................. 174 Estimering ..................................................................................................... 187 5 5.1 Innledning til den statistiske analysen...................................................... 187 5.2 Punktestimering............................................................................................ 190 5.3 Målemodellen................................................................................................ 195 5.4 Intervallestimering........................................................................................ 199 5.5 Vurdering av utvalgsstørrelsen................................................................... 208 5.6 t-fordelingen.................................................................................................. 215 Oppgaver .................................................................................................................. 218 6 Hypotesetesting .......................................................................................... 225 6.1 Hypotesetest på et eksempel..................................................................... 225 6.2 Hypotesetesting i målemodellen............................................................... 230 6.3 Hypotesetesting ved normaltilnærming.................................................. 235 6.4 Styrkefunksjonen.......................................................................................... 237 6.5 Signifikanssannsynlighet (P-verdi)............................................................. 244 6.6 t-tester............................................................................................................. 250 6.7 Tosidig test...................................................................................................... 253 Oppgaver................................................................................................................... 260 7 Korrelasjon og regresjon ........................................................................... 273 7.1 Korrelasjon...................................................................................................... 273 7.2 Regresjonsanalyse......................................................................................... 276 7.3 Konfidensintervall og prediksjonsintervall.............................................. 287 Oppgaver................................................................................................................... 291 8 Kjikvadrattester og kontingenstabeller ................................................. 303 8.1 Kjikvadratfordelingen................................................................................... 303 8.2 Test av modell. Helspesifisert hypotese.................................................... 305 8.3 Kontingenstabeller og uavhengighetstest.............................................. 308 Oppgaver .................................................................................................................. 318 9 Sammenligning av to grupper .................................................................. 327 9.1 To grupper i målemodellen......................................................................... 327 9.2 To grupper i binomisk og i hypergeometrisk modell............................. 334 Oppgaver .................................................................................................................. 343
innhold
10 Ikke-parametriske metoder ...................................................................... 355 10.1 Parametriske og ikke-parametriske modeller.......................................... 355 10.2 Tegntesten...................................................................................................... 357 10.3 Wilcoxons ett-utvalgstest............................................................................ 361 10.4 Wilcoxons to-utvalgstest............................................................................. 366 Oppgaver .................................................................................................................. 370 Eksamensoppgaver ................................................................................................ 377 Eksamen USN høst 2017 ........................................................................................ 377 Eksamen USN vår 2018 ........................................................................................... 379 Eksamen USN høst 2018 ........................................................................................ 382 Eksamen USN vår 2019 ........................................................................................... 385 Eksamen USN høst 2019 ........................................................................................ 388 Eksamen USN vår 2020 ........................................................................................... 390 Utvalgte svar på oppgavene ................................................................................ 395 Eksamen USN høst 2017 ........................................................................................ 405 Eksamen USN vår 2018 ........................................................................................... 405 Eksamen USN høst 2018 ........................................................................................ 406 Eksamen USN vår 2019 ........................................................................................... 406 Eksamen USN høst 2019 ........................................................................................ 407 Eksamen USN vår 2020 ........................................................................................... 407 Tillegg ........................................................................................................................ 408 Greske bokstaver og summetegn ........................................................................ 408 Tabell over N(0, 1)-fordelingen ............................................................................. 410 Tabell over t-fordelingen ........................................................................................ 412 Tabell over kjikvadratfordelingen ......................................................................... 413 Stikkordregister ...................................................................................................... 414
11
1 Innledning 1.1 Hva er statistikk? De fleste av oss mottar hver eneste dag statistisk informasjon både fra aviser, radio og TV og fra bl.a. faglitteratur. Eksempel på dette kan være: • resultat av meningsmålinger om oppslutningen om de politiske partiene og om andre aktuelle samfunnsspørsmål, • opplysninger om utviklingen på arbeidsmarkedet, om produksjonen i industrien eller i landbruket, • data om utvikling når det gjelder aksjekurser, • informasjon om økning eller nedgang i folketall i kommuner, fylker eller i landet som helhet, • resultat av målinger av for eksempel forurensning, ozonlag eller pollen innhold i lufta, • data om vær og klima. Det kan være målinger av temperatur og nedbør for siste dager og uker for å få fram informasjon om hvordan været har vært, og det kan være data for flere tiår og hundreår for å studere utviklingen av klimaet. Slik informasjon presenteres gjerne i tabeller eller i en eller annen grafisk form. Dette fører nok til at mange har den oppfatning at faget statistikk handler om innsamling, systematisering og presentasjon av statistisk informasjon. Dette er imidlertid bare en del av de oppgaver en statistiker arbeider med, og det er ikke den viktigste delen.
14
1
innledning
Det å presentere et tallmateriale på en hensiktsmessig og forståelig måte kaller vi deskriptiv eller beskrivende statistikk. En kort innføring i beskrivende statistikk er gitt i kapittel 1.3. Hovedsakelig vil statistikeren arbeide med matematisk baserte teknikker for å få fram informasjon om den virkeligheten som ligger bak tallene. Dette kaller vi statistisk analyse. Typisk for de fenomener en statistiker studerer, er at de inneholder innslag av variasjon og tilfeldighet. Gjennom den statistiske analysen har man som siktemål å bringe på det rene om de effekter man observerer, kan forklares ved tilfeldig variasjon, eller om for eksempel endringer og forskjeller man observerer, må skyldes at det fins reelle forskjeller eller endringer i de fenomener som analyseres. Når en meningsmåling viser at Arbeiderpartiet har gått tilbake for eksempel 2 % siden siste valg, vil en statistiker ikke være fornøyd med bare å legge fram dette resultatet. Han vil gjerne si noe om usikkerheten i resultatet, og vil spørre seg om dette kan skyldes at vi denne gangen tilfeldigvis fikk med færre Ap-sympatisører i meningsmålingen enn forrige gang, eller om det må skyldes at oppslutningen om Ap blant velgerne virkelig har gått ned. Et annet eksempel som illustrerer en statistikers arbeidsmåte, kan være måling av pH-verdi eller surhetsgrad i fiskevann. Når vi måler pH-verdien i forskjellige vannprøver fra et fiskevann, vil det være en viss variasjon i de målte verdiene, både fordi pH-verdien ikke er helt den samme i alle deler av vannet og fordi selve målemetoden er noe usikker. Statistikeren vil ut fra de målingene som er gjort, anslå en verdi for surhetsgraden i fiskevannet og si noe om usikkerheten i den angitte verdien. Ved sammenligning av måledata fra et fiskevann med tilsvarende data fra et annet vann vil statistikeren vurdere om eventuelle forskjeller i surhetsgrad mellom de to vannene er for store til at de kan forklares ved den variasjonen vi finner innenfor ett og samme vann. Dersom dette er tilfelle, vil han konkludere med at de to vannene har forskjellig pH-verdi. For å kunne gjennomføre statistiske analyser som det her er gitt eksempler på, trengs sannsynlighetsregning. Det er en matematisk basert disiplin som kan hjelpe oss til å finne ut hvor sannsynlige forskjellige resultat av forsøk og fenomener der tilfeldigheter spiller en rolle, er. Sannsynlighetsregningen er, ved siden av å være et nødvendig grunnlag for den statistiske analysen, også i seg selv et nyttig redskap i mange sammenhen-
1.1 hva er statistikk?
ger. Når en skal ta beslutninger under usikkerhet, for eksempel om investering i nye prosjekter, vil en ved hjelp av en sannsynlighetsmodell kunne regne på konsekvenser av de aktuelle beslutninger. Mange vil vel dessuten forbinde sannsynlighetsregningen med spill som for eksempel Lotto og tipping. Her er sannsynlighetsregningen uunnværlig når en skal vurdere vinnersjanser. I kapitlene 2, 3 og 4 gjennomgås den grunnleggende sannsynlighetsregningen. Siktemålet med denne teorien er å bygge opp en modell for forsøket eller fenomenet som vi studerer, en modell som tar hensyn til den variasjonen og de tilfeldighetene som har innvirkning på resultatet. Siden de metoder en statistiker arbeider med har et matematisk fundament, bruker vi ofte betegnelsen matematisk statistikk i motsetning til det å presentere tallmaterialet som kalles deskriptiv eller beskrivende statistikk. Ofte ser en i media at det ut fra et tallmateriale eller ut fra resultater fra en undersøkelse eller et forsøk, trekkes konklusjoner uten at det ligger noen analyse bak. Man «synser» og uttaler seg kun fordi dette synes rimelig ut fra tallene som er observert. Men man kan ikke vite om de eventuelle forskjeller som er observert, skyldes tilfeldigheter eller om det er reelle forskjeller som er kommet fram. Man bør generelt være kritisk til medias bruk av statistisk informasjon. Å gi et fyldestgjørende og presist svar på spørsmålet i tittelen om hva statistikk er, er like vanskelig som å gi en klar og konsis definisjon på hva økonomi eller geografi er. Det er ikke mulig å gi en kort og lettfattelig definisjon som samtidig er utfyllende. Her er likevel et forsøk på å forklare kort hva vi i denne boken vil legge i begrepet statistikk. Definisjon 1.1 Statistikk I faget statistikk studeres forsøk og fenomen der tilfeldigheter har innvirkning på resultatet. En utvikler og gjør bruk av matematisk baserte metoder til å få fram viten og om mulig trekke konklusjoner på grunnlag av resultatene.
Merk formuleringen «om mulig trekke konklusjoner». Av og til må man avfinne seg med at resultatene ikke gir grunnlag for å trekke noen konklusjoner på de spørsmål som er stilt.
15
16
1
innledning
Merk dessuten at metodespørsmålet er sentralt. Presentasjon av resultatene og eventuell utregning av viktige nøkkeltall for dataene er for så vidt også en del av arbeidet for en statistiker. Men den oppgaven vil i våre dager ofte bli utført av et dataprogram. Statistikeren vil også delta i planleggingen av forsøksopplegget og datainnsamlingen. Grundig planlegging er viktig for å få gode data. Forsøket bør legges opp på en slik måte at innslaget av uønsket variasjon blir minst mulig, slik at de effekter en ønsker å studere, kommer best mulig fram. I kapitlene 5–10 skal vi gi en innføring i statistisk arbeids- og tenkemåte. Vi skal gjennomgå viktige statistiske metoder, og vi skal anvende disse på en rekke vanlig forekommende problemstillinger. Statistikk brukes som redskapsfag innen nær sagt alle fagområder. Statistisk tenkning og statistisk analyse har en selvfølgelig plass innen teknologi og realfag og innen økonomi og samfunnsfag. Studenter som tar ingeniørutdanning eller økonomiutdanning, som studerer medisin eller tar høyere landbruksutdanning vil alle i sin utdanning ha et grunnkurs i statistikk med et omfang omtrent som i denne boken. Innholdet i faget varierer lite fra utdanning til utdanning. Kjernestoffet i sannsynlighetsregning og statistikk er det samme for alle. Statistikk er dessuten tatt i bruk av en rekke forskere i vitenskaper som for eksempel litteratur og språkfag, fag som en kanskje ikke vil forbinde med matematisk baserte metoder. Men statistikk kan være et nyttig redskap også her, for eksempel når litteraturforskere skal analysere og sammenligne forfatteres språkbruk.
1.2 Bruk av modeller En modell er en idealisert etterligning av virkeligheten eller mer presist av den delen av virkeligheten vi ønsker å studere. Viktige eksempler er miniatyrutgaver av for eksempel skip eller bygninger og alle typer av kart, fra detaljkart over området til for eksempel en høgskole til verdenskart. Hva slags modell vi vil bruke, avhenger av de oppgaver som skal løses. Vi trenger for eksempel forskjellige typer kart om vi skal planlegge et boligområde, om vi skal gå tur i fjellet, eller om vi skal kjøre bil rundt i Europa.
1.2 bruk av modeller
Hensikten med å bruke modeller som et hjelpemiddel er at det skal bli lettere å forstå og analysere virkeligheten. Modellen vil kunne sette en i stand til å se helheten og sammenhengen mellom de enkelte deler av virkeligheten. Eksempelvis gir et kart et idealisert bilde av det terrenget vi ønsker å studere, og gjennom kartet kan en raskt og greit få informasjon som det ofte vil være svært tidkrevende og vanskelig å skaffe seg ved å studere virkeligheten direkte. Det er dessuten viktig at en i en modell kan studere forskjellige alternativer og vurdere konsekvenser av disse. På et kart vil en for eksempel kunne studere forskjellige veivalg for fjellturen eller forskjellige planløsninger for for eksempel veitraseer og bebyggelse. Siktemålet med slik analyse i en modell er at en skal komme fram til gode veivalg, gode planløsninger osv. Generelt kan en si at målet er gode beslutninger. For at de beslutninger vi tar på grunnlag av analyse i modellen, skal være gode beslutninger, må modellen være realistisk. Modellen må ligne på virkeligheten. Kartet må stemme med terrenget. På den annen side må modellen ikke være for komplisert hvis vi skal kunne forstå og analysere den på en effektiv måte. Disse to kravene til realisme på den ene siden og enkelhet på den andre siden vil være motstridende når en skal lage modellen. Økt realisme i modellen fører til økt deltaljering og kompleksitet som igjen fører til at forståelsen og analysen blir vanskeligere. Når en skal velge modell, må en vurdere realisme opp mot enkelhet ut fra den oppgaven som skal løses. I praksis vil det som oftest være mulig å finne en rimelig god modell som er både tilstrekkelig realistisk og tilstrekkelig enkel for det aktuelle formål. For eksempel vil en kunne finne godt egnede kart til planleggingsformål, til fjellturen eller til bilturen i Europa. Vi skal i statistikken verken arbeide med kart eller med miniatyrutgaver, men med matematiske modeller. Det vil si at modellen er bygget opp av matematiske begrep som tall, mengder, formler og uttrykk, ligninger og funksjoner. I for eksempel fysikk og kjemi, der en også bruker matematiske modeller, er det ofte slik at når forsøksbetingelsene er kjent, vil en kunne regne seg fram til et entydig resultat av for eksempel en kjemisk reaksjon. Vi sier at forsøket og modellen er deterministisk. For de fenomener og forsøk en statistiker arbeider med, er det ikke slik. Her virker tilfeldigheter inn på resultatet, og utfallet av hvert enkelt gjentak av et forsøk kan ikke forutsies.
17
18
1
innledning
Vi sier at forsøket og modellen er stokastisk. Stokastisk er et adjektiv som brukes om noe som er påvirket av tilfeldigheter. En stokastisk modell vil typisk bestå av en mengde av mulige resultater for det forsøk eller fenomen vi studerer og en tabell eller en funksjon som forteller oss noe om hvor sannsynlig de forskjellige resultatene er. Vi bruker også betegnelsen sannsynlighetsmodell.
1.3 Beskrivende statistikk For at informasjonen i et tallmateriale av noe størrelse skal komme fram, er det viktig at materialet legges fram på en hensiktsmessig og forståelig måte. Vi skal her kort gå gjennom en del viktige teknikker for å systematisere og presentere data. Dette kaller vi deskriptiv eller beskrivende statistikk. Eksempel 1.1 Studenters alder Nedenfor er gitt alder for 166 studenter i 1. årskurs av studiene i økonomi og administrasjon ved Høgskolen i Telemark. 23
40
23
20
21
32
20
21
20
20
19
22
20
35
19
19
33
21
20
21
20
25
27
26
22
25
22
21
22
23
22
42
22
23
20
19
20
27
20
24
20
21
20
22
21
20
24
20
24
22
20
23
25
19
19
22
20
31
40
23
21
22
20
21
27
21
24
26
24
22
20
31
19
19
34
20
23
21
22
19
20
38
27
23
27
20
20
29
23
21
22
21
22
22
22
20
22
20
22
27
19
22
24
19
22
27
19
24
20
21
26
21
21
20
19
22
22
36
23
23
20
25
36
22
21
19
22
40
19
22
20
27
22
19
24
23
20
19
27
21
22
20
22
20
19
25
18
21
19
22
23
21
28
22
21
21
23
23
27
22
28
22
21
20
21
27
Vi skal bruke dette tallmaterialet til å illustrere de teknikkene vi skal gjennomgå.
1.3 beskrivende statistikk
Det er vanskelig å skaffe seg noe godt bilde av den informasjon som ligger i materialet om en bare ser på de 166 tallene. Vi får ikke noe skikkelig inntrykk av aldersfordelingen blant studentene. Hvor stor andel av studentgruppen er for eksempel over 23 år? Vi vil dessuten ikke direkte ut fra tallene kunne si noe om disse studentene er gjennomgående eldre eller yngre enn en annen studentgruppe eller om spredningen i alder for disse studentene er større eller mindre enn for en annen studentgruppe. For å avgjøre slike spørsmål trenger vi det vi kaller et sentralmål som er et mål for alderen på en typisk student, og vi trenger et mål for spredning i aldersfordelingen.
Hyppighetstabell La oss starte med å studere fordelingen i et tallmateriale, nærmere bestemt aldersfordelingen i eksemplet. Vi vil få et klarere bilde av studentenes alder ved å sette opp en hyppighetstabell. På neste side er det gitt en slik tabell for de n = 166 studentene. I venstre kolonne står aktuelle aldre i stigende rekkefølge. I andre kolonne står antall studenter (nA) på hver alder. For eksempel er det n23 = 15 studenter som er 23 år. I tredje kolonne er det regnet ut hvilken andel (nA/n) dette utgjør av studentgruppen. Denne andelen kalles også den relative hyppigheten. For eksempel utgjør 23-åringene en andel på 15/166 = 0.090 eller 9.0 % av studentene. I siste kolonne er det regnet ut de kumulative andelene eller de kumulative relative hyppighetene. Disse finnes ved at en for hver alder summerer alle andeler til og med den aktuelle alder. Av denne kolonnen kan man for eksempel lese ut at andelen av studenter som er 23 år og yngre, er 0.741 eller 74.1 %. Følgelig er 25.9 % av studentene over 23 år.
19
20
1
innledning
Eksempel 1.2 Studenters alder Hyppighetstabell over aldersfordelingen Alder (år)
Antall
Andel
Kumulativ andel
A
nA
nA/n
∑nA/n
18
1
0.0060
0.0060
19
19
0.1145
0.1205
20
32
0.1928
0.3133
21
24
0.1446
0.4578
22
32
0.1928
0.6506
23
15
0.0904
0.7410
24
8
0.0482
0.7892
25
5
0.0301
0.8193
26
3
0.0181
0.8373
27
11
0.0663
0.9036
28
2
0.0120
0.9157
29
1
0.0060
0.9217
30
0
0.0000
0.9217
31
2
0.0120
0.9337
32
1
0.0060
0.9398
33
1
0.0060
0.9458
34
1
0.0060
0.9518
35
1
0.0060
0.9578
36
2
0.0120
0.9699
37
0
0.0000
0.9699
38
1
0.0060
0.9759
39
0
0.0000
0.9759
40
3
0.0181
0.9940
41
0
0.0000
0.9940
42
1
0.0060
1.0000
I eksemplet betraktet vi alder som en heltallsvariabel. Da er det ofte naturlig å la hver verdi være en gruppe av observasjoner, ofte kalt en klasse. Alternativt kunne vi slått sammen flere aldersverdier til en klasse.
1.3 beskrivende statistikk
Det ville vært naturlig om vi hadde studert en gruppe personer der alle aldersgrupper (fra 0 til over 100 år) var representert. Da kunne det for eksempel være naturlig å operere med 5-års klasser: [0, 5), [5, 10), [10, 15) osv. Vi må lage aldersklassene slik at alle personer tilhører én og bare én klasse. Når vi behandler målinger der måleskalaen er kontinuerlig, må vi alltid gruppere dataene i klasser før vi kan sette opp en hyppighetstabell. Dersom vi for eksempel hadde målt vekt for de 166 studentene, ville vi dele opp tallmaterialet i vektklasser der en klasse for eksempel kunne dekke et intervall på 5 kg.
Histogram Informasjon i hyppighetstabellen kan presenteres grafisk i et stolpediagram, et såkalt histogram. For hver verdi (evt. hver klasse) lager vi en stolpe der høyden på stolpen er lik antall forekomster av denne verdien (klassen). I figur 1.1 er det tegnet histogram over aldersfordelingen for de 166 studentene. Her er for eksempel høyden på stolpen svarende til 23 år 15, fordi 15 av studentene er 23 år. Alternativt kunne en brukt andel eller prosent som høyde på stolpene. Dette ville gitt samme visuelle bilde av aldersfordelingen, men med en annen skala på y-aksen. Antall 30
20
10
20 Figur 1.1
25
30
35
40
Alder (år)
21
22
1
innledning
Både hyppighetstabellen og histogrammet gir oss nyttig informasjon om aldersfordelingen blant studentene. Vi kan lese ut at hovedtyngden (ca. 80 %) av studentene er i alderen 19–24 år, ca. 13 % er i gruppen 25–29 år og knapt 8 % av studentene er fra 30 år og opp til 42 år. Dette gir et godt bilde av alderssammensetningen i studentkullet.
Sentralmål I eksemplet med studentenes alder kan vi spørre: Hvor gammel er en typisk student? Noe helt entydig svar på et slikt litt upresist spørsmål fins vel ikke, men det mål man vanligvis vil bruke for alderen på en typisk student, er gjennomsnittsalderen. Gjennomsnittet er det mest brukte mål for størrelse i et tallmateriale. Et slikt mål for størrelse angir «sentrum» i aldersfor delingen. Vi bruker gjerne betegnelsen sentralmål. Definisjon 1.2 Gjennomsnitt Gjennomsnittet av n tall X1, X2, …, Xn er definert ved X=
1 1 X1 + X 2 + … + X n ) = ( n n
n
∑X i=1
i
I eksemplet kan vi regne ut at gjennomsnittsalderen for de 166 studentene er X = 23.0 år. Når vi i eksemplet sier at gjennomsnittsalderen for studentene er 23.0 år, får vi informasjon som er dekkende for alderen til en typisk student. Det fins imidlertid situasjoner der gjennomsnittet ikke gir et riktig bilde av en typisk observasjon. Anta for eksempel at en bedrift i tillegg til eieren har fem arbeidere som hver har en årslønn på kr 500 000. Eieren har selv en årsinntekt kr 2 300 000. Gjennomsnittsinntekten for de seks i bedriften, som blir kr 800 000, gir et galt bilde av lønnsnivået i bedriften. Svakheten med gjennomsnittet som sentralmål er at en eller noen få svært avvikende observasjoner kan trekke gjennomsnittet opp eller ned slik at resultatet ikke lenger ligger «sentralt» i fordelingen. Dette må vi være oppmerksom på når vi har klare skjevheter i tallmaterialet. Situasjonen i
1.3 beskrivende statistikk
bedriften med de seks ansatte var kanskje vel ekstrem, men selv mindre skjevheter vil kunne trekke gjennomsnittet i den ene eller den annen retning på en slik måte at vi ikke lenger er fornøyd med gjennomsnittet som sentralmål. Da vil medianen i fordelingen være et godt alternativ. Definisjon 1.3 Medianen Medianen M i et tallmateriale som består av n observasjoner er den midterste observasjonen dersom n er et oddetall. Dersom n er et partall, definerer vi medianen som gjennomsnittet av de to midterste observasjonene.
For å finne medianen vil en vanligvis først rangere observasjonene i stigende rekkefølge. Har en n = 9 observasjoner, er altså medianen den 5. minste observasjonen. Da er dette den midterste observasjonen i den forstand at det fins 4 observasjoner som er mindre enn medianen og 4 observasjoner som er større enn medianen. Hvis vi har n = 10 observasjoner, er det ingen av de 10 som er den midterste observasjonen. Da er altså medianen definert som gjennomsnittet av de to midterste, altså den 5. minste og den 6. minste. I eksemplet med alderen på de n = 166 studentene, er medianen gjennomsnittet av den 83. minste og den 84. minste alderen. Av hyppighets tabellen kan vi finne ut at medianen i aldersfordelingen er M = 22 år. I dette tilfelle er det ikke stor forskjell på gjennomsnittet på 23.0 år og medianen som er 22 år. Vi vil vel her si at begge sentralmålene er dekkende for alderen til en typisk student. Vi ser av histogrammet at aldersfordelingen er noe skjev mot høyre. De «eldre» studentene trekker gjennomsnittet litt opp. Det er årsaken til at gjennomsnittet gir en noe høyere verdi enn medianen.
Mål for spredning Både gjennomsnittet og medianen er intuitive og lett forståelige mål for størrelse. Når vi nå skal finne et mål for spredningen i et tallmateriale, så fins det ikke noen opplagt måte å måle spredningen på. Gjennomsnittet uttrykker, når det ikke er for sterkt påvirket av avvikende observasjoner,
23
24
1
innledning
størrelsen på en typisk observasjon. For å nærme oss det som etter hvert skal bli vårt mål for spredning, vil vi nå stille spørsmålet: Hvor langt ligger observasjonene fra gjennomsnittet? Ligger mange observasjoner langt fra gjennomsnittet, vil vi si det er stor spredning i tallmaterialet. Ligger derimot alle observasjonene nær gjennomsnittet, vil vi si det er liten spredning. La oss starte med å regne ut gjennomsnittlig avstand mellom observasjonene og gjennomsnittet D=
⎞ 1 1⎛ n X 1 – X + … + X n – X = ⎜ ∑ X i – nX ⎟ = 0 ⎠ n n ⎝ i=1
(
)
Gjennomsnittlig avstand mellom observasjonene og gjennomsnittet blir altså lik null. Observasjonene som er mindre enn gjennomsnittet gir negative avstander, og observasjonene som er større enn gjennomsnittet gir positive avstander. Siden X ligger i sentrum av fordelingen, vil de positive og de negative avstandene oppveie hverandre slik at gjennomsnittlig avstand til gjennomsnittet blir null for ethvert tallmateriale. Dette betyr at denne gjennomsnittsavstanden er ubrukelig som spredningsmål. Vi må definere et avstandsmål der vi unngår at positive og negative avstander opphever hverandre. Det kan vi for eksempel gjøre ved å opphøye avstandene i andre potens. Vi ser på kvadratavstandene mellom observasjonene og gjennomsnittet. Da vil to observasjoner som ligger like langt fra gjennomsnittet på hver sin side ikke lenger oppheve hverandre, men få samme kvadrat avstand og dermed bidra like mye til gjennomsnittlig kvadratavstand. Vi definerer gjennomsnittlig kvadratavstand som følger SX 2 =
1 n 1 ⎡⎣(X 1 – X ) 2 + (X 2 – X ) 2 + … + (X n – X ) 2 ⎤⎦ = ∑ (X i – X ) 2 n i=1 n
Ut fra resonnementet ovenfor synes SX2 å være et logisk og fornuftig mål for spredning i et tallmateriale, og det er det. Det mest brukte spredningsmålet i statistikk er imidlertid den empiriske variansen som framkommer ved å dividere kvadratsummen i SX2 med n – 1 istedenfor med n. Dette er en mindre teknisk justering som foretas av matematiske grunner, og som vi kommer tilbake til i kapittel 5.3.
1.3 beskrivende statistikk
Definisjon 1.4 Empirisk varians S2 =
1 n (X i – X ) 2 n – 1 i=1
∑
Både SX2 og S2 er, som det framgår av notasjonen, kvadratiske spredningsmål. Er for eksempel X-ene målt i meter (m), så blir enheten for disse spredningsmålene kvadratmeter (m2). For å få et spredningsmål som har samme dimensjon som observasjonene bruker vi S som er kvadratroten av den empiriske variansen. S kalles det empiriske standardavviket. Definisjon 1.5 Empirisk standardavvik S=
1 n (X i – X ) 2 n – 1 i=1
∑
Eksempel 1.3 Høyde Nedenfor er gitt høyde for 10 kvinnelige toppidrettsutøvere. Vi skal bruke dette svært begrensede tallmaterialet til å illustrere beregning av gjennomsnitt og standardavvik. Xi (cm) 164 167 170 171 166 169 168 171 168 168 Vi finner gjennomsnitt og empirisk varians X=
1 (164 +167 +170 +…+168 ) = 168.2 10
1 S 2 = [(164 −168.2) 2 + (167 −168.2) 2 + (170 −168.2) 2 9 +…+ (168 −168.2) 2 ⎤⎦ = 4.84 = 2.20 2
25
26
1
innledning
Når en har et tallmateriale av noe størrelse vil en normalt bruke kalkulator med egne taster for gjennomsnitt og standardavvik, eller man vil bruke et dataprogram. Som før nevnt er gjennomsnittsalder for de 166 studentene X = 23.0 år, og vi kan få regnet ut at det empiriske standardavviket blant alle studentene er S = 4.56 år. Disse to nøkkeltallene for vårt materiale er mål for henholdsvis størrelse og spredning, og de kan brukes ved sammenligning med andre studentgrupper.
Kvartiler og kvartilbredde Som nevnt så er medianen et bedre sentralmål enn gjennomsnittet dersom fordelingen i datamaterialet er skjev eller om materialet inneholder en eller flere sterkt avvikende observasjoner. Også spredningsmålene empirisk varians og standardavvik har de samme svakheter som gjennomsnittet i slike tilfelle, og det kan være ønskelig å ha et spredningsmål som på samme måte som medianen er «robust» overfor skjevheter og store avvik i datamaterialet. Vi skal her definere et slikt mål, nemlig kvartilbredden. Når vi har n observasjoner rangert etter størrelse, så er medianen M den midterste observasjonen (evt. gjennomsnittet av de to midterste). Medianen deler dermed tallmaterialet i to halvdeler. For å finne nedre kvartil Q1 går vi til midten av nedre halvdel av observasjonene, og for å finne øvre kvartil Q3 går vi til midten av øvre halvdel. Q1, M og Q3 vil dermed dele materialet inn i 4 deler med 25 % av observasjonene i hver del. Se figur 1.2. Er observasjonene ordnet i stigende rekkefølge, så er i utgangspunktet Q1 observasjon nummer (n + 1)/4, M er observasjon nummer (n + 1)/2, og Q3 er observasjon nummer 3(n + 1)/4. Er for eksempel n = 15, er Q1 observasjon nummer 4, M er observasjon nummer 8, og Q3 er observasjon nummer 12. Dersom (n + 1) ikke er delelig med 4, blir uttrykkene for observasjonsnumrene for Q1 og Q3 ikke hele tall. Da vil vi definere hver av de to kvartilene som en veiet sum av de to nærmeste observasjonene. Se eksempel høyde for nærmere beskrivelse av utregning av kvartilene.