__MAIN_TEXT__

Page 1


Del 4

Del

4

Statistisk inferens: Teori

Statistikk og dataanalyse BOOK_CC.indb 401

06.11.2017 08:58:36


Statistikk og dataanalyse BOOK_CC.indb 402

17

En introduksjon til statistisk inferens

18

En oversikt over konfidensintervaller

19

En oversikt over hypotesetesting

20

Mer om hypotesetester

06.11.2017 08:58:36


En introduksjon til statistisk inferens Å generalisere fra utvalg til populasjon kalles inferens. Det er bokas tredje og siste hovedtema. De to andre hovedtemaene er beskrivende statistikk og sannsynlighetsregning. For å kunne gjøre inferens bruker vi deskriptiv statistikk kombinert med sannsynlighetsregning. Du kan tenke på sannsynlighetsregning som det tekniske maskineriet som gjør at tallene fra utvalget vårt kan brukes til å fortelle noe om hele populasjonen, med en spesifisert grad av sikkerhet. I de neste fire kapitlene vil vi gi en grundig innføring i hvordan vi klarer dette. Det er ingen lett oppgave å håndtere tilfeldig variasjon i estimatene for å få oversikt over systematiske mønster i den underliggende populasjonen. Å forstå tankegangen bak inferens er tidkrevende. Vi konsentrerer oss derfor om et spesielt scenario: situasjoner der utvalget er stort, og der fokuset er på populasjonsgjennomsnittet. Senere, i bokas mer praktiske deler om inferens fra kapittel 21 og utover, tar vi for oss en rekke andre inferenssituasjoner. Vi må da kunne holde styr på samme type spørsmål og begreper som dukker opp i diskusjonen om inferens for populasjonsgjennomsnitt i store utvalg. Vi vil derfor nøye diskutere begrepene estimering, konfidensintervaller og hypotesetester i de neste fire kapitlene. Når du senere leser de mer praktiske kapitlene om hypotesetesting for spesifikke situasjoner, vil du forstå logikken og tankegangen bak inferens uten store problem. Men det kan være lurt å komme tilbake til dette kapitlet når du har jobbet deg gjennom boka. Det er nemlig mange små og store brikker som skal falle på plass før du er utlært i inferenstankegangens fascinerende verden.

Statistikk og dataanalyse BOOK_CC.indb 403

17

I de neste kapitlene: Inferens for populasjons­ gjennomsnitt i store utvalg.

06.11.2017 08:58:36


17

404

DEL 4  STATISTISK INFERENS: TEORI

17.1

Estimere: Å regne ut et tall basert på et utvalg. Tallet kalles et estimat, og det er ment som et anslag på en parameter i populasjonen.

Statistiske studier baserer seg på begren­ sete utvalg. Man ønsker stort sett ikke å si noe om personene som tilfeldigvis er med i dette utvalget, men å generalisere til en hel popula­ sjon. Dette kalles statistisk inferens.

Vi kan ikke generalisere fra bekvemmelighets­ utvalg.

Statistikk og dataanalyse BOOK_CC.indb 404

Estimatorer og deres usikkerhet

Som diskutert i kapittel 1 er formålet med å hente inn et utvalg å skaffe seg mer kunnskap om den underliggende populasjonen som utvalget stammer fra. Ofte er det viktig å få mer informasjon om nøkkeltall i populasjonen. Slike tall kalles parametre. For eksempel ønsker vi å vite mer om gjennomsnittsinntekten til ufaglærte i hjemmepleien i Norge. Vi foretar da et tilfeldig utvalg og regner ut gjennomsnittsinntekten i utvalget. Dette tallet (en observator) forteller oss en god del om gjennomsnittsinntekten i populasjonen. Vi sier at vi har estimert populasjonsgjennomsnittet ved å bruke en estimator, som i dette tilfellet er utvalgsgjennomsnittet. La oss si at en norsk økonom studerer faktorer som påvirker lønninger. Økonomen har fagkunnskap om slike bakgrunnsvariabler, for eksempel utdanning og arbeidserfaring. Han henter så inn data fra disse variablene fra et tilfeldig utvalg på 300 personer tatt fra en bestemt populasjon (la oss si hele Norges yrkesaktive befolkning). Han er egentlig ikke interessert i å finne ut noe om akkurat disse 300 personene, han er interessert i å finne ut noe om hele populasjonen: Hvordan er påvirkningen fra variablene antall år med arbeidserfaring og antall år med utdanning på variabelen lønn i det norske arbeidsmarkedet? Basert på et begrenset utvalg ønsker han å generalisere funnene sine til hele populasjonen. Metoder for å generalisere funn fra et begrenset utvalg til en større populasjon kalles statistisk inferens. Dette har vi diskutert flere ganger tidligere, og i seksjon 1.5 prøvde vi å spenne opp det store lerretet som består av deskriptiv statistikk og inferens. Nå som vi har lært mer sannsynlighetsteori, kan vi gå lenger enn tidligere og utlede praktiske metoder for inferens. Vi skal se at vi da kan angi hvor sikre vi er på konklusjonene våre om hele populasjonen. Dette er veldig viktig i næringslivet, der konklusjoner ofte bare er interessante hvis de er sikre nok til å brukes for praktiske valg som et firma vurderer å bruke penger på. Men uansett hvor mye formell statistisk teori vi kan, kan vi ikke redde en undersøkelse som har startet feil. Som vi vet, avhenger generaliseringsevnen til et utvalg av hvordan utvelgingen har skjedd. Stort sett er vi bare på trygg grunn når utvalget er tilfeldig, eller vi bruker tilfeldig utvelging i et randomisert eksperiment eller i kombinasjon med klynger eller stratifikasjon. Hvis økonomen hadde valgt å intervjue vennene sine i stedet for å ta et tilfeldig utvalg, ville vi ikke hatt noen garanti for at utvalget var representativt for hele populasjonen (kanskje han bare kjenner andre økonomer, som skiller seg ut ved for eksempel å tjene mer enn gjennomsnittet). Som diskutert i kapittel 2 kan vi da ikke bruke dette utvalget til å si noe særlig om hele populasjonen.

06.11.2017 08:58:36


17  EN INTRODUKSJON TIL STATISTISK INFERENS

17

405

Inferensmetodene vi presenterer, er nemlig basert på antagelser om tilfeldig utvelging. Å bruke formelle statistiske teknikker kan gi en følelse av vitenskapelighet, men dette er misvisende hvis antagelsene som disse metodene bygger på, ikke er oppfylt. Konklusjonene kan da bli helt gale. Vi fokuserer i det følgende på inferens for en populasjonsparameter, for eksempel populasjonsgjennomsnittet m. Basert på et tilfeldig utvalg med n = 300 personer, hvordan skal vi estimere populasjonsgjennomsnittet m? Fra de store talls lov vet vi at i store utvalg er utvalgsgjennomsnittet x en god tilnærming til m. Vi bruker derfor x til å estimere m, og vi sier at x er en estimator for m.

EKSEMPEL 153 La oss se på datamaterialet fra Norsk Kundebarometer. La m være gjennomsnittsalderen for alle DNBs kunder. Basert på et tilfeldig utvalg av 200 kunder beregner vi gjennomsnittsalderen i utvalget til å være x = 51.43. Fra de store talls lov vet vi derfor at gjennomsnittsalderen til DNBs kunder er rundt 50 år.

Men hvor godt er dette estimatet? Hvis vi gir en tilnærming uten å si noe om hvor god den er, vet vi jo ikke om vi kan stole på den. Dette er viktig i næringslivet: Hvis du har estimert at en reklamekampanje har effekt, vil sjefen vite hvor sikker du er. For sjefen er det stor forskjell på om effekten er estimert med høy eller lav grad av sikkerhet. Det kan hende at reklamen ser ut til å ha stor effekt basert på utvalget, men at det egentlig ikke er noen effekt i populasjonen av alle forbrukere. Den statistiske tangegangen vi nå skal lære, vil hjelpe oss til å oppdage om det trolig er dette som har skjedd. I så fall kan vi redde firmaet fra å sende ut nok en dyr reklamekampanje som egentlig ikke har noen effekt på salget i det hele tatt. I mange sammenhenger har vi anslag der vi kan si nokså nøyaktig hvor usikre vi er. Et digitalt termometer gir ikke temperaturen helt eksakt, men vi får riktig temperatur med for eksempel to desimalers nøyaktighet. Når det gjelder usikkerhetsanslag for statistiske estimat, må vi tenke helt annerledes enn dette – vi kan ikke finne usikkerhetsanslag av samme type som for et termometer. I stedet oppgir vi såkalte konfidensintervaller for parametre. Disse intervallene tolkes på en ganske annen måte enn at en estimator er nøyaktig med to desimalers nøyaktighet. Siden tolkningen av konfidensintervaller er såpass annerledes enn vi er vant til, skal vi bruke en del tid på å

Statistikk og dataanalyse BOOK_CC.indb 405

Konfidensintervall: Et intervall på tallinja som inneholder estimatet og angir dets usik­ kerhet som en bredde rundt estimatet.

06.11.2017 08:58:44


17

406

Utvalgsfordelingen til en observator er histogrammet vi får hvis vi beregner observa­ toren for mange nye utvalg.

s n

DEL 4  STATISTISK INFERENS: TEORI

introdusere dem og hva de betyr. Dette vil være en velbrukt investering for resten av boka og videre i studiet ditt, siden det er en svært viktig metode som ofte blir misforstått. Utgangspunktet for å beregne usikkerhetsanslag er tilpasninger til estimatorens utvalgsfordeling. Husk at utvalgsfordelingen til en estimator gir informasjon om hvordan estimatoren varierer hvis vi tar et nytt tilfeldig utvalg av populasjonen. Dersom estimatoren er veldig ustabil fra gang til gang, vil utvalgsfordelingen være bred med stor spredning, og usikkerhetsanslaget vil være stort. Når det gjelder gjennomsnitt, vet vi allerede fra sentralgrenseteoremet at i store utvalg er normalfordelingen med forventning m og standardavvik s / n en god tilpasning til utvalgsfordelingen for x. Dette er et svært nyttig resultat, for det gjelder uansett hvordan populasjonen ser ut. Vi skal i neste seksjon se at denne generaliteten lar oss lage usikkerhetsanslag for populasjonsgjennomsnittet i mange tilfeller, og at vi kan teste hypoteser om populasjonsparametre.

17.2

Hvordan estimere en populasjonsparameter?

Tenk deg at du har en populasjonsparameter som du ønsker å estimere. Hvordan lage en passende estimator? I denne boka skal vi bare se på parametre som er klart definert av en utregningsmetode. Populasjonsgjennomsnittet er rett og slett definert som gjennomsnittet til en variabel i hele befolkningen. Det er da naturlig å bruke samme utregningsmetode i utvalget og på den måten komme fram til estimatet. Populasjonsgjennomsnittet estimeres derfor på den opplagte måten: Bruk samme utregningsmetode anvendt på observasjonene i utvalget. Et annet eksempel: Vi ønsker å estimere medianinntekten i Norge, altså medianen til variabelen ‘inntekt’ i populasjonen ‘Norge’. En naturlig estimator for medianinntekten i populasjonen er naturlig nok medianen i det tilfeldige utvalget, gitt at vi har et tilfeldig utvalg. Vi kan vise at denne prosessen går bra i nesten alle tilfeller. Hvis en parameter er definert gjennom en utregningsmetode brukt på en eller flere variabler i populasjonen, kan den estimeres med den samme utregningsmetoden i et tilfeldig utvalg, og denne estimatoren blir bedre og bedre jo større utvalg vi har. Det er derfor ikke vanskelig å finne en estimator når vi i prinsippet kjenner utregningsmetoden for parameteren. Det som kan være litt vanskelig, er

Statistikk og dataanalyse BOOK_CC.indb 406

06.11.2017 08:58:50


17

408

DEL 4  STATISTISK INFERENS: TEORI

der mkwinne er populasjonsgjennomsnittet for generell tilfredshet hos kvinner, og mmann er populasjonsgjennomsnittet for generell tilfredshet hos menn. Parameteren vår er altså gitt ved en formel i populasjonen, og det er derfor klart at vi kan estimere denne parameteren ved å ta et tilfeldig utvalg og så bruke samme formel på dette datamaterialet. Estimatet for mdiff er lik utvalgsgjennomsnittet for generell tilfredshet hos kvinner minus utvalgsgjennomsnittet for generell tilfredshet hos menn.

17.3 En utforskende eller eksplorativ analyse vil si at vi undersøker datamaterialet med grafer, tabeller og annet verktøy for å få en oversikt over dataene.

Figur 17.1  Histogram for alle DNB-kundene i undersøkelsen. NB: en observasjon mangler.

0

.05

Density .1 .15

.2

.25

Alle DNB-kunder

0

2

4 6 Generell tilfredshet

8

10

Figur 17.2  Histogram for alle DNB-kundene i undersøkelsen, fordelt på kjønn. DNBs kunder Mann

0

Density .1 .2

.3

Kvinne

0

5

10 0 5 Generell tilfredshet

Statistikk og dataanalyse BOOK_CC.indb 408

En eksplorativ analyse

La oss nå se på datasettet fra Norsk Kundebarometer. I alle undersøkelser anbefaler vi sterkt å se nøye på dataene før vi innleder en mer formell analyse (se også seksjon 1.4). En slik utforskende prosess av datagrunnlaget kalles en eksplorativ analyse og kan danne grunnlag for hvilken populasjonsparameter vi skal velge, og gi essensiell informasjon vi er nødt til å vite før vi går videre. For eksempel kan det være at noe ser ut til å være galt med datamaterialet, og at vi derfor bør snakke med dem som har samlet inn data. Eksplorative analyser er viktige, for de kan ofte på et tidlig stadium gi svar på spørsmål vi er interessert i. Disse konklusjonene kan så bekreftes ved mer formelle teknikker. Men hvis mønsteret i datasettet er tydelig nok, holder det ofte å gjøre eksplorative analyser. Ikke undervurder kraften til beskrivende statistikk! Eksplorative analyser kan også danne grunnlag for nye hypoteser vi kan undersøke videre. La oss ta en titt på fordelingen til de 200 valgte DNB-kundene på tilfredshetsvariabelen. På figur 17.1 ser vi at fordelingen er venstreskjev, og at det er en overvekt av fornøyde kunder, som jo er bra for DNB. Vi kan så splitte opp dette i to diagram, et for kvinnelige DNB-kunder og et for mannlige DNB-kunder. Dette er vist på figur 17.2. Vi ser det er litt forskjell på fordelingen hos kvinner og menn, men at det er snakk om små forskjeller. Siden dette er data med bare ti ulike verdier, kan vi også se på en krysstabell over datamaterialet. Tabellen på figur 17.3 gir en fullstendig oversikt over hvordan kjønn og tilfredshet samvarierer. I dette tilfellet ser vi at den generelle formen på begge fordelingene er nokså lik, og at nesten ingen kunder er veldig misfornøyde. Av forskjeller merker vi oss at en del flere menn enn kvinner har 8 i generell tilfredshet, og at færre menn enn kvinner har 10 i generell tilfredshet.

10

06.11.2017 08:58:53


17  EN INTRODUKSJON TIL STATISTISK INFERENS

La oss nå se på estimatet vårt for populasjonsparameteren mdiff fra likning (17.1). Basert på de 200 kundene fra DNB er gjennomsnittlig tilfredshet for kvinner lik 7.54 og gjennomsnittlig tilfredshet for menn lik 7.17, så estimatet vårt for mdiff er

17

409 Figur 17.3  Krysstabell over DNBkundene i undersøkelsen

7.54 - 7.17 = 0.37 Ofte skriver vi estimatorer med samme symbol som populasjonsparameteren, men med en ‘hatt’ over, det vil si ˆ m diff. Så vi har ˆ m diff = 0.37 og vi håper at ˆ m diff er en god tilpasning til mdiff. Tilpasningen blir bedre og bedre når utvalgsstørrelsen øker. Vi vet jo fra de store talls lov at hvert av gjennomsnittene gir bedre og bedre tilpasning, og da må jo differansen mellom de to gjennomsnittene også gi bedre og bedre tilpasning til differansen av de to populasjonsgjennomsnittene. Basert på utvalget vårt virker det som at kvinner er mer fornøyde med DNB enn menn, men at forskjellen er liten. Men hvor sikre er vi egentlig på denne konklusjonen? Hvis en som tviler på at kvinner virkelig er mer fornøyde enn menn, ble presentert for dette estimatet, ville han bli overbevist av differansen 0.37? Verdien 0.37 er jo vårt estimat – eller beste anslag – for den ukjente verdien mdiff. Hvis vi hadde ringt andre kunder, ville vi fått et annet estimat. Hvor stor er egentlig denne variasjonen? Vi har ikke tilgang til den sanne verdien av mdiff, og vi har ikke tenkt å gjøre nye og dyre ringerunder, så dette spørsmålet får vi egentlig aldri svar på. Det som er ganske utrolig, er at siden vi har basert undersøkelsen på et tilfeldig utvalg, har vi introdusert en sannsynlighetsstruktur som gjør at vi tilnærmet kan svare på spørsmålet. Hvordan dette blir gjort, er temaet for resten av kapitlet. Uten denne sannsynlighetsstrukturen ville vi bare måttet ta til takke med at ˆ m diff var vår beste gjetning på mdiff, men vi ville stort sett ikke kunnet si noe mer enn dette. La oss til slutt kommentere at den populasjonsparameteren vi valgte, var forskjeller i populasjonsgjennomsnitt. Utvalgsfordelingen for tilfredshet er venstreskjev for begge de to kjønnene, og det tyder på at populasjonsfordelingen (altså datasettet vi ville hatt om vi hadde tilgang til tilfredsheten hos alle bankens kunder) også er venstreskjev. Sunn fornuft tilsier også at populasjonsfordelingen er venstreskjev, for det virker som at en overvekt av DNBs kunder er fornøyde. Vi vet at for skjeve fordelinger kan det ofte være mer naturlig å måle midtpunktet til fordelingen med medianen og ikke med

Statistikk og dataanalyse BOOK_CC.indb 409

06.11.2017 08:58:53


17

410

DEL 4  STATISTISK INFERENS: TEORI

gjennomsnittet. Merk også at utvalgsmedianen vil være en god estimator for populasjonsmedianen. Men siden tilfredshet er målt på en skala fra 1 til 10, og medianen blir en av disse verdiene, viser det seg at dette ikke er nyttig her: Utvalgsmedianen for tilfredshet er lik 8 både for menn og kvinner. Vi har sett at utvalgsfordelingen for tilfredshet hos menn og kvinner er ganske lik, noe som gjenspeiles av at medianen er lik for begge gruppene. Likevel er det mer informativt å rapportere om en gjennomsnittlig forskjell i tilfredshet mellom kvinner og menn på 0.37 enn å si at medianene er like. Statistikk brukes til å få informasjon om datamaterialer og å kommunisere denne informasjonen. Vi må derfor passe på at valgene våre munner ut i informative konklusjoner.

17.4

p stammer fra det engelske ordet for andel: proportion. pˆ er estimatet, altså utvalgsandelen.

Estimator for populasjonsandel

Et tilfeldig utvalg med n personer tas fra populasjonen. Respondentene tar stilling til om de er for eller imot et tiltak, og de to valgmulighetene kaller vi 1 (for) og 0 (imot). Populasjonsandelen p kan i prinsippet beregnes ved å ta antall personer i befolkningen som er for, og dele på det totale antallet personer i populasjonen. Denne utregningsmetoden bruker vi også til å estimere p, ved å regne ut andelen i vårt utvalg som svarte 1. Utvalgsandelen har symbolet pˆ. Vi skal se på et interessant alternativt perspektiv. En andel er et gjennomsnitt. La x1, x2, …, xn, være valgene til personene i utvalget vårt. Altså er f.eks. x1 enten 0 eller 1, og x2 enten 0 eller 1, alt etter om personene 1 og 2 sier de er for eller imot. Legg så merke til at summen

åx

i

bare påvirkes av antall enere i summen. Alle som svarer 0, blir jo borte i summen! Altså er åxi antall personer som svarer 1. Vi ser derfor at

åx

i

n

er andelen av personer som svarer 1. Men siden

åx n

Andeler kan ses på som gjennomsnitt.

Statistikk og dataanalyse BOOK_CC.indb 410

i

=

1 åxi = x n

er jo dette utvalgsgjennomsnittet til variabelen! Dermed vet vi fra de store talls lov at utvalgsandelen vil gå mot populasjonsandelen.

06.11.2017 08:59:06


17  EN INTRODUKSJON TIL STATISTISK INFERENS

17.5

17

411

Estimatorer for varians og standardavvik

La oss si at vi har en populasjon med N individer. Merk at individer her ikke trenger å være mennesker, men de objektene vi er interessert i, som kan være alt fra biler til land osv. For eksempel kunne vi være interessert i produksjonsåret for alle personbiler i Norge. Da er N antall biler totalt i Norge, og hvert individ er én bil. I 2016 var det registrert 2 662 910 personbiler i Norge, så her er N = 2 662 910. Populasjonsvariansen s2 for en variabel X, slik som produksjonsår, er s2 =

1 N åx (17.2) N i =1 i

der x1, x2, …, xN er samtlige individer i populasjonen vi ser på. Og populasjonsstandardavviket er s=

1 N åx (17.3) N i =1 i

Sett at vi nå tar et tilfeldig utvalg av variabelen X på størrelsen n. Altså observerer vi x1, x2, …, xn, der n for eksempel er 200. Merk at vi her bruker samme notasjon som da vi listet opp alle individene i populasjonen, men at vi ikke mener at det er snakk om de samme tallene! Siden s2 og s er definert ut fra formler i populasjonsdataene, vet vi at vi kan estimere disse størrelsene ved å bruke samme formel på et utvalg. Og hvis vi gjør det, får vi 1 n åx n i =1 i

og

1 n åx (17.4) n i =1 i

Merk at forskjellen mellom populasjonsstørrelsene i likningene (17.2) og (17.3) og utvalgsstørrelsene i likning (17.4) er hvor mange (og hvilke) individer det er snakk om. I populasjonsstørrelsene har vi N individer, der N typisk er et veldig stort tall, for eksempel N = 2 662 910 for personbilene. I utvalgsstørrelsene har vi n individer, der n typisk ikke er kjempestort, men for eksempel 200. Ser vi tilbake på formlene for utvalgsvariansen og utvalgsstandardavviket i kapittel 7, oppdager vi en forskjell. Vi lærte da å dele på n - 1 i stedet for n. Dette skal vi fortsette å følge, og vi husker at utvalgsvariansen og utvalgsstandardavviket er s2 =

Statistikk og dataanalyse BOOK_CC.indb 411

1 n ∑x n − 1 i =1 i

og

s=

1 n ∑x n − 1 i =1 i

Vi deler på n – 1 og ikke n, for dermed blir esti­ matoren litt bedre. Når n er stor, har det nesten ingenting å si om vi velger å dele på n – 1 eller n.

06.11.2017 08:59:28


17

412

DEL 4  STATISTISK INFERENS: TEORI

Både å dele på n - 1 og n gir gode estimatorer, men å dele på n - 1 er en justering som fungerer litt bedre.

17.6

Notasjon for estimatorer

Notasjonen vi bruker for de ulike estimatene, kan virke forvirrende i begynnelsen. Som oftest setter vi en ‘hatt’ over populasjonssymbolet for å angi estimatet, men ikke alltid. Grunnen til at vi ikke klarer å holde notasjonen helt gjennomført, er at det allerede er en etablert praksis i statistikk å bruke visse symboler for visse estimatorer, og vi har valgt å følge denne praksisen. Følgende tabell gir en oversikt over de viktigste parametrene og symbolene for estimatet deres. Populasjon

Estimat

µ

x

µdiff

µˆ  diff

Standardavvik

s

s

Andel

p

Gjennomsnitt Differanse i gjennomsnitt

Notasjonene x-obs og pˆobs.

Statistikk og dataanalyse BOOK_CC.indb 412

For de tre første populasjonsparametrene bruker vi greske symboler. Men for andelen bruker vi ikke gresk p. Grunnen er at den greske bokstaven p allerede er i bruk som tallet 3.1415…, og det ville bare vært forvirrende å bruke p som symbol for en andel. I stedet bruker vi den latinske bokstaven p. Det er også verdt å merke seg at vi har en litt omtrentlig omgang med notasjoner når det gjelder å skille mellom estimat og estimator. Førstnevnte er et spesifikt tall som er beregnet fra et spesifikt utvalg, mens en estimator er en tilfeldig variabel som har en utvalgsvarians. I situasjoner der vi ønsker å skille mellom dem, bruker vi x obs for estimatet og x for estimatoren. Her står ‘obs’ for noe som er faktisk observert i utvalget.

06.11.2017 08:59:33


17  EN INTRODUKSJON TIL STATISTISK INFERENS

17.7

413

17

Hva har vi lært?

Vi har sett at vi kan anslå verdien på en populasjonsparameter som for eksempel gjennomsnittet ved å beregne et estimat basert på et tilfeldig utvalg. Vi lærte at estimatet i seg selv ikke er nok, men at vi også trenger å angi graden av usikkerhet som hefter ved estimatet. En måte å gjøre det på er å bruke konfidensintervaller. Konfidensintervallet er avledet av estimatorens utvalgsfordeling. Jo mer spredning det er i utvalgsfordelingen, jo bredere blir konfidensintervallet. Vi ga også et eksempel på eksplorativ analyse. Videre diskuterte vi hvordan vi kan estimere en gitt populasjonsparameter som vi er interessert i. Det gjør vi ved å benytte samme utregningsmetode som vi i prinsippet ville ha brukt om vi hadde hatt tilgang til hele populasjonen. Så for populasjonsgjennomsnittet bruker vi utvalgsgjennomsnittet som estimator. Vi lærte også at en andel er en type gjennomsnitt, og at utvalgsandelen derfor følger de store talls lov, i tillegg til sentralgrenseteoremet.

Statistikk og dataanalyse BOOK_CC.indb 413

06.11.2017 08:59:33

Profile for Cappelen Damm

Utdrag Statistikk og dataanalyse. En moderne innføring  

Denne omfattende læreboken er skrevet for bachelorstudenter i samfunnsfag og økonomi. Den kan brukes som en innføring i statistikk, men den...

Utdrag Statistikk og dataanalyse. En moderne innføring  

Denne omfattende læreboken er skrevet for bachelorstudenter i samfunnsfag og økonomi. Den kan brukes som en innføring i statistikk, men den...