Utdrag Statistikk og dataanalyse. En moderne innføring by Cappelen Damm

Utdrag Statistikk og dataanalyse. En moderne innføring

17 EN INTRODUKSJON TIL STATISTISK INFERENS

405

Inferensmetodene vi presenterer, er nemlig basert på antagelser om tilfeldig utvelging. Å bruke formelle statistiske teknikker kan gi en følelse av vitenskapelighet, men dette er misvisende hvis antagelsene som disse metodene bygger på, ikke er oppfylt. Konklusjonene kan da bli helt gale. Vi fokuserer i det følgende på inferens for en populasjonsparameter, for eksempel populasjonsgjennomsnittet m. Basert på et tilfeldig utvalg med n = 300 personer, hvordan skal vi estimere populasjonsgjennomsnittet m? Fra de store talls lov vet vi at i store utvalg er utvalgsgjennomsnittet x en god tilnærming til m. Vi bruker derfor x til å estimere m, og vi sier at x er en estimator for m.

EKSEMPEL 153 La oss se på datamaterialet fra Norsk Kundebarometer. La m være gjennomsnittsalderen for alle DNBs kunder. Basert på et tilfeldig utvalg av 200 kunder beregner vi gjennomsnittsalderen i utvalget til å være x = 51.43. Fra de store talls lov vet vi derfor at gjennomsnittsalderen til DNBs kunder er rundt 50 år.

Men hvor godt er dette estimatet? Hvis vi gir en tilnærming uten å si noe om hvor god den er, vet vi jo ikke om vi kan stole på den. Dette er viktig i næringslivet: Hvis du har estimert at en reklamekampanje har effekt, vil sjefen vite hvor sikker du er. For sjefen er det stor forskjell på om effekten er estimert med høy eller lav grad av sikkerhet. Det kan hende at reklamen ser ut til å ha stor effekt basert på utvalget, men at det egentlig ikke er noen effekt i populasjonen av alle forbrukere. Den statistiske tangegangen vi nå skal lære, vil hjelpe oss til å oppdage om det trolig er dette som har skjedd. I så fall kan vi redde firmaet fra å sende ut nok en dyr reklamekampanje som egentlig ikke har noen effekt på salget i det hele tatt. I mange sammenhenger har vi anslag der vi kan si nokså nøyaktig hvor usikre vi er. Et digitalt termometer gir ikke temperaturen helt eksakt, men vi får riktig temperatur med for eksempel to desimalers nøyaktighet. Når det gjelder usikkerhetsanslag for statistiske estimat, må vi tenke helt annerledes enn dette – vi kan ikke finne usikkerhetsanslag av samme type som for et termometer. I stedet oppgir vi såkalte konfidensintervaller for parametre. Disse intervallene tolkes på en ganske annen måte enn at en estimator er nøyaktig med to desimalers nøyaktighet. Siden tolkningen av konfidensintervaller er såpass annerledes enn vi er vant til, skal vi bruke en del tid på å

Statistikk og dataanalyse BOOK_CC.indb 405

Konfidensintervall: Et intervall på tallinja som inneholder estimatet og angir dets usik kerhet som en bredde rundt estimatet.

06.11.2017 08:58:44