9789144122694 by Smakprov Media AB

STATISTIK FÖR HÄLSOVETENSKAPERNA

GÖRAN EJLERTSSON

Kopieringsförbud Detta verk är skyddat av upphovsrättslagen. Kopiering, utöver lärares och studenters begränsade rätt att kopiera för undervisningsändamål enligt Bonus Copyright Access kopieringsavtal, är förbjuden. För information om avtalet hänvisas till utbildningsanordnarens huvudman eller Bonus Copyright Access. Vid utgivning av detta verk som e-bok, är e-boken kopieringsskyddad. Den som bryter mot lagen om upphovsrätt kan åtalas av allmän åklagare och dömas till böter eller fängelse i upp till två år samt bli skyldig att erlägga ersättning till upphovsman eller rättsinnehavare. Studentlitteratur har både digital och traditionell bokutgivning. Studentlitteraturs trycksaker är miljöanpassade, både när det gäller papper och tryckprocess.

Art.nr 31449 ISBN 978-91-44-12269-4 Upplaga 3:1 © Författaren och Studentlitteratur 2019 studentlitteratur.se Studentlitteratur AB, Lund Omslag: Francisco Ortega Printed by Interak, Poland 2019

INNEHÅLL

Förord 9

1 Introduktion 11 Gången i en undersökning 13 Bokens tanke och innehåll 16 2 Variabler och andra grundbegrepp 19 Mätskalor 20 Övningsuppgifter 23 Kom ihåg … 25 3 Studiedesign 27 Undersökningstyper 27 Urvalsmetoder 34 Studie bland besökare – väntrumsundersökningen 38 Bortfall 39 Forskningsetisk granskning 41 Övningsuppgifter 44 Kom ihåg … 47 4 Tabeller och diagram 51 Tabeller 51 Korstabeller 57 Standardisering 61 Diagram 64 © F ö r fatta r e n oc h S tud e ntlitt e r atu r

Statistik för hälsovetenskaperna

Övningsuppgifter 73 Kom ihåg … 77 5 Genomsnittsvärden och spridningsmått 79 Genomsnittsvärden 80 Spridningsmått 85 Övningsuppgifter 93 Kom ihåg … 98 6 Vad är en hypotesprövning? 101 Sannolikhet 103 Introduktion till statistisk analys 105 Hypotesprövning steg för steg 107 Typ I- och typ II-fel 113 Datorns roll i statistiken – massignifikans 114 Övningsuppgifter 117 Kom ihåg … 118 7 Hypotesprövning vid kvantitativa variabler – introduktion 121 Normalfördelningen 121 Standardiserad normalfördelning 126 Medelvärdenas fördelning 128 Hypotesprövning med hjälp av normalfördelningen – t-test 130 Konfidensintervall 136 Övningsuppgifter 139 Kom ihåg … 143 8 Statistisk analys av kvantitativa variabler – två studiedesigner 145 Studiedesign med parvisa observationer 145 Normalfördelad variabel 146 Konfidensintervall vid normalfördelad variabel 149 Ej normalfördelad variabel – stora stickprov 150 Ej normalfördelad variabel – små stickprov 153 Studiedesign med gruppjämförelser 158 Normalfördelad variabel 159 6

Innehåll

Konfidensintervall vid normalfördelad variabel 163 Ej normalfördelad variabel – stora stickprov 164 Ej normalfördelad variabel – små stickprov 164 Sammanfattning – jämförelse av medelvärden/fördelningar 168 Variansanalys 169 Övningsuppgifter 171 Kom ihåg … 176 9 Statistisk analys av kvalitativa variabler 177 z-test vid proportionstal – en proportion 177 Konfidensintervall 179 z-test vid proportionstal – två proportioner 179 Konfidensintervall 180 Chitvåtestet 181 Villkor för chitvåtestet 189 Övningsuppgifter 189 Kom ihåg … 193 10 Några epidemiologiska begrepp 195 Övningsuppgifter 198 Kom ihåg … 201 11 Korrelation och regression 203 Regression 206 Korrelation 209 Några påpekanden 212 Rangkorrelation 214 Multipel regressionsanalys 215 Logistisk regression 217 Övningsuppgifter 220 Kom ihåg … 226 Svar till övningsuppgifter 229

Statistik för hälsovetenskaperna

Appendix 247 Appendix 1 – z-test vid proportionstal 249

En proportion 249 Konfidensintervall 251 Två proportioner 252 Konfidensintervall 253

Appendix 2 – Regressionsekvation och korrelationskoefficient 255 Appendix 3 – Datamaterial 261 Appendix 4 – Tabeller 269 Sakregister 277

KAPITEL 3

Studiedesign

I det här kapitlet ska vi ta upp olika områden av relevans vid planeringen av en studie. Det finns en rad viktiga begrepp att känna till och ett antal sätt att planera sin studie på. Vi ska kunna skilja på olika studietyper, kunna göra ett slumpmässigt urval korrekt, ha en förberedelse för att ta hand om det bortfall som blir med mera.

Undersökningstyper Det finns lite olika sätt att dela in studier. Ett är att skilja på dem utifrån ens egen påverkan på skeendet. Då skiljer vi mellan två huvudtyper av studier, experimentella undersökningar och observationsstudier. Här ska några av de viktigaste statistiska begreppen i samband med dessa båda typer definieras. Dessutom ska ytterligare en metod omnämnas, vilken inte har individen som undersökningsobjekt utan i stället arbetar med aggregerade data, den ekologiska studien. Karakteristiskt för den experimentella studien eller interventionsstudien (intervention study) är att forskare på ett planerat sätt ingriper i det naturliga skeendet för att studera effekterna av ingreppet. Till kategorin experiment hör det kliniska försöket (clinical trial), vilket syftar till att jämföra två eller flera behandlingar, alternativt att göra jämförelsen mellan en behandlad och en obehandlad grupp. Med en observationsstudie (observational study) avses här en studie på människor, där interventionsstudiens experimentella förutsättningar saknas. Här studeras det faktiska skeendet utan planerad påverkan. Inom det medicinska området syftar observationsstudien oftast till kartläggning av sjukdomar och sambandet mellan sjukdomar och riskindikatorer. Inom © F ö r fatta r e n oc h S tud e ntlitt e r atu r

Statistik för hälsovetenskaperna

de folkhälsovetenskapliga och samhällsvetenskapliga områdena är det till övervägande delen observationsstudier som används. Det finns olika slag av observationsstudier. Ett sätt att dela in dem är efter hur de skiljer sig med avseende på den tidsmässiga relationen mellan olika moment av studien. De tre typerna är då tvärsnittsstudien, den retrospektiva studien och den prospektiva studien. En tvärsnittsstudie (cross-sectional study) är en ögonblicksbild; tidsaspekten finns inte med i undersökningen. Detta är den undersökningsform många kommer i kontakt med. Till exempel är de flesta enkätundersökningar av den här typen; människors förhållanden, attityder med mera undersöks vid ett visst tillfälle utan någon relation framåt eller bakåt i tiden. EXEMPEL I samband med en hälsoundersökning ställdes också frågor kring vilka symtom de svarande hade vid undersökningstillfället. Från resultaten kunde bland annat följande sammanställning göras. Huvudvärk Sömnproblem

Nej

Totalt

Ja Nej

25 35

55 285

80 320

Totalt

340

400

Undersökningen ger här en bild av det statistiska sambandet mellan symtomen. Av 60 personer med huvudvärk hade 25 också sömnproblem (42 procent). Av de 340 personer som inte hade huvudvärk hade 55 sömnproblem (16 procent). På motsvarande sätt framgår att av 80 personer med sömnproblem hade 25, eller 31 procent, också huvudvärk, medan endast 35 av 320 (11 procent) utan sömnproblem hade huvudvärk. Tvärsnittsstudien pekar således mot att det finns ett samband mellan de två symtomen huvudvärk och sömnproblem. Däremot kan vi inte avgöra riktningen på sambandet från den här studien. Vi kan inte säga om sömnproblemen gav upphov till huvudvärk, eller om huvudvärken ledde till sömnproblem. Dessutom kan en trolig förklaring vara, att en tredje bakomliggande variabel orsakade både huvudvärk och sömnproblem.

3 Studiedesign

En retrospektiv (retrospective) studie går bakåt i tiden. Inom epidemiologin finns fall-kontrollstudien (case-control study, case-referent study), som i sin ursprungsform är retrospektiv. Den börjar med att personer med en viss sjukdom eller egenskap (fall) identifieras. Som jämförelse används en kontrollgrupp utan sjukdomen eller egenskapen i fråga (kontroller). I de två följande illustrationerna ges starkt förenklade exempel för att illustrera principer. Båda typerna av studier är förhållandevis komplicerade att praktiskt genomföra. EXEMPEL Ett forskarlag önskade testa frågor i anslutning till en studie av samband mellan ungdomars – i åldrarna 20–24 år – möjliga utslagning från arbetsmarknaden och föräldrarnas tidigare förhållanden. I en del av studien definierades långtidssjukskrivning som att ha varit sammanhängande sjukskriven i minst sex månader. De långtidssjukskrivna utgjorde fallen. En kontrollgrupp bildades bland ungdomar som inte varit långtidssjukskrivna. Genom en kombination av registerdata och enkätdata studerades förhållanden bakåt i tiden (retrospektivt) för att se i vad mån minst en av föräldrarna varit långtidssjuk skriven under någon period de senaste 20 åren. I studien gick det att få fram relevanta data för 100 fall och 300 kontroller. Utfallet av studien blev som följer. Exposition Förälder långtidssjukskriven Förälder ej långtidssjukskriven Totalt

Fall (långtidssjukskriven)

Kontroller (ej långtidssjukskriven)

38 62

36 264

100

300

Bland de 100 fallen hade 38 procent haft minst en förälder som varit långtidssjukskriven, medan motsvarande andel bland kontrollerna var 12 procent. Genom den retrospektiva studien har vi således kunnat fastställa ett samband mellan långtidssjukskrivning bland ungdomar och föräldrarnas tidigare sjukskrivnings förhållanden.

Den tredje typen av observationsstudie är den prospektiva (prospective) studien, vilken går framåt i tiden. Vi anknyter åter igen till epidemiologin, där vi i kohortstudien (cohort study) börjar med att identifiera personer utifrån

Statistik för hälsovetenskaperna

vissa kriterier. De utgör den så kallade kohorten. Därefter följer vi kohorten, som består av en del som är exponerad och en del som inte är exponerad, framåt i tiden (prospektivt). På så sätt går det att följa i vilken utsträckning sjukdomar eller egenskaper utvecklas i de båda delarna av kohorten. EXEMPEL För att få en bild av alkoholens betydelse för möjliga trafikskador gjordes följande studie. Genom enkäter och intervjuer studerades alkoholvanorna i en ungdomskohort, där ungdomarna var 18–20 år och av manligt kön. Utöver alkoholvanorna ingick en lång rad andra variabler såsom social situation, ekonomi etc. Två extremgrupper definierades inom kohorten, de som inte alls drack alkohol och de som var högkonsumenter av alkohol enligt vissa definitioner. Under den närmaste femårsperioden följdes kohorten genom studier av register över slutenvård och trafikskador tillsammans med uppföl jande intervjuer. I följande sammanställning ses resultaten av uppföljningen under femårsperioden. Trafikskadad Nykterist Högkonsument av alkohol

9 24

Ej trafikskadad 291 176

Totalt 300 200

Andelen män som blev trafikskadade under femårsperioden, var bland nykteristerna 3 procent (9/300). Bland högkonsumenterna av alkohol var andelen 12 procent (24/200), det vill säga fyra gånger så hög. Med detta prospektiva upplägg kan vi således se ett möjligt samband mellan alko holkonsumtion och risk för att råka ut för trafikskada bland unga män. Ett memento här är naturligtvis, att i verkligheten finns en lång rad praktiska problem att stöta på på vägen mot slutsatsen.

En annan typ av prospektiv studie är då ett urval individer följs över tiden för att studera utvecklingen i något hänseende. Ibland är urvalet hela tiden detsamma, ibland byts delar av urvalet ut med vissa intervall. Det finns också undersökningar av prospektiv karaktär, men som egentligen består av upprepade tvärsnittsundersökningar med olika urval. Exempel på sådana studier är flera av partisympatiundersökningarna, genom vilka studeras hur sympatin för de politiska partierna utvecklas i väljarkåren. För fullständighetens skull bör nämnas att det förekommer korsbefrukt30

3 Studiedesign

ningar mellan experimentella studier och observationsstudier. Som exempel kan nämnas interventionsstudier, där olika populationer – till exempel de boende i vissa geografiska områden, elever vid vissa skolor eller anställda i vissa företag – slumpas ut till att bli utsatta för någon intervention, och där andra populationer inte utsätts för interventionen. Ibland används begreppet samhällsintervention (community trial) för den typen av undersökning. De epidemiologiska begreppen fall-kontrollstudie och kohortstudie har sin huvudsakliga motsvarighet i den retrospektiva respektive prospektiva studien, även om bilden över olika epidemiologiska undersökningstyper är något mer komplicerad. Så finns till exempel den historiska kohortstudien, där en kohort från förr identifieras och följs framåt i tiden. I den finns inslag av såväl retrospektivt som prospektivt angreppssätt. Ett annat exempel på en epidemiologisk undersökningstyp är den som benämns inbyggd fall-kontrollstudie (nested case control study), vilken kombinerar ett prospektivt och retrospektivt angreppssätt. För en närmare diskussion av epidemiologiska undersökningstyper hänvisas till epidemiologisk litteratur. I kapitel 10 kommer några ytterligare epidemiologiska begrepp i anslutning till tvärsnittsundersökning, prospektiv kohortstudie och retrospektiv fall-kontrollstudie att redovisas. Begreppet kontrollgrupp används såväl i observationsstudien som i experimentet. Vi tänker oss då en undersökningsgrupp och en kontrollgrupp, där den senare används som jämförelse. Undersökningsgruppen kan vara fallen i fall-kontrollstudien, individerna med riskfaktorn i kohortstudien eller personer som genomgår en viss behandling i experimentet. Utgångspunkten är att individerna i kontrollgruppen ska ha samma fördelning som i undersökningsgruppen beträffande variabler av relevans för den enskilda undersökningen. EXEMPEL Till en studie av arbetslösa ungdomars livskvalitet valdes alla ungdomar i åldrarna 20–25 år, som bodde i en viss kommun och som varit inskrivna vid arbetsförmedlingen under minst de tre senaste månaderna, totalt 264 ungdomar. Som kontrollgrupp valdes slumpmässigt ur befolkningsregistret 528 ungdomar, det vill säga dubbelt så många som i studiegruppen. De var i samma åldrar men de var inte registrerade vid arbetsför medlingen. Studien genomfördes med hjälp av enkäter vid ett tillfälle. Genom frågor i enkäten klargjordes de svarandes verkliga sysselsättning under en period bakåt, så att

Statistik för hälsovetenskaperna

de båda grupperna, studiegruppen och kontrollgruppen, kunde renodlas beträffande sysselsättningen. Studien kom därigenom att bestå av en studiegrupp, som hade doku menterad arbetslöshet under minst tre månader, och en kontrollgrupp, vilken bestod av ungdomar som studerade eller arbetade. Dessa båda grupper kunde sedan jämföras beträffande olika förhållanden som togs upp i enkäten.

Då tekniken med kontrollgrupp används är det vanligt att kontrollgruppen består av matchade kontroller (individually matched controls). Till varje person med den studerade sjukdomen, riskfaktorn, egenskapen eller behandlingen väljs då ut en (ibland mer än en) person som liknar den förre så mycket som möjligt – till exempel vad gäller kön, ålder och annat som kan vara relevant – men som inte har sjukdomen, riskfaktorn, egenskapen eller behandlingen i fråga. Därefter jämförs resultaten mellan dessa par av personer. Senare i boken kommer att visas, hur tekniken med matchade kontroller kommer att utnyttjas i den statistiska analysen. Matchning kan också göras på gruppnivå, inte enbart individuellt. Då ska kontrollgruppen ha samma – eller åtminstone snarlik – fördelning på relevanta bakgrundsvariabler (ålder, kön och annat som kan påverka) som fallen. Ett specialfall av det kliniska försöket är läkemedelsprövningen. Där jämförs det nya läkemedlet med i första hand ett beprövat läkemedel eller – om lämpligt sådant inte finns – ett helt overksamt läkemedel. Det senare benämns placebo. Anledningen till att inte enbart effekten av det nya läkemedlet studeras är den så kallade förväntanseffekten. Just det faktum att patienterna tar något preparat över huvud taget medför oftast en effekt – en förväntans- eller psykologisk effekt – på den aktuella sjukdomen eller det aktuella symtomet, om vi ser till en grupp av individer. Begreppet placebo används numera i överförd betydelse även vid andra typer av behandlingar än läkemedelsprövningar. Om till exempel vid en fysioterapeutisk behandling någon form av overksam pseudobehandling används som jämförelse, benämns den ofta som placebobehandling. För att så långt som möjligt få bort subjektiva inslag vid läkemedelsprövningar eller andra behandlingsstudier, bör de göras som dubbelblindförsök (double-blind trial). Då ska varken den som bedömer behandlingsresultat, biverkningar etc. eller patienten veta vilken behandling patienten har fått. Patienten ska däremot – av självklara etiska skäl – känna till att hon är 32

3 Studiedesign

med i ett försök, och att hon får den ena av de två behandlingarna. Vid en läkemedelsprövning kan den bedömande läkaren göras ovetande om hur tilldelningen skett, genom att en annan person gör randomiseringen och delar ut preparaten. Randomisering (randomization) står för slumpmässig tilldelning (random assignment), det vill säga en slumpmässig fördelning av försökspersonerna till endera av två eller flera behandlingsgrupper. Då läkemedelsföretag är inblandade i försöken, levererar de som regel färdiga, kodade förpackningar med endera läkemedel eller placebo. Först då försöket är avslutat bryts koden för den slutliga analysen. Av säkerhetsskäl ska det dock i normalfallet också finnas en oberoende säkerhetskommitté, som periodiskt analyserar data under studiens gång. En vanlig utvidgning numera är att göra studien trippelblind. Den tredje parten är då statistikern, alltså den person som ska göra de statistiska analyserna och tolka resultaten i studien. I analyssituationen är det nämligen möjligt att påverka slutsatserna genom till exempel val av statistisk metod eller val av om extremfall ska exkluderas eller inte. Därför bör statistikern vara ovetande om vilken grupp som är den behandlade. En ytterligare försöksuppläggning vid behandlingsprövningar än den med matchade kontroller respektive oberoende kontrollgrupper är, när försökspersonerna får vara sina egna kontroller. Då genomgår varje försöksperson båda behandlingarna, som vi kan kalla A och B, under olika perioder. Slumpen får då för varje person avgöra, om hon ska genomgå dem i ordningen AB eller BA. En studie med denna uppläggning kallas cross-overstudie. En förutsättning för att använda den studiedesignen är att behandlingen har tidsbegränsad verkan efter det att den avslutats. Metoden är i första hand tillämplig vid läkemedelsprövningar. Den bör innehålla en så kallad wash out-period, vilket är en behandlingsfri period mellan de båda behandlingarna, i syfte att alla effekter av den först genomgångna behandlingen ska försvinna. Förutom att göra jämförelser som baseras på individuella data är det möjligt att studera aggregerade data (som ger information om en grupp, inte om individer). Den studietypen benämns ekologisk (ecological) studie. Ofta jämförs geografiska områden, alternativt utvecklingen över tid i ett geografiskt område, avseende vissa variabler. Så kan vi se på dödligheten i hjärt-kärlsjukdomar i relation till vattnets hårdhetsgrad eller rökvanorna i Sveriges kommuner. Vi kan här få ett mått på sambandet på aggregerad nivå, men vi måste observera att vi inte kan uttala oss om orsakssamband. © F ö r fatta r e n oc h S tud e ntlitt e r atu r

Statistik för hälsovetenskaperna

Ekologiska studier har klara begränsningar och används mest för att få idéer till orsakssamband, vilka sedan måste testas i studier på individnivå. Även om tekniken att använda aggregerade data har utvecklats, förekommer tyvärr inte så sällan en påtaglig övertolkning av resultat från ekologiska studier.

Urvalsmetoder Om alla individer i en viss population studeras, talar vi om en totalundersökning. Av olika skäl är totalundersökningar sällan möjliga att genomföra. Anta till exempel att vi av någon anledning vill undersöka alla diabetiker i Sverige. Ett av de generella problemen vid totalundersökningar skulle omedelbart bli uppenbart; alla diabetiker i Sverige utgör en population, vilken är i storleksordningen en halv miljon personer eller mer. En totalundersökning skulle bli orimligt dyr. Dessutom skulle så många människor bli inblandade i undersökningen, att olika mätresultat inte skulle bli jämförbara (på grund av olika laboratorieapparatur, olika personal, svårigheter att standardisera mätprocedurer med mera). En så omfattande studie skulle dessutom ta orimligt lång tid. Det finns många svårigheter. Totalundersökningar är möjliga i de fall populationerna inte är så stora, eller när studierna görs utifrån registerdata. I det senare fallet finns ett material med redan insamlade data om personer. Exempel på sådana register är folkbokföringsregistret, dödsorsaksregistret och cancerregistret. Registerstudier görs som regel direkt med hjälp av datorer och kan därför göras på stora populationer. Den allra vanligaste metoden för att göra en urvalsundersökning är genom att dra ett stickprov (sample) från populationen. Görs det på rätt sätt, kommer stickprovet att vara en avbild i miniatyr av populationen. För att det ska vara möjligt att uttala sig om en population utifrån ett stickprov, måste stickprovet vara representativt för populationen. För detta krävs slumpmässigt stickprov (random sample). I litteraturen och i olika kunskapssammanställningar brukar speciellt stor vikt läggas vid det randomiserade kontrollerade försöket (randomised controlled trial, RCT), som – rätt utfört – anses borga för god kvalitet i slutsatserna. Samtidigt ska understrykas att den här studietypen finns inom kategorin experimentella studier. Bland observationsstudier måste andra slag av kvalitetskrav ställas. 34

3 Studiedesign

Förutom de slumpmässiga stickproven finns andra typer av stickprov – icke-slumpmässiga – som används i andra syften än att kunna generalisera resultaten. De tas inte upp i den här boken. Om individerna som ingår i undersökningen inte väljs ut på ett korrekt sätt, är risken för bias överhängande. Bias är ett systematiskt fel i resultaten, där oftast varken storlek eller riktning är känd. Just den här typen av bias benämns selektionsbias för att markera att det är ett fel som hänförs till urvalet. Det finns olika metoder att dra ett stickprov från en population. De viktigaste ska beskrivas här. Allra vanligast är, att varje individ i populationen har samma sannolikhet att komma med i stickprovet. Vi talar då om obundet slumpmässigt urval (simple random sample), vilket är det beräkningsmässigt enklaste att använda. Alla de genomsnitts- och spridningsmått som redovisas i kapitel 5, utgår från att stickprovet dragits med hjälp av obundet slumpmässigt urval. EXEMPEL En enkätundersökning ska göras bland allmänheten i en mindre kommun. Enkäten ska skickas till ett femprocentigt urval ur populationen. Personerna ska vara i ålders intervallet 20–74 år och folkbokförda i kommunen. Populationen utgörs av i storleks ordningen 12 000 personer. Så stora populationer hanteras med hjälp av dator. Varje individ i de aktuella åldrarna ges fem procent sannolikhet att bli utvald, vilket kommer att betyda att cirka 600 personer kommer med i urvalet.

En närbesläktad urvalsmetod är det systematiska urvalet (systematic sample). Det är användbart, då individerna i populationen på något sätt finns ordnade i en förteckning. Som exempel, anta att det finns en förteckning med 100 personer och 20 procent ska väljas. Det är 1/5 av alla. Då dras första personen slumpmässigt bland de fem första, säg att det blev nummer 2. Sedan kommer person nummer 2, 7, 12, 17 etc. att ingå i urvalsgruppen. Viktigt här är att alla personer har samma sannolikhet, i exemplet 20 procent, att komma med i urvalet. Om populationen delas in i undergrupper – strata – från vilka dras slumpmässiga urval, görs ett stratifierat urval (stratified sample). Undergrupperna ska vara homogena med avseende på någon bestämd © F ö r fatta r e n oc h S tud e ntlitt e r atu r

Statistik för hälsovetenskaperna

egenskap. Stickproven kan vara olika stora i de olika strata. Metoden är speciellt användbar, då någon eller några intressanta subgrupper förekommer med så låg frekvens, att ett vanligt stickprov skulle komma att innefatta få personer i just den subgruppen. Genom stratifieringen kan andelen i stickprovet från de små subgrupperna ökas. Detta har emellertid konsekvenser för de statistiska beräkningarna, som blir mer omfattande. Framför allt ger stratifiering två fördelar. Dels ökar precisionen i skattningarna generellt, dels ökar möjligheten till skattningar med hög precision även inom de enskilda strata. EXEMPEL En fysioterapeut skulle i en skola göra en studie kring ergonomin. Skolan hade sex klasser och 170 elever i årskurserna 7–9, sex klasser och 150 elever i årskurserna 4–6 samt endast tre klasser och 70 elever i årskurserna 1–3. Vi kan nu låta undergrupperna vara homogena med avseende på ålder. Därför kan årskurserna 7–9, 4–6 och 1–3 utgöra var sitt stratum. Fysioterapeuten drog ett urval på 20 procent från var och en av de äldsta åldersgrupperna (stratum 1 och 2). Eftersom de yngsta eleverna var så få, valde hon att i stället ta ett urval på 40 procent här (i stratum 3). Totalt kom i urvalet att ingå 92 elever (34 + 30 + 28). Vad fysioterapeuten nu måste tänka på i kommande beräkningar och analyser rörande barnen totalt är att reducera inverkan av de yngsta eleverna. Dessa är ju repre senterade dubbelt i förhållande till övriga genom att de hade en dubbelt så hög urvals sannolikhet. De måste således ”viktas ner” i totalberäkningarna. Däremot vinner man den fördelen att de yngsta nu är 28 i stället för 14, vilket de varit om urvalssannolikheten varit samma som i övriga åldersgrupper. Det ger en bättre möjlighet att uttala sig om just den gruppen separat.

Det är möjligt att ha samma urvalssannolikhet i de olika strata, till exempel om det av något skäl kan ses som en fördel att varje stratum ska vara representerat i stickprovet med exakt sin andel av populationen. I sådana fall är benämningen proportionellt stratifierat urval. Det finns ytterligare några urvalsmetoder. En sådan benämns kluster urval (cluster sample). Oftast görs urvalet från populationen i två eller flera steg, och då används begreppet tvåstegsurval eller flerstegsurval som synonym till klusterurval. Vanligast görs urvalet med hjälp av obundet slumpmäs36

3 Studiedesign

sigt urval i varje steg. I det första steget väljs slumpmässigt ett antal kluster eller huvudgrupper, vilka i motsats till det stratifierade urvalet inte ska vara homogena. Det kan ske i flera steg. I det sista steget dras slumpmässigt ett stickprov från varje utvalt kluster. Det är också möjligt att låta stickprovet utgöras av samtliga individer i de dragna klustren. EXEMPEL En studie ska göras inom den pedagogiska omsorgen i ett län. Barn som vistas i kommunal förskola respektive i familjedaghem ska delta. Totalt ska 100 barn från varje kategori ingå i studien. Att här enbart välja slumpmässigt skulle göra studien väldigt svåradministrerad. Kanske skulle slumpen göra, att barnen i urvalet kom från flera olika förskolor och många olika dagmammor. I stället görs urvalet i två steg. Först väljs slumpmässigt ut ett antal kommunala förskolor, kanske 5–10 stycken, vilka genom det slumpmässiga förfarandet kan repre sentera förskolorna. Därefter väljs i nästa steg slumpmässigt en viss proportion barn från varje förskola, så att 100 barn ingår i urvalet. På motsvarande sätt görs urvalet bland barnen i familjedaghem. Det beskrivna urvalet har gjorts i två steg. Men det kunde också ha gått till så att först ett antal kommuner valdes ut, sedan ett antal förskolor eller dagmammor från de utvalda kommunerna och slutligen barn från dem. Då hade flerstegsurvalet gjorts i tre steg i stället.

En vanlig urvalsmetod vid medicinska undersökningar är att slumpmässigt dra vissa födelsedagar och låta alla som är födda dessa dagar, oberoende av månad och år, ingå i urvalet. Det är en speciell urvalsmetod, vilken kan betraktas som ett specialfall av klusterurvalet. Vid beräkningar och analyser kan materialet behandlas som vid ett obundet slumpmässigt urval. Ett slumpmässigt urval kan dras på olika sätt. Det viktiga är inte metoden som sådan. Det viktiga är dels att stickprovet verkligen dras slumpmässigt utan någon subjektiv påverkan på vilka personer som kommer med i urvalet, dels att urvalssannolikheten för varje individ är känd. Med hjälp av dator kan stickprov av bestämda storlekar väljas ut enkelt även från stora populationer. Vid små populationer kan alternativa manuella metoder användas. Det kanske enklaste sättet är då att på papperslappar skriva nummer, varefter personerna som motsvarar de dragna numren ingår i urvalet.

Statistik för hälsovetenskaperna

STUDIE BLAND BESÖK ARE – VÄNTRUMSUNDERSÖKNINGEN

En form av undersökning som många, inte minst i den praktiska vården, förr eller senare kommer i kontakt med är väntrumsundersökningen. Gemensamt för det som här benämns väntrumsundersökning är att urvalet består av personer som på eget initiativ vänt sig till eller kontaktat ett visst besöksställe, varav alternativbenämningen studie bland besökare. Det kan gälla enkäter till patienter i väntrummet på en mottagning eller frågor till personer som besöker ett apotek, en myndighet eller ett företag, till exempel en bank. Undersökningsformen är vanligare än den borde vara med tanke på de svagheter den har, varför den tas upp speciellt här. Problemet är att urvalet inte är slumpmässigt i den bemärkelsen, att varje person i en målgrupp tilldelas en viss sannolikhet att ingå i urvalet. Just detta faktum, att det är varierande och okända sannolikheter för olika personer att komma med i undersökningen, gör tolkningen av resultaten vansklig. Följande exempel kan illustrera problemet. Vid en vårdcentral bestämde man sig för att göra en enkätundersökning bland patienterna. Alla som kom till mottagningen under en tvåveckorsperiod fick en enkät, vilken de ombads fylla i när de väntade i väntrummet. Hur tillförlitliga är då resultaten? För att få en uppfattning om det, måste vi se efter vilka som svarat på enkäten. Hur stor är sannolikheten för en viss person att få delta, alltså att söka vård vid mottagningen under just de två veckor, då enkätundersökningen pågår? För en person som i genomsnitt gör ett besök per år är sannolikheten cirka 4 procent (2/52, två veckor av 52). Det är sedan enkelt att beräkna, att sannolikheten stiger till 8 procent för den som i genomsnitt gör två besök per år, till 11 procent för den som gör tre besök per år, 15 procent för den som gör fyra besök per år etc. För en verklig högkonsument med i genomsnitt tio besök per år är sannolikheten så hög som 33 procent att besöka mottagningen minst en gång under de två aktuella veckorna och att därigenom vara med i undersökningen. Slutsatsen av den sannolikhetsfördelningen är, att deltagarna i undersökningen kommer att bestå av en oproportionerligt hög andel högkonsumenter och förhållandevis få lågkonsumenter. Det kommer att få som konsekvens att alla resultat som har samband med vårdkonsumtionen kommer att snedvridas. 38

3 Studiedesign

Eftersom gamla gör fler besök än unga, får vi i urvalet en överskattning av antalet gamla. Om vi i enkäten ställer frågor om antalet läkarbesök senaste året, får vi en klar överskattning av vårdkonsumtionen. Om det är så att de som är negativa till vårdcentralen söker andra vårdgivare i högre utsträckning, får vi en överskattning av de positiva attityderna. Listan över snedvridna effekter som ett resultat av ett felaktigt urvalsförfarande skulle kunna göras mycket längre. Kan väntrumsundersökningen då vara användbar i något sammanhang? Fördelen med väntrumsundersökningen är ju att den är enkel att genomföra och lättadministrerad. Svaret är ja, under två förutsättningar. För det första får svaren inte vara korrelerade till respondentens besöksfrekvens i den aktuella lokalen, i exemplet vårdkonsumtionen. För det andra kan inte den normala besökargruppen (patientgruppen i exemplet) vara målgrupp, eftersom urvalsmetoden ger ett urval som inte är representativt för den normala besökargruppen. Om inte dessa villkor är uppfyllda, kommer resultaten att spegla något annat än det som från början förmodligen var syftet med undersökningen. Alternativa metoder till väntrumsundersökningen bör således övervägas.

Bortfall Då en person i urvalet vägrar att delta – eller inte har möjlighet att delta – i den avsedda undersökningen, talar vi om bortfall (non-response). Det finns också en typ av bortfall, ibland benämnt missing data, som beror på tekniska missöden, till exempel att prov, enkäter eller anteckningar förkommer. Om anledningen till bortfallet ligger helt utanför undersökningens frågeställningar – men bara då – kan det senare bortfallet ersättas. En person som vägrar delta i en undersökning skiljer sig från övriga redan genom det faktum, att han vägrar delta. Han kan därför inte ersättas av en person med andra egenskaper. EXEMPEL Anta att vi genom en enkätundersökning vill studera omfattningen av och innehållet i grannsamverkan i ett par bostadsområden. Enkäten skickas till ett slumpmässigt urval om 1 000 personer. Bortfallet blir 40 procent. Av de 600 som deltar, svarar 210 personer ja på frågan om de brukar ha en granne som aktivt ser till huset, då de är bortresta. Det motsvarar 35 procent. Om vi nu ersätter de 400 i bortfallet med nya slumpmässigt valda

Statistik för hälsovetenskaperna

personer, blir dessa av samma selekterade grupp som dem som deltog vid första tillfället. Vi kan således räkna med att fortfarande ha cirka 35 procent som skulle svara ja på frågan. Huruvida de i bortfallet i större eller mindre utsträckning än de svarande är av kate gorin som har god grannsamverkan kan vi bara spekulera i. Det är ganska enkelt att finna argument åt båda hållen. Den verkliga andelen kan alltså mycket väl vara högre än 35 procent, men den kan lika väl vara lägre.

Då det finns ett betydande bortfall är osäkerheten således stor kring hur resultaten ska tolkas. Ju större bortfallet är, desto större är naturligtvis risken för felaktiga generaliseringar till populationen. Bortfallsproblemet har två dimensioner. För det första är det viktigt att göra extra ansträngningar för att minimera bortfallet. För det andra ska effekterna av det bortfall som ändå blir göras så lindriga som möjligt. Alltmer diskuteras problemet med att sätta alltför stor press på respondenterna i samband med enkätundersökningar. Visserligen kan det leda till att fler svarar, men tyvärr också till sämre kvalitet på svaren. Hur kan då rent praktiskt bortfallet minimeras? Det varierar naturligtvis från undersökning till undersökning. Det viktiga är att på lämpligt sätt försöka motivera de tänkta deltagarna så att de vill delta snarare än att de känner sig tvingade att delta. Vid till exempel en enkätundersökning kan bortfallet påverkas genom ett följebrev. Det ska vara väl utformat och på ett bra sätt introducera enkäten. Enkäten ska innehålla frågor som är begripligt konstruerade och som presenteras på ett för den svarande logiskt sätt med logisk ordning. Genom att vid postenkäter skicka påminnelser, ofta två stycken, till dem som inte besvarat enkäten, kan svarsprocenten höjas betydligt. Antalet svar blir ofta i storleksordningen 30–50 procent fler efter två påminnelser än utan påminnelse. Hur ska vi då göra för att lindra effekterna av ett bortfall? Tyvärr finns inget generellt sätt att helt eliminera problemet. Det vi dock inte ska göra är att negligera bortfallet. Alltför ofta ses tyvärr i artiklar, att bortfallet avfärdas på en rad eller inte nämns alls. Trots allt finns vissa steg att vidta för att minimera effekterna av ett bortfall. Vid en enkät- eller intervjuundersökning eller motsvarande kan extra ansträngningar göras för att övertala personerna i bortfallet att ändra sitt beslut att inte delta, till exempel genom telefonsamtal. Ibland kan i stället ett slumpmässigt stickprov från bortfallet bearbetas på motsvarande sätt. 40

3 Studiedesign

Uppgifterna från deltagarna och bortfallet kan sedan vägas samman med hjälp av särskilda metoder. Många gånger är det lämpligt att plocka ut vissa nyckelfrågor som den svarande ombes att besvara vid telefonkontakten. Vill respondenten inte svara på alla frågorna, accepterar han ändå ofta att besvara några få. Det kan vara tillräckligt för att kategorisera bortfallet. EXEMPEL Vi anknyter till förra exemplet, där vi i en enkätundersökning studerar grannsamverkan. Av 1 000 personer i urvalet besvarar 600 enkäten. Av dessa visar sig 210 personer, eller 35 procent, svara ja på frågan om de brukar ha en granne som aktivt ser till huset, då de är bortresta. Från bortfallsgruppen drar vi ett slumpmässigt stickprov om 20 procent. De 80 så utvalda personerna accepterar att besvara några nyckelfrågor ur enkäten. Av de 80 respondenterna i bortfallsgruppen svarar 20, det vill säga 25 procent, ja på den aktuella frågan. Vi kan då skatta andelen ”ja-svarare” i hela urvalet till 31 procent, vilket beräknas på följande sätt: 100 · (0,35 · 600 + 0,25 · 400)/1 000.

Att notera här är att hela bortfallsgruppens storlek (400 i exemplet) används vid sammanvägningen, trots att proportionstalet (25 procent i exemplet) beräknats på enbart ett stickprov ur bortfallet. Ofta finns möjlighet att genom uppgifter från befolkningsregister, kundregister, journaler etc. göra en rad kontroller av huruvida bortfallsgruppen skiljer sig från deltagarna beträffande vissa variabler. Om då inga skillnader beträffande dessa jämförda variabler finns, och om de jämförda variablerna kan antas vara korrelerade till de variabler som studeras i enkäten, kan data användas från respondenterna som en skattning av hela urvalet och där igenom som en skattning av den studerade populationen.

Forskningsetisk granskning En bra huvudregel för den som ska göra en undersökning är att det alltid finns frågor som kräver etiska ställningstaganden. Är det till exempel vid kliniska försök etiskt att inte vid varje tillfälle ge patienten bästa möjliga vedertagna behandling? Om det är oetiskt och inte bör ske, hur motiverar vi © F ö r fatta r e n oc h S tud e ntlitt e r atu r

Göran Ejlertsson, professor i folkhälsovetenskap, har varit verksam vid Lunds universitet och Högskolan Kristianstad. Största delen av sitt yrkesliv har han ägnat åt forskning och undervisning, där statistiska metoder spelat en central roll.

STATISTIK FÖR HÄLSOVETENSKAPERNA Statistik för hälsovetenskaperna har tillsammans med sin föregångare Grundläggande statistik under flera decennier varit en uppskattad och flitigt använd kursbok vid många hälsovetenskapliga universitetsoch högskoleutbildningar. Denna tredje upplaga av boken har ytterligare moderniserats. Statistikämnet introduceras på ett enkelt och begripligt sätt med hänsyn till en modern, datoriserad värld. Logiken förklaras resonemangsvis vilket förenklar för den som vill lära sig statistik. Boken tar upp de viktigaste begreppen och metoderna för att planera och designa studier, beskriva material och genomföra analyser. Metoder för att presentera material med hjälp av tabeller och diagram samt olika genomsnitts- och spridningsmått redovisas. De mest använda metoderna för statistisk analys gås igenom. Därutöver ingår en del centrala epidemiologiska begrepp och ett kapitel om regression och korrelation. Etikfrågor i samband med undersökningar diskuteras. Övningsuppgifter med förklarade svar finns det rikligt av – i stort sett samma som i förra upplagan – vilket underlättar för självstudier. Exemplen har hämtats från hälsovetenskaperna; de är därför användbara för yrkesgrupper som folkhälsovetare, sjuksköterskor, fysioterapeuter, arbetsterapeuter, socialarbetare, läkare med flera. Därigenom lämpar sig boken speciellt även för högskole- och universitetsstuderande inom dessa områden. För den som vill arbeta med hjälp av dator finns för nedladdning ett omfattande övningsmaterial på studentlitteratur.se/31449.

Tredje upplagan

studentlitteratur.se

Art.nr 31449