Issuu on Google+

Andreas Habicht

Att bedรถma evidens


Innehåll Förord

7

Tack

10

Vad är evidens?

11

Bedöm själv evidens

13

Arbeta systematiskt

15

Publikationens syfte

16

Ramen kring artikeln

17

Författaren Tidskriften

Forskningsupplägget Prospektivt eller retrospektivt Superioritets-, noninferioritets- eller ekvivalensstudie Analysmetoder vid olika forskningsupplägg Varför är det viktigt att känna till det övergripande upplägget? Vilket övergripande upplägg har använts? Försöksupplägg Gruppsekventiellt upplägg Adaptivt upplägg Effektparametrar Randomiserat? Kontrollerat Blint Population

17 18 20 21 23 24 25 26 27 30 32 35 36 37 37 38


Antalet patienter ­– urvalets storlek Exempel på ett avsnitt om sample size

Statistisk analys Varför statistisk analys? Vad är ett p-värde? Mätskalor Har rätt statistiskt test använts? Variansanalys

Tid-till-händelse-analys Absolut risk, relativ risk och andra mått på risk Standardfel kontra standardavvikelse Konfidensintervall

39 42 44 45 45 47 48 50 52 53 54 56

Diskussionsavsnittet

59

Slutsatserna

60

Placering av publikationen i evidenspyramiden

61

Speciellt för metaundersökningar

63

Selektionsbias Heterogenitet Publikationsbias

Epidemiologi Mätning av sjukdomens utbredning Prevalens Incidens Kausalitet Samband Utmaningar rörande kausalitet Krav på kausalitet Epidemiologiska undersökningar Observationsundersökningar Statistisk analys i epidemiologiska studier

Appendix

65 66 69 71 71 72 72 73 73 73 74 75 75 76 77


A. Vad är ett p-värde? Syfte Inledning Fördelningen av mätresultaten Fördelningen av medelvärdena Statistisk jämförelse mellan två fördelningar

B. Hur görs ett statistiskt test? Syfte Inledning Uppställning av hypoteser Beräkning av teststorhet Jämförelse av teststorhet och fördelning Förutsättningar

C. Hur bedömer man ­noninferioritetsstudier? Syfte Definition Vad menas med noninferioritet? Exempel När har noninferioritet påvisats? Varför ska per protokoll-populationen användas? Kan man byta syfte?

D. Vad är principen i variansanalys (ANOVA)? Syfte Inledning Exempel med kolesterol, ensidig variansanalys Principen i variansanalys Justerad variansanalys, en analys av residualvariationen i data Metod för justerad variansanalys Undergruppsanalys Bedömning av variansanalysmodeller

78 78 78 79 80 81 82 82 82 82 83 84 84 87 87 87 88 89 90 90 91 93 93 93 94 95 98 99 99 100


E. Hur analyserar man tid-till-händelse-parametrar? Syfte Varför inte använda gängse analysmetoder? Kaplan-Meier-kurvor Fördelar med Kaplan-Meier-kurvor Hazardkvot Mediantid Logrankt-test Cox-regression Exempel

F. Vad är absolut risk, relativ risk och andra riskmått? Syfte Inledning Absoluta riskmått Relativa riskmått Genomgång av riskmått Oddskvot i förhållande till relativ risk Exempel

101 101 101 102 104 104 104 105 106 106 109 109 109 109 110 110 111 112

G. Olika typer av bias

114

H. Lathund för bedömning av kliniska publikationer

117

Kritisk läsning av vetenskapliga artiklar

I. Lathund för bedömning av metaundersökningar Kritisk läsning av metastudier

J. Lathund för bedömning av kliniska publikationer (engelsk) Critical reading of scientific publications

Ordlista

117 118 118 119 119 120


Förord Hur kan jag komma underfund med om en klinisk publikation är bra eller dålig? Hur kan jag få reda på om det finns evidens för att ett nytt läkemedel är verksamt? Och då utan att lägga ned alltför mycket av min dyrbara tid på det? Detta är två frågor som många inom sjukvården ofta ställer. Det krävs faktiskt inget hårt arbete för att lära sig svaret på dessa båda viktiga frågor, och man behöver inte vara någon expert på området, t.ex. läkare eller farmaceut. Med tiden har det kommit många böcker om evidensbaserad medi­ cin och kritisk läsning av klinisk litteratur. De flesta av dem håller emellertid, enligt min mening, en alltför hög nivå, så att det bara är de redan invigda som har fullt utbyte av dem. Eftersom jag är övertygad om att allt svårt innehåll kan förklaras i alldagliga termer har jag i denna bok försökt att på ”vanlig svenska” förklara hur man bedömer en klinisk publikation. Boken är avsedd att ge alla, inte bara experter, möjlighet att själva bedöma evidens. Den går på ett enkelt och systematiskt sätt igenom de viktigaste begreppen inom området evidensbaserade metoder. Att bedöma evidens är skriven för dig som arbetar inom sjukvården, i offentlig eller privat regi. Jag tänker mig att du antingen är nybörjare på området eller har arbetat länge inom branschen men saknar överblick. Du kan också vara studerande och behöva en introduktion till ämnet. Du är kanske läkare och vill snabbt bedöma om ett läkemedel har den utlovade verkan. Du kan också vara produktchef eller konsulent i ett läkemedelsföretag och vilja systematiskt bedöma en konkurrents nya läkemedel och dess för- och nackdelar i jämförelse med ditt företags produkter. 7


att bedöma evidens Gemensam för dessa målgrupper är önskan om en allmän introduktion till området och en systematisk ”verktygslåda” som kan användas om och om igen för att bedöma om vetenskapliga publikationer är bra eller inte. Kort om bokens avgränsning: Fokus ligger huvudsakligen på publikationer som handlar om kliniska interventionsstudier. Boken behandlar emellertid också principer bakom epidemiologisk forskning och epidemiologiska publikationer. Vad gäller interventionsstudier är boken strukturerad så att den går igenom fem huvudpunkter rörande en klinisk publikation: • • • • •

syfte ram upplägg resultat slutsats(er)

Var och en av punkterna gås igenom utförligt: Vad är viktigast att bedöma? Var ligger publikationens styrkor och svagheter? Vad blir följden om viktiga punkter saknas? En samlad bedömning av samtliga punkter ger läsaren möjlighet att bedöma publikationens samlade evidens. Avslutningsvis behandlas också metastudier, däribland vad man bör vara uppmärksam på för att avgöra om en metastudie är bra eller dålig. Många av figurerna är presentationsbilder hämtade från mina föreläsningsserier ”Kritisk litteraturläsning” och ”Statistik i klinisk prövning”. Min erfarenhet från kurserna är att det är statistiken i publikationerna som vanligen sätter läsarens förståelse på störst prov. Bokens appendix rymmer därför en lite mer utförlig beskrivning av utvalda teman inom statistisk analys. Följande teman berörs: • • • • 8

Vad är ett p-värde? Hur gör man en statistisk prövning? Hur bedömer man noninferioritetsstudier? Vilken är principen i variansanalys (ANOVA)?


Förord • Hur analyserar man tid-till-händelse-parametrar? • Vad är absolut kontra relativ risk och andra mått på risk? I Appendix G behandlas de vanligaste typerna av bias (snedvridning), samt förslag till hur de kan undvikas. De sista tre appendixen (det tredje är på engelska) är ett slags checklista eller lathund för att säkerställa att man går igenom alla publikationer på samma systematiska sätt varje gång och inte glömmer bort något. Om man under resans gång stöter på specialtermer och begrepp kan ordlistan sist i boken bidra med en förklaring. God läsning! Trørød, juni 2011 Andreas Habicht

9


Vad är evidens? Om man stöter på en skrift om ett nytt läkemedels förträfflighet, hur säker kan man då vara på att det har den verkan som anges i sammanfattningen? Hur säker kan man vara på slutsatsen att biverkningarna är få? Svaren på dessa frågor är i hög grad beroende av hur man kommit fram till de resultat som anges i publikationen, och om slutsatsen har stöd i de resultat som föreligger. Är det fråga om en klinisk bedömning av en enda läkare eller bygger studien på stora kliniska undersökningar med minimal bias och korrekt statistisk analys? Hur fast grund slutsatsen vilar på bestämmer graden av publikationens evidens. Figur 1 visar en evidenspyramid med minst evidens nederst och störst överst. Längst ned i evidenspyramiden finns enskilda personers erfaren­ heter. Det kan vara duktiga läkare med många års klinisk erfarenhet, som har observerat olika händelser hos sina patienter. Men så länge det rör sig om enstaka läkares erfarenhet är evidensen liten. Bättre är om man exempelvis under en följd av år har iakttagit patienter med och utan en viss behandling. Att kunna göra historiska jämförelser av ett eller annat slag ger något starkare evidens. Men erfarenheter byggda på historiska iakttagelser kan vara selektiva och kanske tillfälliga. Om man önskar största evidens krävs prospektiva (framåtriktade) kliniska kohortstudier. Kohort är en beteckning på en grupp patienter med vissa gemensamma karakteristika. En sådan kohort följs under en viss period. Evidensen ökar självfallet med kvaliteten på dessa kohortstudier. Finns det en kontrollgrupp, är patienterna randomiserade (dvs. det är 11


att bedöma evidens

Metastudie Kontrollerad, randomiserad och blindad klinisk prövning Kontrollerad klinisk prövning Kohortstudier Historiska observationer av patienter med och utan behandling En erfaren fackmans kliniska bedömning Figur 1. Bedömning av evidens: från minsta evidens (en enda klinisk ­bedömning) till största evidens (metastudier).

slumpen som avgör vilken behandling en patient får), är det en blindstudie (dvs. patienterna är ovetande om vilken behandling de får)? Allt detta förbättrar studiens kvalitet. Största evidens uppnås om resultaten från goda kliniska undersökningar läggs samman i en metastudie.

12


Statistisk analys Resultatet av en studie behandlas i avsnittet om den statistiska analysen. Det är tillräckligt att se på artikelns tabeller och figurer för att få en överblick över resultaten. Författarnas egen genomgång av resultaten kan vara påverkad av subjektiva åsikter och värderingar. För att få en helt objektiv presentation av resultaten bör man därför gå till tabeller och figurer. Att kunna enbart betrakta den statistiska redogörelsen för att få en objektiv genomgång kräver en basal förståelse av siffror och statistik. Syftet med detta avsnitt är att ge en sådan basal förståelse. Störst evidens uppnås om • Ett statistiskt test har gjorts. • Statistisk signifikans har uppnåtts (dvs. p-värdet ligger under signifikansnivån, t.ex. 5 procent). • En kliniskt relevant verkan har påvisats. Konsekvenser om det motsatta är fallet • Utan ett statistiskt test kan publikationens resultat inte generaliseras utöver det beskrivna försöket. • Utan statistisk signifikans vet man inte om resultatet beror på till­ fälligheter. • Utan en kliniskt relevant verkan kommer den uppnådda verkan inte att ha någon påtaglig betydelse för patienten.

44


Statistisk analys Resultaten kan presenteras deskriptivt, t.ex. med redogörelser för medelvärden och spridningarna i varje grupp. Om ett statistiskt test också har gjorts för att se om en viss skillnad är statistiskt signifikant, kommer publikationen också att innehålla p-värden. Största evidens uppnås om ett statistiskt test har gjorts och de beräknade p-värdena är lägre än signifikansnivån.

Varför statistisk analys? Varför ger då statistiska analyser och test den största evidensen? Och vilket är sambandet mellan statistisk analys och prövning om ett resultat beror på tillfälligheter eller är en reell effekt? Om kliniska försök hade kunnat inkludera alla patienter i världen hade statistiska test inte behövts, eftersom hela populationen då skulle ingå i försöket. Men det är naturligtvis inte möjligt. I stället måste man ta ett stickprov av den relevanta populationen och undersöka det. Med hjälp av statistiska test kan resultaten sedan generaliseras till hela populationen. En annan anledning till att statistiska test är viktiga är att patienter reagerar olika på behandling. För vissa patienter är verkan stor, me­dan andra inte märker något och ytterligare andra får biverkningar. Om alla patienter hade fått sitt blodtryck sänkt med exakt 21 mm Hg efter en viss behandling av högt blodtryck, hade statistiska test inte behövts för redovisningen av resultaten. Då skulle man veta exakt hur hela populationen skulle reagera. Men den naturliga patientvariationen i data måste avskiljas från den variation som härrör ur olika behandlingar. För den skull behövs statistiska analyser och test. Om artikeln med andra ord inte rymmer ett statistiskt test, kan dess innehåll inte generaliseras utöver försöket och har därför begränsad evidens.

Vad är ett p-värde? Ett statistiskt test utmynnar i ett p-värde. Vad är egentligen ett pvärde? P:et står för probability (sannolikhet). p-värdet uttrycker san45


att bedöma evidens nolikheten för att en skillnad mellan två grupper beror på tillfällig­ heten. Vi kan tänka oss en klinisk prövning där en rad patienter har fått två olika behandlingar. Om man vill undersöka om en skillnad i patienternas vikt har uppträtt, beräknar man i det typiska fallet medelvärdet av vikterna i de båda grupperna efter behandlingens slut. Ofta finns en skillnad i den genomsnittliga vikten i de båda grupperna, men frågan är om denna skillnad beror på tillfälligheter, och alltså bara gäller just de patienter som deltog i försöket, eller om det finns en övergripande tendens i data så att behandling med den ena produkten faktiskt ger en viktminskning i förhållande till den andra behandlingen. För att undersöka detta bör man göra ett statistiskt test och beräkna p-värdet. Om p-värdet är litet – under 5 procent eller 0,05 – finns det mindre än 5 procents sannolikhet för att den skillnad som konstaterats mellan medelvärdena beror på tillfälligheter. Vi säger då att det finns en statistiskt signifikant skillnad mellan grupperna, vilket innebär en reell och reproducerbar skillnad mellan gruppernas medelvärden. Är p-värdet lika med 0,02 innebär det på motsvarande sätt att sannolikheten för att medelvärdena i själva verket sammanfaller är mindre än 2 procent. Rent tekniskt går ett statistiskt test till så att man uppställer två motsatta hypoteser, H0 och H1. H0 säger att det inte finns någon skillnad mellan behandlingarnas medelvärden: H0: Ingen skillnad mellan behandlingarnas medelvärden.

Om man statistiskt kan vederlägga denna hypotes, har man bevisat motsatsen, alltså H1: H1: Skillnad mellan behandlingarnas medelvärden.

I det statistiska testet utgår man från att H0 gäller, alltså att behandlingarna är likvärdiga. Om data från försöket visar att den tidigare nämnda överlappningen mellan fördelningarna för de två behandling46


Statistisk analys arna är liten måste H0 förkastas, och därmed har man bevisat H1 (se Appendix B för en mer utförlig genomgång av principerna för statistiska test). p-värdet ska ligga under det värde som man före undersökningens början fastlade som den maximala sannolikheten för att ta miste. Detta värde har många namn – signifikansnivå, alfa eller typ-1-fel – och sätts ofta till 5 procent. Ibland kan man få se en signifikansnivå på under 1 procent, vilket ger studien större evidens. Då kan man vara ännu säkrare på att en eventuell skillnad inte beror på tillfälligheter. Signifikansnivåer över 5 procent accepteras inte. Som framgår av Appendix A ger många patienter i ett försök i sig låga p-värden. Det är därför inte tillräckligt med ett lågt p-värde. Verkan ska dessutom vara meningsfull för patienten, alltså vara kliniskt signifikant.

Mätskalor p-värden beräknas alltså genom statistiska test. För att bedöma om rätt statistiskt test har använts i en publikation bör man börja med att undersöka vilken skala de enskilda parametrarna är mätta efter. Detta avgör nämligen valet av korrekt statistiskt test. I Figur 14 förtecknas de mest använda mätskalorna. Överst ligger den mest finindelade skalan, kontinuerlig intervallskala. Den används när mätresultaten kan anges i decimaltal (längd, vikt, blodtryck osv.). Består mätresultaten av hela tal, t.ex. antalet patienter som läggs in med KOL, kallas skalan en diskret intervallskala. Ordinalskalor används vid symptompoäng eller -bedömningar. Här är mätresultaten ofta inte tal utan rangordnade symptombeskrivningar, t.ex. svar på frågan ”Hur ofta har du smärtor?” Skalan går här från ”ingen smärta alls” till ”hela tiden”. En ordinalskala förutsätter att data är hierarkiskt ordnade. Utfallen går från något bra i ena änden till något dåligt i den andra (eller omvänt). Om denna hierarki inte finns består data av en enkel uppräkning av t.ex. hur många patienter som upplever problem med hjärta, lever, lungor e.dyl. Detta kallas en nominalskala eller kategorisk skala. 47


F. Vad är absolut risk, relativ risk och andra riskmått? • Absolut risk anger den direkta risken för en händelse. • Relativ risk anger risken i en grupp i förhållande till risken i en annan.. • Vid bedömningen av risk måste man ge akt på om absolut eller relativ risk har använts. • Bakom den relativa risken kan det finnas mycket olika värden på den absoluta risken.

Syfte Syftet med detta appendix är att ge en överblick över de mest använda riskmåtten i klinisk forskning.

Inledning Riskmåtten i klinisk forskning kan delas upp i två typer: absoluta och relativa.

Absoluta riskmått Absolut risk anger den direkta risken för en händelse. Den absoluta risken för en händelse bestäms genom att dela antalet händelser med det totala antalet utfall. Det är t.ex. 50 procents ”risk” för at få krona när man spelar krona eller klave. Denna risk jämförs alltså inte med någon annan risk utan står för sig själv. 109


att bedöma evidens

Relativa riskmått Med relativ risk avses en risk i förhållande till en annan, t.ex. risken för hjärnblödning vid en viss behandling i förhållande till en annan. Det är alltså fråga om relativa förändringar i risk. Bland de relativa riskmåtten kan nämnas relativ risk, hazardkvot och oddskvot.

Genomgång av riskmått Vid genomgången av riskmåtten används en utfallsmatris för en typisk klinisk studie (Figur F1). Det finns två grupper: behandling och kontroll. Vid undersökningens slut har vi en rad sjuka och en rad icke sjuka patienter. Bokstäverna anger antal, t.ex. att det är A sjuka i behandlingsgruppen vid undersökningens slut. Först alla absoluta riskmått. Den absoluta risken för sjukdom i t.ex. behandlingsgruppen (event rate) är antalet sjuka i behandlingsgruppen Sjukdom A C A+C

Behandling Kontroll

Icke sjukdom B D B+D

A+B C+D

Absolut risk

Exempel Absolut risk (event rate) för behandling)

BER = A/(A+B)

1%

Absolut risk (event rate) för kontroll (KER)

KER = C/(C+D)

1,5 %

Absolut riskreduktion

(AAR)

Relativ risk

Number needed to treat

(NNT)

Relativ riskreduktion (RRR) Relativ risk (RR) Oddskvot (OR)

NNT = 1 /A RR

0,5 % 2 00

RRR = 100 x ARR/KER, RRR = 100%-RR 33 %

RR = 100 x BER/KER = 100 %-RRR 100 %-33 % = 67 % OR = (A/B)/(C/D) = (A x D)/(B x C), Används huvudsakligen i fall-referent-studier

Figur F1. Riskmått i klinisk forskning.

110

A RR = K E R- B E R


F. Vad är absolut risk, relativ risk och andra riskmått? delat med det totala antalet patienter i gruppen (BER). På liknande sätt beräknas den absoluta risken för sjukdom i kontrollgruppen (KER). Den absoluta riskreduktionen till följd av behandling beräknas genom att ta skillnaden mellan de båda absoluta riskerna (ARR=KER-BER). Utifrån den absoluta riskreduktionen kan man beräkna värdet number needed to treat (NNT). Det är ett mått på hur många patienter som ska behandlas för att hindra ett fall av sjukdomen (NNT=1/ARR). Om NNT=200 behöver man alltså behandla 200 patienter för att hindra ett fall av sjukdomen. Om vi går över till de relativa riskmåtten beräknas den relativa risken genom att riskkvoterna för de båda grupperna delas med varandra (RR=BER/KER). Den relativa riskreduktionen erhålles genom att dividera den absoluta riskreduktionen med kontrollgruppens riskkvot (RRR=ARR/KER). Den relativa riskreduktionen erhålles också genom att dra den relativa risken från 100 procent (RRR=100 % - RR, där den relativa risken RR uttrycks i procent). Oddskvoten är ett annat relativt riskmått som är besläktat med relativ risk. Oddskvoten beräknas genom att dividera oddset för sjukdom i behandlingsgruppen med oddset för sjukdom i kontrollgruppen. Oddset för att få sjukdomen är antalet sjuka i förhållande till antalet ”friska” i samma grupp.

Oddskvot i förhållande till relativ risk Oddskvoten är ungefär detsamma som den relativa risken, framför allt när den absoluta risken (riskkvoten) är liten (Figur F2). Det är nämnaren i bråket som gör skillnaden (Figur F3). Vid beräkning av den relativa risken används det totala antalet patienter i behandlingsgruppen och kontrollgruppen som dividend, medan nämnaren vid beräkning av oddskvoten är det antal patienter som inte har upplevt händelsen. När riskkvoten är liten närmar sig nämnarna varandra och de båda riskmåtten blir då approximativt lika.

111


Att bedöma evidens Andreas Habicht Hur kan man snabbt och enkelt bedöma evidensen och kvaliteten i vetenskapliga publikationer? Hur tar man reda på om det finns evidens för att ett nytt läkemedel är verksamt? Och då utan att lägga ned alltför mycket tid på det? Detta är vanliga frågor för många som är verksamma inom sjukvården. Att bedömA evidens går på ett enkelt och systematiskt sätt igenom de viktigaste

begreppen inom området evidensbaserade metoder. Därmed ger den alla, inte bara experter, möjlighet att själva bedöma evidens. Fokus i boken är publikationer som behandlar kliniska interventionsstudier. Författaren berör också principer i epidemiologisk forskning och publikationer inom detta område. Boken inleds med en genomgång av de viktigaste begreppen inom evidensbaserad litteratur och evidensbaserade metoder. Den innehåller också checklistor och andra hjälpmedel som gör det möjligt att utföra systematiska genomgångar av publikationer. I boken finns också ett appendix med detaljerade beskrivningar av utvalda ämnen inom statistisk analys, bl.a. p-värde, noninferioritetsstudier, variansanalys (ANOVA) och olika riskmått. Boken lämpar sig för metod- och uppsatskurser inom akademiska vårdutbildningar och för yrkesverksamma som vill få en bättre överblick av området. Andreas Habicht är civilingenjör med inriktning på statistik. Han har arbetat i flera olika läkemedelsföretag och driver sedan 10 år tillbaka ett företag som utför statistiska analyser och insamling av kliniska data.

ISBN 978-91-40-68066-2

9 789140 680662


9789140680662