Epidemiologia pratica

Page 1

Epidemiologia pratica Una guida per la clinica e la sanità pubblica Seconda edizione A cura di Giovanni Baglio, Salvatore De Masi e Alfonso Mele Materiali online

Figura 1.2 Foto di Giulio Alfredo MaccacaroGiulio

Alfredo Maccacaro (Codogno, 8 gennaio 1924-Milano, 15 gennaio 1977) è stato un medico e accademico italiano, impegnato nel campo della biometria e della microbiologia. Chiamato nel 1966 a ricoprire la Cattedra di Statistica medica e biometria presso la Facoltà di Medicina e chirurgia dell’Università di Milano, divenne punto di riferimento per lo sviluppo dell’epidemiologia in Italia. precursori

I

3CAPITOLO 1. COS’È L’EPIDEMIOLOGIA Figura 1.1 Foto di John Snow, 1857

John Snow (York, 15 marzo 1813-Londra, 16 giugno 1858), medico britannico, è considerato tra i pionieri nel campo dell’epidemiologia. Ha legato indissolubilmente il proprio nome allo studio dell’epidemia di colera a Londra nel 1854, ipotizzando che la diffusione della malattia potesse dipendere dalla contaminazione dell’acqua. Servendosi di una pianta della città per mappare la distribuzione dei casi, notò che le persone malate si concentravano intorno a una pompa di distribuzione dell’acqua nel quartiere londinese di Soho. Bloccando il funzionamento della pompa, riuscì a fermare l’epidemia.

4 CAPITOLO 3. VALIDITÀ E RIPRODUCIBILITÀ DELLE MISURE: LA DIAGNOSI Tabella 3.2 Sensibilità e specificità del dosaggio della glicemia nella diagnosi di diabete (70 soggetti diabetici e 510 non diabetici)

Glicemia

Effetti

Diabete Presente Assente Totale ≥120 62 162 224 <120 8 348 356 Totale 70 510 580 Sensibilità = 62 = 88,6% Specificità = 348 = 68,2% 70 510 Tabella 3.3 Sensibilità e specificità del dosaggio della glicemia nella diagnosi di diabete: effetti dell’aumento del cut-off (70 soggetti diabetici e 510 non diabetici)

Diabete Presente Assente Totale ≥140 52 45 97 <140 18 465 483 Totale 70 510 580 Sensibilità = 52 = 74,3% Specificità = 465 = 91,2% 70 510 dei valori soglia sulla validità di un test

Glicemia

5CAPITOLO 3. VALIDITÀ E RIPRODUCIBILITÀ DELLE MISURE: LA DIAGNOSI Tabella 3.4 Sensibilità e specificità del dosaggio della glicemia nella diagnosi di diabete: effetti della diminuzione del cut-off (70 soggetti diabetici e 510 non diabetici) Diabete Presente Assente Totale Glicemia ≥100 68 381 449 <100 2 129 131 Totale 70 510 580 Sensibilità = 68 = 97,1% Specificità = 129 = 25,3% 70 510 Tabella 3.5 Valori predittivi di un test Malattia Presente Assente Totale Test Positivo A C A + C Negativo B D B + D Totale A + B C + D A + B + C + D Valore predittivo positivo (VPP) = A Valore predittivo negativo (VPN) = B A + C B + D Tabella 3.6 Likelihood ratio positivo e negativo Malattia Presente Assente Totale Test Positivo A C A + C Negativo B D B + D Totale A + B C + D A + B + C + D LR+ = A = Sensibilità LR+ = B = (Proporz.1–Specificitàfalsipositivi)A+B A+B C (Proporz.1–Specificitàfalsipositivi) D Specificità C+D C+D

MILITARI ITALIANI IN MISSIONE NEI BALCANI E INCIDENZA DI TUMORI

6 CAPITOLO 7. GLI STUDI DI COORTE BOX 7.1

Un esempio di studio di coorte non contemporaneo è rappresentato dello studio sull’incidenza dei tumori nei militari italiani impiegati in missione in Bosnia e Kosovo. Lo studio iniziò nel 2001 e riguardò militari inviati nelle zone sopracitate nel periodo dicembre 1995-gennaio 2001 (gruppo di esposti), avendo l’obiettivo di verificare se queste persone avessero avuto una maggiore incidenza di tumori (rispetto alla popolazione generale) e se un eventuale eccesso di neoplasie potesse essere messo in relazione con l’uranio impoverito dei proiettili utilizzati durante la guerra. Il Ministero della Difesa fornì, per ogni militare impegnato nei Balcani nel suddetto periodo, le seguenti informazioni: luogo e data di nascita, residenza, forza armata e grado, reparto di appartenenza, località di collocazione del reparto, date delle missioni compiute. I casi di tumori, tra gli esposti, furo no comunicati ai ricercatori dallo stesso Ministero della Difesa. Per quanto riguarda i non esposti, furono utilizzati i tassi di incidenza dell’insieme dei registri tumori italiani. Questo studio, così concepito, consentì di dare una prima risposta circa il quesito su un possibile eccesso di tumori tra i militari impegnati nei Balcani, che destò l’interesse della stampa e dell’opinione pubblica. Lo studio eviden ziò un eccesso, statisticamente significativo, di casi di linfoma di Hodgkin nel gruppo di militari impegnati in Bosnia e/o Kosovo (rispetto ai casi os servati dai registri tumori). Tuttavia i risultati di un’indagine di laboratorio svolta a campione non evidenziarono la presenza di contaminazione da uranio impoverito sui militari italiani impiegati in Bosnia e Kosovo. Sulla base dei dati rilevati e delle informazioni disponibili, non fu comunque possibile in dividuare le cause dell’eccesso di linfomi di Hodgkin evidenziato dall’analisi epidemiologica svolta.*

* Mandelli et al. Epidemiol Prev 2001; 25(3):105-12.

Disegni prospettici e retrospettivi e dimensione del campione

* Seccareccia et al. Eur J Cardiothorac 2006; 29:56-64.

All’interno degli studi di prognosi si collocano i cosidetti “studi di esito” (o “outcome”, utilizzando un termine anglosassone invalso in epidemiologia) che stanno assumendo un’importanza sempre maggiore a causa della crescen te necessità di valutare, in modo rigoroso, l’appropriatezza e l’efficacia dei trattamenti offerti dai servizi sanitari. Si tratta di studi nei quali vengono messi a confronto gli esiti (ad esempio, guarigioni) di interventi sanitari pre stati in due o più centri. Il disegno migliore, per arrivare a una valutazione di questo genere, è proprio quello degli studi di prognosi. Un esempio è lo “Studio degli esiti a breve termine degli interventi di By-Pass AortoCoronarico (BPAC) nelle cardiochirurgie italiane”.* Questo studio, iniziato nel 2002, rappresenta il primo tentativo di valutare indicatori di qualità dell’as sistenza (performance) all’interno del Sistema Sanitario Nazionale Italiano. Scopo dello studio era confrontare la mortalità a 30 giorni registrata dopo operazione di by-pass aortocoronarico, nella quasi totalità dei centri italia ni di cardiochirurgia. In generale, lo studio ha dimostrato e confermato il buon livello della cardiochirurgia italiana, dato che il tasso di mortalità è stato in media del 2,6%, assolutamente confrontabile con quanto riportato in altri studi internazionali. Al di là di questo risultato confortante, l’inter vallo di variazione dei tassi di mortalità aggiustati secondo i criteri del “risk adjustment” è risultato molto ampio (0,26%-8,76%), evidenziando l’esistenza di preoccupanti differenze tra le prestazioni offerte dai vari centri. Questo studio ha messo in evidenza che i sistemi di valutazione comparativa degli esiti risultano utili alle singole strutture ospedaliere, per individuare criticità e settori che richiedono maggior attenzione o riorganizzazione, al fine di garantire un elevato standard qualitativo di assistenza.

STUDI DI “OUTCOME”

Poiché una delle caratteristiche degli studi di prognosi è l’omogeneità dei pazienti arruolati, per uno studio osservazionale sugli esiti è necessaria l’applicazione di un metodo di “risk adjustment” (vedi box 11.2) che tenga conto delle differenze tra i pazienti arruolati dai diversi centri. Le differenze posso no riguardare la severità della malattia e tutte le variabili prognostiche che descrivono il rischio preoperatorio dei pazienti.

Un approccio statistico di tipo “multilevel” potrà consentire di tener conto, contemporaneamente, anche di fattori caratteristici dei centri clinici dove avviene la prestazione sanitaria.**

** D’Errigo et al. BMC Med Res Methodol 2007; 7(1):29.

7CAPITOLO 7. GLI STUDI DI COORTE BOX 7.2

L’approccio teorico statistico per il calcolo della numerosità campionaria viene visto in maniera più completa all’interno del capitolo 9; esiste inoltre un’abbondante letteratura alla quale ci si può rivolgere.* Di seguito verrà dato un accenno su quali sono gli elementi necessari per il calcolo. L’intento di uno studio di coorte è quello di stimare due tassi di incidenza (incidenza negli esposti e incidenza nei non esposti) e confrontarli tra loro – attraverso rapporto (rischio relativo) o differenza (rischio attribuibile). Per stimare il numero di soggetti da reclutare per raggiungere lo scopo è neces sario avere una stima preliminare del rischio di base (ad esempio, l’incidenza dell’evento nel gruppo di controllo). Un altro elemento indispensabile è un’i potesi sulla differenza tra i tassi che si vuole mettere in evidenza attraverso lo studio. È intuitivo che minore sarà la differenza che si vuole rilevare, maggiore sarà l’ampiezza del campione richiesta. Nel caso in cui si voglia reclutare un ugual numero di soggetti nei due gruppi, la formula da utilizzare per il calcolo è la seguente: 11 Z a/2 · [P 0 · (1 – P0 ) + P 0 · (1 – P0 )]2 + Z b · [P 0 · (1 – P0 ) + P e · (1 – Pe )]2 = Δ n n n n ndove:= numero di soggetti da reclutare per ogni gruppo P0 = proporzione di eventi tra i non esposti Pe = proporzione di eventi tra gli esposti a = probabilità di errore di I tipo (generalmente è posto = 0,05) b = probabilità di errore di II tipo (generalmente è posto = 0,20)

Si rimanda ai testi indicati sotto per le formule utilizzabili nel caso in cui si voglia una numerosità diversa nei due gruppi a confronto.*

* Si vedano: Armitage P, Berry G, Matthews JNS. Statistical methods in medical research. Fourth Edition. Oxford: Blackwell, 2002; Kahn HA, Sempos CT. Statistical methods in epidemiology. New York: Oxford University Press, 1989.

Za/2 = quantile della distribuzione normale standardizzata al di là del quale si trova l’a/2% della distribuzione (per a = 0,05 → Za/2 = 1,96)

Δ = differenza tra le due proporzioni (P0 – Pe)

8 CAPITOLO 7. GLI STUDI DI COORTE BOX 7.3

CALCOLO DELLA NUMEROSITÀ CAMPIONARIA IN UNO STUDIO

Zb = quantile della distribuzione normale standardizzata al di là del quale si trova il b% della distribuzione (per b = 0,20 → Zb = 0,84)

Risolvendo la formula rispetto a “n” si ottiene il numero di soggetti da reclutare per ogni gruppo: 11 n = Z a/2 · [2 · P0 · (1 – P0 )]2 + Z b · [P0 · (1 – P0 ) + P e · (1 – Pe )]2 2{ Δ }

DI COORTE

Randomizzazione1986. e altri determinanti di validità

9CAPITOLO 9. LA SPERIMENTAZIONE CLINICA Tabella 9.2 Requisiti essenziali per una corretta assegnazione ai trattamenti • Il trattamento deve essere nascosto a pazienti e operatori fino al “consenso informato del paziente” • Le assegnazioni successive non devono essere prevedibili dalle “assegnazioni già effettuate” • L’ordine di assegnazione deve essere “riproducibile” • I metodi di produzione delle sequenze e di somministrazione devono “essere documentabili” • La procedura usata deve avere una base matematica nota • La procedura deve avere tracciabilità di tutte le sue fasi • Le deviazioni dalle sequenze stabilite devono poter essere individuate

Modificata da: Meinert CL. Clinical trials: design, conduct, and analysis. New York: Oxford University Press,

Diabete Sì 15 16 No 15 14

Trattamento A: 16 + 8 + 15 = 39

Trattamento B: 15 + 9 + 16 = 40

10 CAPITOLO 9. LA SPERIMENTAZIONE CLINICA BOX 9.1

L’uso degli strati e dei blocchi ha lo scopo principale di assicurare il bilan ciamento dei principali fattori prognostici noti durante l’arruolamento dei pazienti allo studio. Il metodo della minimizzazione raggiunge lo stesso obiettivo in modo più di retto e si applica in genere quando la dimensione dello studio è relativamente piccola e soprattutto quando lo studio multicentrico prevede di arruolare po chi pazienti per centro; in queste condizioni risulta impossibile stratificare, all’interno del centro, per caratteristiche dei pazienti. In pratica il metodo della minimizzazione prevede, una volta stabilite le caratteristiche di bilanciamento, di ottenere, durante lo studio, totali marginali bilanciati per quelle caratteristiche.

Il paziente successivo è una femmina di 61 anni con il diabete. L’assegnazione di questa paziente avverrà nel gruppo che ha la somma dei totali marginali per queste caratteristiche più bassa; nell’esempio illustrato, nel gruppo A abbiamo 16 soggetti di sesso femminile, 8 hanno meno di 65 anni e 15 hanno il diabete per un totale di 39; la somma corrispondente nel gruppo B è di 40.

In questo caso la paziente verrà assegnata al gruppo A. Nel caso i totali fossero stati uguali si sarebbe proceduto a un’assegnazione random. (Segue)

RANDOMIZZAZIONE DINAMICA: IL METODO DELLA MINIMIZZAZIONE

Trattamento A Trattamento B Sesso M 14 15 F 16 15 Età >65 22 21 ≤65 8 9

La tabella seguente riassume, in un ipotetico trial con due trattamenti a confronto, l’assegnazione dei primi 60 pazienti con il metodo della minimiz zazione e la loro distribuzione nelle variabili per le quali si ritiene importante garantire il bilanciamento.

11CAPITOLO 9. LA SPERIMENTAZIONE CLINICA Segue Box 9.1

BOX 9.2

ABUSO DEL PLACEBO È importante sottolineare che l’obiettivo di un ricercatore è quello di dimo strare il beneficio aggiuntivo di un nuovo trattamento rispetto al miglior trat tamento disponibile. L’uso del placebo dovrebbe essere sempre meno utilizza to man mano che si rendono disponibili trattamenti efficaci. Il confronto con il placebo resta invece ancora un paradigma di confronto sia per i ricercatori che per le agenzie regolatorie. Per queste ultime, infatti, spesso è sufficiente dimostrare la superiorità di un trattamento rispetto al placebo, indipendente mente dal fatto che sia già disponibile un trattamento efficace con cui poter fare il confronto (confronto testa a testa). Ovviamente, la ragione per cui si preferisce usare il placebo sta nel fatto che è molto più facile dimostrare l’efficacia di un trattamento rispetto al placebo che rispetto a un altro trat tamento efficace, in quanto il beneficio marginale da evidenziare sarebbe, in quest’ultimo caso, molto più piccolo.*

Anche se la minimizzazione rientra tra i metodi di randomizzazione, essa non è casuale in quanto le assegnazioni sono funzione di quelle precedenti; non c’è bisogno di una lista di randomizzazione ma di schede in cui siano aggiornate le somme delle possibili combinazioni di caratteristiche. Uno svantaggio è costituito dalla possibile prevedibilità delle assegnazioni da parte dei ricer catori che conoscono le assegnazioni precedenti; esistono comunque diverse soluzioni, anche semplici, che consentono di rendere le assegnazioni non prevedibili.*

* Pocock SJ. Trial clinici. Torino: Centro Scientifico Editore, 1996. * Rothman KJ. Epidemiology: an introduction. New York: Oxford University Press, 2002.

BOX 9.3 ENDPOINT COMBINATI

BOX 9.4 ESEMPIO DI UTILIZZO E INTERPRETAZIONE DEL NNT

Man mano che la ricerca rende disponibili trattamenti efficaci, le nuove te rapie hanno bisogno, nel confronto, di poter evidenziare benefici marginali sempre più piccoli. Per le ragioni precedentemente esposte, è necessario che gli eventi a confronto siano di numero adeguato per apprezzare piccole dif ferenze. Ciò ha portato all’uso di endpoint combinati, in cui si sommano più esiti correlati alla stessa malattia (ad esempio, per le malattie vascolari: mor te, infarto, ictus, ospedalizzazione). Idealmente, un endpoint combinato do vrebbe mettere insieme esiti della stessa rilevanza, che abbiano una frequenza simile e siano esposti allo stesso rischio di misclassificazione. Di fatto, spesso vengono messi insieme esiti di forte rilevanza clinica, come la morte, con misure surrogate, come l’ospedalizzazione, che ha differente frequenza ed è molto più esposta a misclassificazione o all’influenza del ricercatore, specie negli studi con insufficiente livello di mascheramento. Bisogna fare molta attenzione nell’interpretazione della rilevanza clinica dei risultati e verificare se le differenze osservate siano coerenti in tutti i singoli endpoint e non siano soprattutto legate alla diversa distribuzione degli esiti meno importanti.*

Incidenza nei controlli (%) = 50 Incidenza nei trattati (%) = 30 RAR (%) = Incidenza nei controlli (%) – Incidenza nei trattati (%) = 20 La riduzione assoluta del rischio dice che, trattando 100 soggetti, si preven gono 20 eventi. NNT = 100 = 100 = 5 RAR(%) 20 Se trattando 100 soggetti si prevengono 20 eventi, trattandone 5 se ne pre verrà 1. Quindi il NNT rappresenta il numero di soggetti da trattare per pre venire un evento.

12 CAPITOLO 9. LA SPERIMENTAZIONE CLINICA

* Montori VM, Busse JW, Permanyer-Miralda G, Ferreira I, Guyatt GH. How should clinicians interpret results reflecting the effect of an intervention on composite endpoints: should I dump this lump? ACP J Club 2005; 143(3):A8.

FASI DELLA SPERIMENTAZIONE CLINICA

Fase II Studi terapeutici pilota. Lo scopo è quello di dimostrare l’attività e di valutare la sicurezza a breve termine di un principio attivo in pazienti affetti da una malattia per la quale il principio attivo è proposto. Gli studi sono condotti su un numero limitato di soggetti e spesso secondo uno schema comparativo (ad esempio, controllato con placebo).

Fase I Primi studi su un nuovo principio attivo condotti nell’uomo, spesso su vo lontari sani. Lo scopo è quello di fornire una valutazione preliminare sulla sicurezza e un primo profilo della farmacocinetica e della farmacodinamica del principio attivo sull’uomo.

Fase IV Studi condotti dopo la commercializzazione del prodotto che hanno lo scopo di indagare, ad esempio, nuove indicazioni terapeutiche, nuove vie di somministrazione o nuove associazioni. Dal punto di vista della conduzione, la metodologia da adottare è la stessa di quella utilizzata per gli studi su nuovi prodotti medicinali.

Gli studi clinici su medicinali vengono generalmente classificati in fasi dalla I alla IV, in base alle finalità degli studi stessi.

Fase III Studi su gruppi di pazienti più numerosi (e possibilmente differenziati) al fine di determinare il rapporto sicurezza/efficacia a breve e lungo termine delle formulazioni del principio attivo, come pure di valutarne il valore terapeutico assoluto e relativo (si tratta quindi di studi “controllati”). Gli studi dovreb bero essere preferibilmente randomizzati, a doppio cieco. Le condizioni degli studi dovrebbero essere il più possibile vicine alle normali condizioni d’uso.

13CAPITOLO 9. LA SPERIMENTAZIONE CLINICA BOX 9.5

14 CAPITOLO 9. LA SPERIMENTAZIONE CLINICA Figura 9.3 Schema della struttura di un trial che evidenzia l’aspetto relativo agli eventi che rappresentano l’esito in studio STUDIOPopolazioneOSSERVAZIONALECampioneFattori di rischio BerapiaT Eventi Fattori di rischio AerapiaT EventiAllocazione randomizzata

POPOLAZIONERandomSELEZIONATA

10 decessi 20 decessi Rapporto dei rischi: 30/40 = 0,75 40 decessi/100 40 rifiuti

Randomizzazione dopo la chirurgia

Chir ur gia Tratt.ESITOA Chir ur gia Chir ur gia Tratt.ESITOB 20 decessi/10020rifiuti 20 decessi/100 20 rifiuti

Totale: 30 decessi, 20% di non compliers

Totale: 40 decessi, 20% di non compliers

Figura 9.5 Esempio di un trial che prevede due trattamenti: a) randomizzazione prima dell’intervento chirurgico; b) randomizzazione dopo l’intervento chirurgico

Randomizzazione prima della chirurgia

15CAPITOLO 9. LA SPERIMENTAZIONE CLINICA

POPOLAZIONERandomSELEZIONATA

Tratt.ESITOA Tratt.ESITOB

10/60 decessi 20/60 decessi Rapporto dei rischi: 10/20 = 0,5

ba

*** Vineis P. History of bias. In: Morabia A, ed. History of epidemiologic methods and concepts. Basel, Switzerland: Birkhäuser Verlag, 2004; 327-36; Monson RR. Occupational epidemiology. Boca Raton: CRC Press, 1980.

Tale effetto, già descritto da William Ogle più di cento anni fa,** trae origine dal fatto che i soggetti affetti da patologia cronica o disabilità non vengono generalmente assunti (o tendono ad autoescludersi); inoltre, coloro che nel corso della vita lavorativa si ammalano, abbandonano precocemente il posto di lavoro. Vi è stato tra gli epidemiologi un certo dibattito intorno alla que stione, di sapore squisitamente accademico, se l’healthy worker effect debba essere considerato una forma di bias di selezione o piuttosto un esempio di confondimento.***

In molti studi di epidemiologia occupazionale che studiano l’esposizione ad attività lavorative rare, si fa ricorso alla popolazione generale come riferimento per valutare lo stato di salute di gruppi o categorie di lavoratori po tenzialmente a rischio. Tale scelta si presenta particolarmente problematica in quanto, per un effetto di selezione dovuto al reclutamento – il cosiddetto “healthy worker effect” – i lavoratori mostrano generalmente tassi di morbosità/mortalità più bassi rispetto alla generalità della popolazione. Questo fenomeno può seriamente pregiudicare la validità del confronto, dal momento che è potenzialmente in grado di mascherare, almeno nelle fasi iniziali della vita lavorativa, l’azione nociva dei fattori di rischio occupazionali sullo stato di salute dei lavoratori esposti.*

In base alle definizioni di bias e confondimento riportate nelle pagine di questo capitolo, si dovrebbe propendere per la seconda ipote si. Se, infatti, si accetta che il bias è una distorsione dovuta alle modalità di selezione dei partecipanti, si può argomentare che l’healthy worker effect non è un bias, in quanto non dipende dalle modalità di arruolamento della popolazione in studio, ma dalla non confrontabilità di specifici gruppi all’interno della popolazione di riferimento. Ipoteticamente, se fosse possibile misurare con accuratezza le condizioni di salute dei singoli individui, l’healthy worker effect potrebbe anche essere rimosso in fase di analisi.

HEALTHY WORKER EFFECT: BIAS O CONFONDIMENTO?

16 CAPITOLO 11. BIAS E CONFONDIMENTO BOX 11.1

Esempi di epidemiologia occupazionale e ospedaliera

* Checkoway H, Pearce N, Kriebel D. Research methods in occupational epidemiology. Second Edition. New York: Oxford University Press, 2004.

** Ogle W. Letter to the Registrar-General on the mortality in the registration districts of England and Wales during the ten years 1871-80. Supplement to the 45th Annual Report of the Registrar General of Births, Deaths, and Marriages, in England 1885; XXIII.

17CAPITOLO 11. BIAS E CONFONDIMENTO BOX 11.2

** Gonnella JS, Hornbrook MC, Louis DZ. Staging of disease. A case-mix measurement. JAMA 1984; 251:637.

L’espressione “risk adjustment” viene tipicamente utilizzata negli studi di valutazione degli esiti degli interventi sanitari: identifica una pluralità di approcci metodologici, sviluppati a partire dagli anni Settanta negli Stati Uniti, per tentare di eliminare il confondimento, esercitato dalla gravità cli nica iniziale dei pazienti avviati al trattamento, sull’associazione tra qualità dell’assistenza sanitaria ed esiti di salute. Ad esempio, negli studi volti a misurare la performance dei servizi ospedalieri in una data regione o Azienda sanitaria locale, si pone il problema di dover confron tare gli esiti dei trattamenti nelle diverse strutture di ricovero (in termini di mor talità intra- ed extraospedaliera o di disabilità residua), al netto delle differenze sistematiche nella gravità della casistica trattata. La gravità delle condizioni clini che può dipendere da molti fattori, come l’età, la severità della patologia di base, il numero e la gravità delle patologie concomitanti (comorbosità). Esistono attualmente diversi metodi di misura della gravità clinica: alcuni di essi si basano su informazioni desunte dalla documentazione clinica, attraverso rilevazioni ad hoc (i cosiddetti “clinical data-based methods”); altri sono incen trati sui dati amministrativi, desumibili dai flussi informativi sanitari correnti (i cosiddetti “discharge abstract-based methods”). I metodi clinici appaiono di gran lunga migliori, in termini di attendibilità e accuratezza clinica, e dimo strano di avere una capacità predittiva superiore. I metodi amministrativi fini scono, però, per essere preferiti in ragione della loro maggiore disponibilità ed economicità. In ambito ospedaliero, alcuni sistemi di classificazione del casemix particolarmente utilizzati ai fini del risk adjustment sono gli “All Patient Refined-DRG” (APR-DRG),* il Disease Staging** e l’indice di Charlson-Deyo.*** Per un approfondimento sul tema, si rinvia a trattazioni specialistiche.§

§ Arcà M, Fusco D, Barone AP, Perucci CA. Introduzione ai metodi di risk adjustment nella valutazione comparativa degli esiti. Epidemiol Prev 2006; 30(4-5 Suppl.):5-47; Iezzoni LI, Shwartz M, Ash AS, Mackiernan YD. Predicting in-hospital mortality for stroke patients: results differ across severity-measurement methods. Med Decis Making 1996; 16(4):348-56; Romano PS, Chan BK. Risk-adjusting acute myocardial infarction mortality: are APR-DRGs the right tool? Health Service Res 2000; 34:1470-89; Iezzoni L. The risks of risk adjustment. JAMA 1997; 278:1600-7; Iezzoni LI, Shwartz M, Ash AS, Hughes JS, Daley J, Mackiernan YD. Using severityadjusted stroke mortality rates to judge hospitals. Int J Qual Health Care 1995; 7(2):81-94; Rosenthal GE, Shah A, Way LE, Harper DL. Variations in standardized hospital mortality rates for six common medical diagnoses: implications for profiling hospital quality. Med Care 1998; 36(7):955-64.

* 3M Health Information Systems. All Patient Refined Diagnosis Related Groups. Definitions manual. Version 12.0. Wallingford, CT, 1995.

*** Charlson ME, Pompei P, Ales KL, Mackenzie CR. A new method of classifying prognostic comorbidity in longitudinal studies: development and validation. J Chronic Dis 1987; 40:37383; Deyo RA, Cherkin DC, Ciol MA. Adapting a clinical comorbidity index for use with ICD-9-CM administrative databases. J Clin Epidemiol 1992; 45:613-9.

IL “RISK ADJUSTMENT”

18

Poiché solo una parte della popolazione viene osservata, la stima ottenuta dal campione avrà un margine di errore, dovuto ad un possibile errore di campiona mento.* Ne consegue che, una volta ottenuta la stima campionaria di una misura, * La variazione casuale fa sì che una misura effettuata su un campione non fornisca un valore identico alla misura effettuata sulla popolazione. La differenza tra le due rilevazioni, quella campionaria e quella ottenuta sull’intera popolazione, si definisce errore di campionamento (o errore campionario). L’errore di campionamento non può mai essere determinato con esattezza, in quanto la “vera” caratteristica della popolazione è (e resterà!) ignota. Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento. Inoltre, esso può essere stimato; ciò significa che, con opportuni metodi statistici, si possono determinare i limiti probabili della sua entità.

L’inferenza statistica è la procedura attraverso la quale le conclusioni (inferenze) circa una popolazione sono fatte sulla base dei risultati ottenuti da un campione tratto da quella popolazione. Dal campione, attraverso la statistica inferenziale, è possibile, quindi, fare “stime” e “confronti” che possono essere estesi all’intera popolazione da cui è stato estratto il campione.

Tra gli obiettivi degli studi epidemiologici c’è spesso quello di stimare misure di rischio di una malattia in una popolazione, o misure di associazione tra un’espo sizione e una malattia. La maggior parte delle volte, per motivi logistici, soprat tutto economici, non è possibile raccogliere il dato oggetto di studio sull’intera popolazione di interesse. In questi casi è necessario lavorare su un sottogruppo della popolazione, definito campione.

Maria Elena Tosti

LaStimastima di un parametro di interesse (ad esempio, un tasso di prevalenza) avviene attraverso due fasi: stima puntuale e stima per intervallo.

Per quanto riguarda la stima puntuale, una misura di rischio o di associazione, ottenuta sul campione selezionato, rappresenta la migliore stima possibile del valore “reale”, ossia di quel risultato che sarebbe stato ottenuto se lo studio fosse stato eseguito sull’intera popolazione.

PrecisioneAppendice delle stime

È possibile ottenere una valutazione dell’errore campionario attraverso una quan tità denominata errore standard (ES). Per quanto detto, l’ES sarà direttamente

Gli IC rappresentano una modalità per esprimere la precisione con cui viene sti mato il dato di interesse, relativo a un’intera popolazione, a partire da un sotto campione di quella popolazione. Più l’IC è ristretto più la stima campionaria sarà rappresentativa del valore reale del parametro in studio. Esso non darà informa zioni sulla posizione del valore reale all’interno dell’intervallo stimato, ma darà un range di valori all’interno dei quali il valore reale è compreso, con una probabilità del 95%.*

19APPENDICE.

PRECISIONE DELLE STIME sia necessario avere un indice che ne rappresenti la precisione. Questo è ottenibile attraverso la stima per intervallo. Per valutare la precisione di una stima si ipotizza di selezionare moltissimi cam pioni, di numerosità identica, dalla stessa popolazione. A causa della variabilità campionaria, le stime ottenute dai diversi campioni non saranno uguali, ma il 95% di esse sarà contenuto all’interno di un determinato intervallo o “range” di valori che prende il nome di intervallo di confidenza (IC).

fare le seguenti due affermazioni circa l’errore cam 1.pionario:l’errore campionario diminuisce all’aumentare della dimensione del campione: grandi campioni forniscono quindi stime più precise rispetto ai campioni pic coli; 2. l’errore campionario dipende dalla variabilità delle osservazioni. All’aumentare della variabilità del fenomeno in studio, l’errore campionario tende ad aumen tare.

Ogni qualvolta si stimi una misura su un campione, invece che sull’intera popolazio ne, la presentazione della stima ottenuta deve essere accompagnata dal relativo IC, che fornirà un’indicazione sulla precisione della stima e sul range di valori plausibili (con una probabilità, ad esempio, del 95%) per il valore reale della misura in studio. Come si calcola l’intervallo di confidenza La costruzione di un IC passa necessariamente attraverso la quantificazione dell’errore Intuitivamente,campionario.sipossono

* Di solito vengono utilizzati IC al 95%, ma si possono calcolare anche intervalli più ampi, ad esempio IC al 99%: in questo caso l’intervallo stimato avrà una probabilità del 99% di contenere il valore vero del parametro in studio.

PRECISIONE DELLE STIME

20 APPENDICE.

proporzionale alla variabilità della misura di interesse, nella popolazione, e in versamente proporzionale alla numerosità campionaria; un campione grande darà quindi luogo a un IC stretto, viceversa, un campione di scarsa numerosità darà luogo a un IC ampio.

La formula per ottenere l’ES dipende dalla misura che si sta studiando: una media (ad esempio, livello medio di colesterolo nel sangue, o pressione arteriosa media), una proporzione (ad esempio, prevalenza dell’infezione da virus C dell’epatite) o una misura di associazione (ad esempio, odds ratio o rischio relativo).

Per quanto riguarda, invece, l’intero IC, questo dipenderà, oltre che dal valore dell’ES, anche dalla forma che assume la distribuzione di frequenza della misura in studio (ad esempio, la distribuzione di frequenza della media campionaria in tutti i campioni possibili). Per semplicità di trattazione, tutti gli esempi di questa Appendice si basano su una distribuzione “Normale” del parametro in studio. In caso di distribuzioni di ri ferimento diverse dalla Normale, il procedimento di stima dell’IC rimane comunque invariato. Si rimanda a testi di statistica medica per una trattazione più formale della costruzione degli IC.1-3 Esempio: studio della pressione sistolica in donne comprese tra 40 e 50 anni Su un campione di 50 donne di età compresa tra 40 e 50 anni è stata riscontrata una pressione sistolica media di 121,0 mmHg: n = 50 x = 121,0 mmHg Per inferire, sulla base di questo dato, il valore della pressione sistolica media in tutta la popolazione di donne appartenenti a quelle fasce di età occorrerà proce dere con la costruzione di un IC, indice della precisione della stima campionaria. La formula dell’IC di una media è la seguente: IC(μ) = x- ± 1,96 · ES(x) con: ES(x) = σ n

21APPENDICE. PRECISIONE DELLE STIME

Riscrivendo la formula si ottiene:IC(μ) = x ± 1,96 · σ n

media nella popolazione x = pressione media nel campione σ = indice di variabilità del parametro in studio (pressione sistolica)* n = numerosità campionaria 1,96 = percentile della distribuzione di frequenza di una media campionaria (con n ≥ 30, la distribuzione di riferimento è una distribuzione Normale)

Supponendo nota la deviazione standard s = 14,2 mmHg (nel caso non sia nota può essere stimata anch’essa attraverso il campione), l’IC della pressione sistolica media sarà: 121,0 ± 1,96 · 14,2 → 118,0 ↔ 125,850

Interpretazione: la stima della pressione sistolica media nella popolazione di donne di età compresa tra 40 e 50 anni è di 121,0 mmHg; il valore vero di quella media in tutta la popolazione è compreso nell’intervallo 118,0 ↔ 125,8 con una probabilità del 95%.

* L’indice di variabilità σ è denominato “deviazione standard” e può essere ottenuto attraverso la se guente formula: Adoveièil valore del parametro in studio nel soggetto i-esimo della popolazione μ è la media nella popolazione N è la numerosità della popolazione La quantità σ non è generalmente nota; a meno che non si disponga di un dato attendibile tratto dalla letteratura, anch’essa deve quindi essere stimata attraverso un campione; in questo caso, la sua stima campionaria è data dalla seguente formula: adoveièil valore del parametro in studio nel soggetto i-esimo del campione x è la media nel campione n è la numerosità del campione.

μdove:=pressione

Esempio 2: si supponga di voler verificare se la pressione sistolica di uomini ap partenenti a un determinato gruppo occupazionale sia simile a quella della popo lazione generale, che si suppone sia 133,2 mmHg. In questo caso l’ipotesi nulla da verificare è la seguente: H0: μ0 = 133,2 mmHg

L’OR è una misura di associazione che può variare tra 0 e ¥. Un OR di 1 indica che la malattia non è correlata al fattore in studio: infatti il valore 1 si ottiene quando l’odds di esposizione nei casi è uguale all’odds di esposizione nei controlli (vedi capitolo 2). Un test di significatività sull’OR deve essere impostato in modo da considerare il valore “1” come “ipotesi nulla” da verificare, ossia assenza di associazione tra fattore di rischio e malattia: H0: OR = 1 → il fattore in studio non è associato con la malattia

22 APPENDICE. PRECISIONE DELLE STIME Confronto: utilizzo dell’intervallo di confidenza come test di significatività

Oltre a fornire una quantificazione della precisione di una stima, l’intervallo di confidenza può essere interpretato come test di significatività ed essere sostitutivo di questo. Esempio 1: test di significatività su un odds ratio (OR).

L’IC può essere utilizzato al posto di un test di significatività e fornisce lo stesso risultato in termini di significatività statistica. Un IC che non contenga il valore “1” corrisponderà a un test “statisticamente significativo” in quanto l’ipotesi nul la, OR = 1, non è uno dei valori plausibili al 95%. Viceversa un IC che contenga il valore “1” sarà indice del fatto che uno dei valori plausibili per l’OR è “1” (asso ciazione nulla); si conclude, quindi, che l’associazione studiata non è “statisticamente significativa”:OR = 2,5 (1,2 – 5,8) significativo al 5% (il valore 1 non è uno dei valori plausibili, al 95%, per l’OR vero nella popolazione) OR = 1,9 (0,8 – 6,1) non significativo al 5% (il valore 1 è uno dei valori plausibili, al 95%, per l’OR vero nella popolazione)

Interpretazione: gli uomini appartenenti alla professione in studio presentano una pressione sistolica significativamente maggiore di quella della popolazione gene L’intervallorale.

In base alle informazioni a disposizione, è possibile calcolare l’IC della differenza tra il valore stimato nel campione (141,4 mmHg) e quello della popolazione gene rale (133,2 mmHg), dopo di che sarà possibile trarre conclusioni sulla significatività della differenza osservata tra pressione sistolica nel campione dei lavoratori e nella popolazione. Si ottiene:diff.=141,1 – 133,2 = 8,2 mmHg IC(diff.) = 3,5 ↔ 12,9 mmHg In base ai valori plausibili rappresentati dall’IC, si può concludere che la differen za è statisticamente significativa in quanto l’IC non contiene il valore “0”, che, in questo caso, rappresenta l’ipotesi nulla di mancanza di associazione tra occupa zione in studio e pressione sistolica.

PRECISIONE DELLE STIME dove μ0 è il valore della media sotto l’ipotesi nulla H0 (ossia la pressione media dei soggetti appartenenti a quel gruppo occupazionale è uguale a quella della popolazione generale). In questa situazione, un’altra possibilità per la scelta dell’ipotesi nulla da testare è quella di prendere in considerazione la differenza nella pressione sistolica della popolazione oggetto dello studio e quella della popolazione generale, in questo caso l’ipotesi nulla da testare è la seguente: H0 : diff. = 0 mmHg Seguiamo questa seconda strada. A questo scopo viene estratto un campione costituito da 40 lavoratori, esaminando il quale viene osservata una pressione sistolica media di 141,4 mmHg:n= 40 x = 141,4 mmHg

23APPENDICE.

Chiaramente

lo stesso risultato sarebbe stato ottenuto se avessimo calcolato l’IC della pressione sistolica stimata nel gruppo di popolazione di riferimento: in que sto caso l’IC non conterrà il valore 133,2 mmHg.

di confidenza stimato, oltre a essere indice di una differenza signifi cativa, fornisce un insieme di valori plausibili per la differenza vera, in base ai quali è possibile fare dei ragionamenti. Un aumento della pressione sistolica di 3,5 mmHg non è clinicamente importante, mentre lo è un aumento di 12,9 mmHg. Dal

24 APPENDICE.

n = 100 tossicodipendenti viene rilevata una prevalenza di HCV del 20% (0,20). L’IC per la prevalenza, nell’intera popolazione, di tossicodi pendenti sarà: 0,20 ± 1,96 · 0,04 → 0,12 ↔ 0,28

Interpretazione: la stima della prevalenza dell’infezione da HCV nei tossicodipen denti è del 20%; la prevalenza “vera” nella popolazione di tossicodipendenti è compresa tra il 12% e il 28%, con una probabilità del 95%.

IC di una misura di associazione – OR Le misure di associazione come l’OR e il rischio relativo non hanno una distribu zione Normale; mentre la Normale rappresenta la distribuzione di frequenza del logaritmo naturale (ln) di queste misure. Questo fa sì che, in prima battuta, sia necessario calcolare l’IC del IC[ln(OR)]ln(OR).=ln(OR) ± 1,96 · ES[ln(OR)] dove: Segue

PRECISIONE DELLE STIME momento che l’IC è molto ampio, il reale aumento della pressione, anche se stati sticamente significativo, non potrà essere stimato precisamente e, in particolare, oltre a concludere che la differenza osservata è reale non sarà però possibile avere un giudizio sulla rilevanza clinica di questa differenza. Per aumentare la precisione della stima e rendere più precise le affermazioni possibili dall’esame dei dati sarà necessario aumentare la dimensione del campione. Per approfondire la tematica di significatività statistica vs significatività clinica vedi l’articolo di Philip Sedgwick.4 BOX A1 ALTRI ESEMPI DI CALCOLO DELL’INTERVALLO DI CONFIDENZA

IC di una proporzione Siano p = proporzione nella popolazione p = proporzione nelIC(campione p) = p ± 1,96 · ES(p) dove: p viene stimato attraverso la sua stima campionaria p. Esempio: stima della prevalenza dell’infezione da virus dell’epatite C (HCV) nei Sutossicodipendenti.uncampionedi

Attraverso l’esponenziale dell’IC del ln(OR) è possibile ottenere l’IC dell’OR: IC(OR) = 1,68 ↔ 7,04 : la stima dell’associazione tra esposizione addominale ripetuta ai raggi X durante la gravidanza e tumori maligni in età infantile è di 3,44 (le donne esposte hanno un rischio di 3,44 volte maggiore rispetto alle donne non esposte); l’associazione “vera” è compresa tra 1,68 e 7,04, con una probabilità del 95%.

Interpretazione

Calcolo della numerosità campionaria

25APPENDICE. PRECISIONE DELLE STIME

L’approccio teorico statistico per il calcolo della numerosità campionaria è già stato affrontato all’interno del capitolo 9; esiste inoltre un’abbondante letteratura alla quale ci si può rivolgere.1 3 Di seguito verrà dato un accenno su quali sono gli elementi necessari per il calcolo. Segue Box A1 con a, b, c, d che rappresentano le frequenze all’interno della tabella di contingenza 2 x 2 che si utilizza per il calcolo dell’OR (vedi capitolo 2).

Esempio: associazione tra esposizione addominale ripetuta ai raggi X durante la gravidanza e tumori maligni in età infantile. È stato condotto uno studio in cui sono stati arruolati 1153 casi e 1216 controlli, la loro storia espositiva è presen tata nella tabella sottostante: Casi Controlli Esposti 32 10 Non esposti 1121 1206 IC[ln(OR)] = 0,52 ↔ 1,95

Zb = quantile della distribuzione normale standardizzata al di là del quale si trova il b% della distribuzione (per b = 0,20 → Zb = 0,84)

Δ = differenza tra le due proporzioni (P0 – Pe)

26 APPENDICE. PRECISIONE DELLE STIME

Z a/2 = quantile della distribuzione normale standardizzata al di là del quale si trova l’a/2% della distribuzione (per a = 0,05 → Z a/2 = 1,96)

Risolvendo la formula rispetto ad “n” si ottiene il numero di soggetti da reclutare per ogni gruppo: n = {Z a/2· 2· [P0·(1 – P0)]½ + Z b· [P0·(1 – P0) + Pe ·(1 – Pe)]½}2 Δ Si rimanda ai testi citati in bibliografia per le formule utilizzabili nel caso in cui si voglia una numerosità diversa nei due gruppi a confronto.1 3

Calcolo della numerosità campionaria in uno studio di coorte

L’intento di uno studio di coorte è quello di stimare due tassi di incidenza (inci denza negli esposti e incidenza nei non esposti) e confrontarli tra loro attraverso rapporto (rischio relativo) o differenza (rischio attribuibile). Per stimare il numero di soggetti da reclutare per raggiungere lo scopo è necessario avere una stima preliminare del rischio di base (ad esempio, l’incidenza dell’evento nel gruppo di controllo). Un altro elemento indispensabile è un’ipotesi sulla differenza tra i tassi che si vuole mettere in evidenza attraverso lo studio. È intuitivo che minore sarà la differenza che si vuole rilevare, maggiore sarà l’ampiezza del campione Nelrichiesta.casoin cui si voglia reclutare un ugual numero di soggetti nei due gruppi, la formula da utilizzare per il calcolo è la seguente: Z a/2· [ P0 ·(1 – P0) + P0 ·(1 – P0) ]½ + Z b · [ P0 ·(1 – P0) + Pe ·(1 – Pe) ]½ = Δ n n n n ndove:=numero di soggetti da reclutare per ogni gruppo P0 = proporzione di eventi tra i non esposti Pe = proporzione di eventi tra gli esposti a = probabilità di errore di I tipo (generalmente è posto = 0,05) b = probabilità di errore di II tipo (generalmente è posto = 0,20)

Zb = quantile della distribuzione normale standardizzata al di là del quale si trova il b% della distribuzione (per b = 0,20 → Zb = 0,84)

3. Armitage P, Berry G, Matthews JNS. Statistical methods in medical research. Fourth Edition. Oxford: Blackwell, 2002.

1.BibliografiaKahnHA,Sempos

27APPENDICE.

Per stimare il numero di casi e controlli da reclutare all’interno di uno studio casocontrollo, è necessario avere una stima preliminare delle proporzioni di esposti che ci aspettiamo nei due gruppi a confronto. Nel caso in cui si voglia reclutare un numero di controlli uguale al numero dei casi, la formula da utilizzare per il calcolo è la seguente: Z a/2· [ P0 ·(1 – P0) + P0 ·(1 – P0) ]½ + Z b · [ P0 ·(1 – P0) + Pe ·(1 – Pe) ]½ = Δ n n n n ndove:=numero di soggetti da reclutare per ogni gruppo

4. Sedgwick P. Clinical significance versus statistical significance. BMJ 2014; 348:g2130.

b = probabilità di errore di II tipo (generalmente è posto = 0,20)

Calcolo della numerosità campionaria in uno studio caso-controllo

Δ = differenza tra le due proporzioni (P0 – Pe)

Risolvendo la formula rispetto a “n” si ottiene il numero di soggetti da reclutare per ogni gruppo: n = {Z a/2· 2· [P0·(1 – P0)]½ + Z b· [P0·(1 – P0) + Pe ·(1 – Pe)]½}2 Δ Si rimanda ai testi citati in bibliografia per le formule utilizzabili nel caso in cui si voglia una numerosità diversa nei due gruppi a confronto.1 3

Z a/2 = quantile della distribuzione normale standardizzata al di là del quale si trova l’a/2% della distribuzione (per a = 0,05 → Z a/2 = 1,96)

PRECISIONE DELLE STIME

CT. Statistical methods in epidemiology. New York: Oxford University Press, 1989.

2. Osborn JF. Manuale di statistica medica. Metodi di base. Roma: Società Editrice Universo, 1999.

P0 = proporzione di esposti tra i controlli Pe = proporzione di esposti tra i casi a = probabilità di errore di I tipo (generalmente è posto = 0,05)

Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.