3 minute read

i dati non tornano

Next Article
SPILLER ANTONIO

SPILLER ANTONIO

Il virus ha evidenziato un problema di “alfabetizzazione numerica” nel trattare i dati. Abbiamo faticato a contestualizzarli e a renderli leggibili e utili per il pubblico. A volte non solo per nostra responsabilità di Riccardo Saporiti, giornalista esperto di Data Journalist

La pandemia è stata, almeno per l’Italia, la più grande esperienza data-driven della storia. Non solo per la quantità di dati raccolti a partire dal marzo 2020, ma anche perché alcune decisioni sono state affidate a modelli automatizzati che le elaboravano a partire proprio dai dati.

Advertisement

È il caso del Dpcm del novembre 2020 che ha introdotto le zone a colori (rosso, arancione, giallo e bianco), ciascuna delle quali con diverse limitazioni alle libertà personali. Il passaggio da una all’altra avveniva sulla base del numero di contagi. In una fase successiva, oltre al tasso di positività, si sono introdotti quelli di occupazione dei reparti ospedalieri destinati ai pazienti covid. Un’ulteriore conferma dell’importanza dei dati nell’ambito dell’esperienza pandemica.

Abbiamo vissuto la più grande esperienza “data driven” della storia: un esperimento che non sempre è riuscito

Oltre che in ambito sanitario e politico, i numeri legati alla diffusione del virus, alle ospedalizzazioni e purtroppo ai decessi, hanno avuto centralità anche nel racconto giornalistico. Per i giornalisti in generale, per quelli che si occupano di data journalism in particolare, questo contesto ha rappresentato una sfida per inserire l’impiego dei dati, la loro analisi e la loro visualizzazione all’interno dell’attività quotidiana delle redazioni. Un esperimento, se così vogliamo definirlo, che non sempre è riuscito.

La dittatura della derivata seconda

È emerso infatti un serio problema di alfabetizzazione numerica, quella che in inglese si chiama data literacy, da parte della categoria. L’esempio plastico è il confronto tra il numero di casi di una data giornata con quello del giorno precedente, concludendo poi che la tendenza fosse in aumento o in diminuzione a seconda del risultato della differenza. Per definizione, una tendenza si calcola su un periodo più lungo di tempo. E in un quadro in cui alla domenica veniva effettuato un numero inferiore di tamponi, calcolandola giorno per giorno avremmo avuto curve pandemiche in calo la domenica e in risalita il lunedì.

Una tendenza si calcola su un periodo più lungo di due giorni e va depurata dai “giorni deboli” come la domenica

Altro aspetto problematico, il fatto che i numeri legati alla pandemia devono essere inseriti in un contesto. Nelle prime setti- mane del lockdown abbiamo assistito a quella che può essere definita come la dittatura della derivata seconda. La derivata seconda di una funzione, semplificando brutalmente il concetto, è quella che definisce lo sviluppo della curva che quella funzione rappresenta. È così che tanti hanno predetto la data in cui avremmo dovuto raggiungere il picco dei contagi. Questo tipo di analisi, però, prescinde da un elemento, appunto, imprescindibile: la realtà. Come incide, sulla diffusione di un contagio, l’anticipazione di stampa del lockdown che spinge centinaia di persone alla stazione Centrale di Milano per prendere gli ultimi treni verso il Mezzogiorno? Sarà anche per questo motivo che questa infatuazione per la derivata seconda non è andata oltre la prima ondata.

I dati forniti dalla Protezione civile erano su base regionale, ma non erano pesati sul numero di abitanti

Non solo tabelle ma anche lettura delle tabelle Sul fronte della visualizzazione, elemento cruciale per consentire ai lettori la comprensione dei dati, si sono registrate esperienze importanti, come la pagina alimentata dal visual lab del Sole24Ore. Ma ci sono anche importanti quotidiani che si sono limitati a pubblicare la tabella che la Protezione civile forniva quotidianamente senza alcuno sforzo grafico. Che pure è necessario quando si ha a che fare con i dati: si tratta di fornire al lettore uno strumento di comprensione. Un altro aspetto per cui la pandemia è stata, almeno in parte, un’occasione persa è quello relativo alla trasparenza. Sia reso imperituro merito alla Protezione civile per lo sforzo di pubblicare, quotidianamente, i dati relativi alla pandemia in formato aperto. Ovvero in open data: accessibili, leggibili da una macchina e con una licenza che ne garantisse il riuso. Uno sforzo che ha avuto però evidenti limiti: i dati relativi a ricoveri e decessi erano disponibili solo su base regionale. In un paese in cui un sesto degli abitanti vive in Lombardia, in cui la provincia di Bergamo ha gli stessi abitanti del Friuli Venezia Giulia e la città di Bergamo ha gli stessi residenti della Valle d’Aosta, non ha alcun senso.

Accesso ai dati. Serve, in altre parole, granularità nei dati. E serve che tutti vengano forniti: per mesi non è stato possibile verificare il dato relativo al tasso di occupazione dei reparti di terapia intensiva perché non era noto il denominatore. Ovvero il numero dei posti effettivamente a disposizione. Così come non è mai stato comunicato il dato relativo ai pazienti non covid ricoverati nelle terapie intensive. Per chiedere trasparenza completa, un gruppo di attivisti ha lanciato la campagna DatiBeneComune, sottoscritta da oltre 50mila persone. Ma sono poche le testate giornalistiche, che pure di questa campagna avrebbero beneficiato per svolgere il proprio lavoro, che l’hanno sostenuta. Del resto, siamo il paese in cui il governo ha deciso di limitare il Foia, l’accesso documentale, durante la pandemia: un attacco alla libertà di stampa che pochi, a cominciare dai giornalisti, hanno denunciato.

1. Crocevia

This article is from: