Il Covid e i limiti del data-driven
Il Covid scuote profondamente la duplice convinzione che i dati siano in grado di risolvere qualsiasi problema e che, grazie alle tecnologie, sia possibile venire a capo di un numero infinito di dati. Si tratta tuttavia del paradigma che guida oggi una parte crescente della ricerca scientifica e la quasi totalità del marketing d’impresa.
Poi è arrivato la pandemia, e di dati ne abbiamo letti e ascoltati tutti i giorni, anche troppi. La presunzione di poter determinare un picco nella pandemia discendeva proprio dallo studio di questi dati.
A essere obiettivi, le carenze strutturali non hanno consentito di ricercare e impiegare quelli più significativi. In quasi tutti i paesi, e certamente nel nostro, il numero di tamponi effettuati è stato ridicolmente basso, anche quando si è scoperto che il virus può essere asintomatico. Ma è anche vero che il tampone negativo di oggi è già poco probante domani. A questo dovrebbero parzialmente rimediare i test sierologici, che abbinati al tampone potrebbero almeno escludere dal novero dei portatori di contagio e dei contagiabili tutta una quantità di persone. Ma siccome non siamo certi che avere contratto il virus renda immuni, o come minimo non sappiamo per quanto tempo renda immuni, anche il binomio tampone-test sierologico (per quanto ampiamente preferibile all’inazione) non è decisivo in senso predittivo.
I dati diffusi pubblicamente erano quelli tutto sommato meno utili – a parte che per seminare il panico o allentare la tensione – e cioè i morti e i contagiati. Più precisamente i morti (anche quelli per approssimazione) e i diagnosticati che, presumibilmente, causa il citato deficit di tamponi, sono solo una percentuale (non possiamo sapere quanto bassa) dei contagiati effettivi.
D’altronde, anche se i contagiati si riducessero davvero a quelli diagnosticati:
- Non sapremmo dove hanno contratto il virus (salvo nei casi di unico enorme focolaio).
- Non sapremmo in forza di quali condotte lo hanno contratto (cioè a che distanza dal portatore, per quale durata di esposizione, con quali modalità); ignoreremmo cioè il loro comportamento.
- Non avremmo riscontro della relazione tra il contagio e la loro soggettività. Abbiamo idea di una macrocategoria rispetto alla letalità (gli anziani o gli affetti da gravi patologie) ma non conosciamo nulla della predisposizione al contagio né in ingresso (quali caratteristiche rendono più vulnerabili) né in uscita (si è anche ipotizzato che il Covid vanga trasmesso da una ristretta categoria di super- contagiosi).
Peraltro le misurazioni erano tutte contraddistinte da (inevitabili) asincronie – ha dei limiti eguagliare dei dati clinici che hanno di comune solo il giorno del riscontro, specialmente se si vuole ricavare una previsione di evoluzione. Per questo alcuni modelli hanno puntato sulla correzione dei dati a mezzo di “plausibilità”. E però secondo alcuni di questi studi il Covid doveva essere già scomparso da un mesetto.
Il modo in cui i dati sono stati gettati alla rinfusa rispecchia il modello dominante, detto data-driven, secondo il quale prima si raccoglie il maggior numero possibile di dati e poi si cerca un legame di causalità formulando la teoria. L’epidemiologia è un caso classico (e certamente non il solo) in cui appare più pertinente il modello theory-driven: ovvero si formula una teoria e poi si lavora selettivamente sui dati che servono per confermarla, e solo su quelli, a meno che i dati non la sconfessino (e si passa a una nuova teoria).
La difficoltà di aggregazione dei dati è stata accentuata dalla molteplicità degli agenti che li hanno raccolti, che li rende disomogenei di partenza. E non è un limite determinato solo da un evento eccezionale come la pandemia. Il docente di media digitali Yanni Alexander Loukikass, in un intervento recente, ha ridimensionato il mito dell’universalismo digitale osservando che tutti i dati sono locali, tutti vanno contestualizzati, tutti sono raccolti da fonti eterogenee. E ogni interfaccia ricontestualizza i dati.
Non è strano, insomma, che i big data si siano mostrati tanto insufficienti proprio di fronte al problema più grave affrontato dall’umanità? E paradossalmente (nei timori manifestati verso le app di tracciamento) è stata anche la prima volta in cui si è affermata l’insostenibilità sociale di un sistema di raccolta dati invasivo. La verità è che, per una parte discreta di problemi che a soggetti, enti pubblici e aziende si pongono tutti i giorni, il modello data driven non funziona. Però si vende bene, è tanto comodo adagiarcisi e di solito non uccide nessuno. Non in modo evidente, almeno.
Scrivi un commento