La statistica dei test anti Covid-19

di | 13 maggio 2021

Da tempo abbiamo preso familiarità con i test molecolari e antigenici. Sappiamo cosa sono, a cosa servono e a furia di leggere e ascoltare notizie di vario genere abbiamo interiorizzato il fatto che il tampone molecolare sia più preciso di quello antigenico. In tantissimi casi queste notizie scarne di spiegazione potrebbero far passare concetti sbagliati su quanto uno strumento sia utile. Per comprendere bene quanto siano utili i test antigenici bisogna utilizzare un teorema molto noto in statistica ossia il teorema di Bayes.

La sensibilità e la specificità

Prima di spiegare l’applicazione del teorema di Bayes ai test bisogna familiarizzare con i concetti di sensibilità e specificità.
Si definisce sensibilità di un test (o più correttamente di un esame diagnostico) la capacità di identificare correttamente i soggetti malati, ovvero affetti dalla malattia o dalla condizione che ci si propone di individuare. Se un test ha un'ottima sensibilità, allora il test restituisce correttamente il risultato positivo nella quasi totalità dei soggetti malati. Quando si presenta questa situazione è basso il rischio di falsi negativi cioè di soggetti che pur essendo malati sottoponendosi al test vengono erroneamente individuati come sani.
Una sensibilità del 100% significa che il test è positivo nel 100% dei malati, una sensibilità del 90% significa che il test è positivo nel 90% dei malati e così via.

Si definisce specificità di un test la capacità di identificare correttamente i soggetti sani, ovvero non affetti dalla malati. Se un test ha un'ottima specificità, allora il test restituisce correttamente il risultato negativo nella quasi totalità dei soggetti sani. Quando si presenta questa situazione si dice che è basso il rischio di ottenere molti falsi positivi cioè di soggetti che pur essendo sani sottoponendosi al test vengono erroneamente individuati come malati. Una specificità del 100% significa che il test è negativo nel 100% dei sani, una specificità del 90% significa che il test è negativo nel 90% dei sani e così via.

Esemplificazione grafica e calcolo

Utilizzando la tabella sottostante comunemente nota come matrice di confusione è possibile rendere più facile la comprensione e individuazione dei concetti appena esposti.

Il calcolo avendo a mente la tabella risulta ancora più facile.

Sensibilità = Veri positivi / Totale malati = Veri positivi / (Veri positivi + Falsi negativi)

Specificità = Veri negativi / Totale sani = Veri negativi / (Veri negativi + Falsi positivi)

Ora proviamo a calcolare la sensibilità e la specificità partendo dalla seguente tabella.

Con una situazione come quella riportata possiamo facilmente calcolare che la sensibilità è dell’80% (40/50) e la specificità è del 90% (855/950).

Valore predittivo del test

Arrivati a questo punto, sperando che siano chiari i concetti di sensibilità e di specificità, si può passare alla parte più importante ossia il valore predittivo di un test.
In generale nella statistica medica quando si parla di valore predittivo di un test si intende la probabilità che un soggetto positivo ad un test diagnostico sia effettivamente malato, ed in questo caso si parla di valore predittivo positivo, oppure che un soggetto negativo ad un test sia effettivamente sano, ed in questo caso si parla di valore predittivo negativo.
In termini più tecnici il valore predittivo positivo misura la probabilità condizionata di essere malati essendo risultati positivi al test diagnostico mentre il valore predittivo negativo misura la probabilità condizionata di essere sani essendo risultati negativi al test diagnostico.
Il concetto di predittività risulta quello più utile perché va a rispondere alla domanda: “dato un risultato in un test quanto è probabile che quel risultato sia corretto?”
È utile evidenziare che troppo spesso si tende a pensare che la risposta a questa domanda sia il valore della sensibilità ma come vedremo tra poco non è così.

Il calcolo del valore predittivo

Per calcolare il valore predittivo bisogna aggiungere un ultimo elemento ossia la prevalenza della malattia, vale a dire la proporzione di positivi in una data popolazione (o sottopopolazione).
Avendo i valori di sensibilità, specificità e prevalenza è possibile applicare il teorema di Bayes per calcolare il valore predittivo del test utilizzando le seguenti formule:

Valore predittivo positivo = (sensibilità x prevalenza) / [(sensibilità x prevalenza) + (1-specificità) x (1-prevalenza)]

Valore predittivo negativo = [specificità x (1-prevalenza)] / [specificità x (1-prevalenza) + (1-sensibilità) x prevalenza]

Ipotizzando che una malattia abbia una prevalenza del 5%, che il test diagnostico abbia una sensibilità dell’80% ed una specificità del 90% (caso della tabella esposta precedentemente) i calcoli sarebbero i seguenti:

Valore predittivo positivo = (0,80*0,05) / [(0.80*0.05) + (1-0.90) * (1-0.05)] = 0.2963 ossia 29,63%

Valore predittivo negativo = [0.90 * (1-0.05)] / [0.90 * (1-0.05) + (1-0.80) * 0.05] = 0.9884 ossia 98,84%

Con questi risultati possiamo dire che il valore predittivo positivo è molto basso mentre il valore predittivo negativo è molto alto. Ciò può essere negativo per alcune tipologie di test ma non per i test anti Covid-19 il cui obiettivo è quello di evitare che i positivi siano erroneamente classificati come negativi poiché ciò significherebbe lasciar circolare il virus attraverso soggetti ignari.

La potenza del teorema è ancora più evidente quando si utilizzano sensibilità considerate enormemente basse. Ipotizziamo che la sensibilità sia del 50% e ripetiamo il calcolo.

In questo caso i risultati sarebbero:

Valore predittivo positivo = (0,50*0,05) / [(0.50*0.05) + (1-0.90) * (1-0.05)] = 0.2083 ossia 20,83%

Valore predittivo negativo = [0.90 * (1-0.05)] / [0.90 * (1-0.05) + (1-0.50) * 0.05] = 0.9716 ossia 97,16%

Anche con un valore di sensibilità molto basso il test risulta ancora enormemente efficace nel trovare i veri negativi.

Metodo di calcolo semplificato

Esiste anche un altro metodo di calcolo per i valori predittivi che viene ritenuto molto più semplice. Conoscendo i valori di sensibilità, specificità e prevalenza è possibile ottenere le matrici di confusione (come visto in precedenza) e conseguentemente si possono calcolare i valori predittivi senza ricorrere alle formule viste precedentemente.
Nel caso della prima matrice è possibile ottenere il valore predittivo positivo col semplice calcolo 40/(40+95) e il valore predittivo negativo col calcolo 855/(10+855).