Condividi sui social

I matematici usano l'intelligenza artificiale per identificare le varianti emergenti della COVID-19: il framework combina tecniche di riduzione delle dimensioni e un nuovo algoritmo di clustering spiegabile chiamato CLASSIX, sviluppato dai matematici dell'Università di Manchester. Ciò consente di identificare rapidamente, a partire da enormi volumi di dati, gruppi di genomi virali che in futuro potrebbero rappresentare un rischio per la salute collettiva.
Lo studio, presentato questa settimana sulla rivista PNAS, potrebbe supportare i metodi tradizionali di tracciamento dell'evoluzione virale, come l'analisi filogenetica, che attualmente richiedono un'ampia cura manuale. "Dalla comparsa di COVID-19, abbiamo assistito a molteplici ondate di nuove varianti, a una maggiore trasmissibilità, all'elusione delle risposte immunitarie e a una maggiore gravità della malattia. Gli scienziati stanno ora intensificando gli sforzi per individuare queste nuove preoccupanti varianti, come alfa, delta e omicron, nelle prime fasi della loro comparsa – commenta Roberto Cahuantzi, ricercatore presso l'Università di Manchester e primo autore dell'articolo. Se riusciremo a trovare un modo per farlo in modo rapido ed efficiente, potremo essere più proattivi nelle nostre risposte, come lo sviluppo di vaccini su misura, e potremo persino eliminare le varianti prima che si affermino".
Come molti altri virus a RNA, il COVID-19 ha un alto tasso di mutazione e un breve intervallo di tempo tra le generazioni, il che significa che si evolve con estrema rapidità. Ciò significa che l'identificazione di nuovi ceppi che potrebbero essere problematici in futuro richiede uno sforzo considerevole.
Attualmente nel database GISAID (Global Initiative on Sharing All Influenza Data), che fornisce accesso ai dati genomici dei virus influenzali sono disponibili quasi 16 milioni di sequenze.
La mappatura dell'evoluzione e della storia di tutti i genomi di COVID-19 a partire da questi dati è attualmente effettuata utilizzando quantità estremamente elevate di computer e di tempo umano.
Il metodo descritto consente di automatizzare tali compiti: i ricercatori hanno infatti elaborato 5,7 milioni di sequenze ad alta copertura in soli uno o due giorni su un moderno computer portatile standard, cosa che non sarebbe stata possibile con i metodi esistenti.
Thomas House, professore di scienze matematiche all'Università di Manchester, ha dichiarato: "La quantità senza precedenti di dati genetici generati durante la pandemia richiede un miglioramento dei nostri metodi per analizzarli a fondo. I dati continuano a crescere rapidamente, ma se non si dimostrano i vantaggi di una loro gestione, c'è il rischio che vengano rimossi o cancellati”.
"Sappiamo che il tempo a disposizione degli esperti umani è limitato, quindi il nostro approccio non dovrebbe sostituire del tutto il lavoro degli uomini, ma affiancarli per consentire di svolgere il lavoro molto più rapidamente e liberare i nostri esperti per altri sviluppi vitali."
Il metodo proposto funziona scomponendo le sequenze genetiche del virus COVID-19 in "parole" più piccole (chiamate 3-mers) rappresentate come numeri e contandole. Quindi, raggruppa sequenze simili in base ai loro modelli di parole utilizzando tecniche di apprendimento automatico.

Usando questo sito si accetta l'utilizzo dei cookie per analisi statistiche e contenuti personalizzati. Privacy policy