Una inteligencia artificial predice qué nuevos virus podrían infectarnos

Un estudio de la Universidad de Glasgow ha desarrollado un modelo capaz de predecir qué virus podrían saltar de animales a humanos utilizando solo su genoma. Sus predicciones se podrán usar para enfocar los esfuerzos de investigación en los virus con mayor capacidad de infección.

Si te preguntan por una infección que haya saltado de un animal a una persona, el primer ejemplo que se te ocurra probablemente sea la del coronavirus SARS-CoV-2. Pero este coronavirus no es nada original: la mayoría de las enfermedades infecciosas emergentes son causadas por virus procedentes de otras especies animales. Por eso es crucial saber qué virus animales pueden acabar infectando a humanos. Hasta ahora, saber si un virus recién descubierto en animales era susceptible de infectar a personas era imposible. Pero un nuevo estudio propone una vía muy prometedora.

Aprendiendo a predecir

Cuando se descubre un virus, sabemos muy poco sobre él. El único dato que tenemos es la secuencia de su genoma. Esta información es claramente insuficiente para predecir la capacidad de infectar personas. Además, hay más de un millón y medio de virus animales, pero solo una pequeñísima minoría puede saltar a humanos. ¿Cómo identificarlos? Un equipo científico de la Universidad de Glasgow ha utilizado inteligencia artificial para filtrar los virus con mayor probabilidad de infectar a seres humanos. Sus conclusiones se publicaron ayer en PLoS Biology.

Aunque la secuencia del genoma de un virus nos ofrece una información limitada sobre él, el equipo escocés se dio cuenta de que sí tenían unos datos muy valiosos para comenzar la investigación: una base de datos de 861 especies de virus, pertenecientes a 36 familias diferentes, con su taxonomía y su similitud a otros virus cuya capacidad de infección a humanos era conocida. Estos son los mejores datos para la inteligencia artificial: un elenco grande de casos conocidos.

A partir de esta base de datos, desarrollaron un modelo de inteligencia artificial que asignaba una probabilidad de infección a humanos. Escogieron un 85% de los casos conocidos para entrenar el modelo, dándole la asociación entre el genoma del virus y su capacidad de infección. Después, pusieron a prueba el modelo con el 15% restante. Le daban el genoma y el modelo calculaba la capacidad de infección.

Menos datos, mismo resultado

Los resultados fueron asombrosos: el modelo era mejor que los que se usan hoy en día. Más precisamente, la capacidad de predicción de este nuevo modelo era similar a la de los mejores modelos conocidos hasta ahora. Pero, para alcanzar esta capacidad de predicción, los modelos actuales utilizan información como la diversidad de especies a las que puede infectar un virus o la capacidad de replicación en el citoplasma. Esta información sencillamente no está disponible para los virus recién descubiertos, y el mérito del nuevo modelo es que consigue la misma capacidad de predicción usando solamente los datos del genoma.

El modelo también fue capaz de predecir la capacidad de infección de todas las especies conocidas de coronavirus. A todas aquellas que sabemos que pueden infectar a humanos se les asignó un riesgo medio o alto.

Una vez obtenido el modelo, el equipo científico fue más allá y decidió exponerlo a la prueba real: hacerle predecir la capacidad de infección a humanos de otros 645 virus. De estos no tenían datos más allá de su genoma. Obtuvieron que, de los 645 virus, 272 tenían un riesgo alto de infectar a humanos, mientras que 41 tenían un riesgo muy alto. Además, el riesgo era más elevado si los virus procedían de primates no humanos, pero no si procedían de otros mamíferos o aves.

El equipo llegó a identificar dos coronavirus hasta ahora asociados a animales que tienen una probabilidad igual o mayor de infectar a humanos que otros coronavirus conocidos. Por eso consideran que estos virus deben de ser prioritarios para futuras investigaciones.

Además, observando las características comunes a los virus con mayor probabilidad de infectar a humanos, parece que hay factores del genoma, independientes de las relaciones taxonómicas de los virus, que los predisponen a ser más infecciosos en humanos.

Las buenas noticias no acaban aquí: cuantos más virus se caractericen, más se podrá refinar el modelo para aumentar su capacidad de predicción. Cuanto antes se pueda conocer qué virus tienen más riesgo de infectar a humanos, mejor se podrán monitorizar para terminar de comprobar si se convertirán en un peligro o no. Incluso se pueden priorizar estos virus para el desarrollo preventivo de vacunas.

Del computador al laboratorio

Por supuesto, el nuevo modelo no es perfecto, y desde luego no se debe utilizar de manera aislada. Cuando el modelo asigne a una cierta especie de virus un riesgo elevado de saltar a humanos, habrá que comprobar esta conclusión en el laboratorio antes de ponerse a desarrollar vacunas.

Además, hay muchos factores que no son intrínsecos a los virus pero que influyen en su capacidad de infección: la gravedad de la enfermedad que cause el virus en humanos, la capacidad de transmisión entre personas, e incluso las condiciones del entorno en el momento de la exposición al virus. Para conocer estos datos probablemente haga falta mucha más información de la que contiene el genoma. Y solo conociéndolos podremos llegar a saber si un virus será peligroso para la sociedad.

Por eso la aportación más importante de este modelo es que nos dice dónde debemos poner los recursos en las investigaciones futuras. Este modelo es fácil de usar y, sobre todo, rápido y barato. No así las investigaciones experimentales, y por eso es imposible estudiar todos los virus en el laboratorio. Esta nueva herramienta nos indica qué virus deben estudiarse primero y cuáles pueden esperar.

Ahora que los genomas de los virus son cada vez más fáciles de obtener, poder usarlos para tomar decisiones estratégicas de investigación es un avance valiosísimo. Solo así podremos anticiparnos a los virus capaces de infectarnos y evitar que desencadenen la próxima pandemia.

Podría parecer intuitivo que los virus más susceptibles de infectarnos son los que están relacionados con otros que ya sabemos que infectan a humanos. Pero esta afirmación no está comprobada. De hecho, los modelos que tienen en cuenta la similitud a otros virus cuyo riesgo de infección a humanos es conocido son los peores: asignando un riesgo al azar se obtienen mejores resultados.