Una inteligencia artificial predice la forma de los ‘pilares básicos’ de la vida

La base de datos más completa y precisa de las predicciones de estructuras del proteoma humano está disponible de forma libre y abierta para la comunidad científica – Karen Arnott /EMBL

AlphaFold ha desentrañado más de 300.000 estructuras de proteínas del cuerpo humano y otros organismos, la mayor base de datos hasta la fecha y que significará un antes y un después en investigación biológica

El ADN humano guarda en su interior el ‘libro de instrucciones’ de más de 20.000 proteínas, encargadas de la mayoría de las funciones en el interior de las células, como la replicación del material genético, la obtención de energía o la señalización de todas las rutas indispensables para su funcionamiento. Los biólogos se afanan por comprender sus estructuras, recreándolas en 3D de manera experimental. Sin embargo, tan solo ha conseguido ‘desentrañar’ un tercio de ellas, en muchos casos de forma incompleta. Ahora, una inteligencia artificial bautizada como AlphaFold es capaz de predecir con bastante exactitud cómo son la mayoría de ellas. Para muchos, una herramienta que se postula como una revolución científica sin precedentes. Los resultados acaban de publicarse en la revista ‘ Nature‘.

AlphaFold -creada por la empresa DeepMind, compañía especializada en inteligencia artificial y que desde hace algo más de un lustro pertenece a Google- es capaz de, con tan solo leer las largas y complejas cadenas de moléculas de las proteínas – compuestas de aminoácidos-, predecir su estructura. Algo así como saber de antemano cómo lucirá una receta tan solo con ver los ingredientes. Hasta la fecha, esta tarea se llevaba a cabo con largos y costosos experimentos de laboratorio que podían durar días, incluso años. Pero AlphaFold puede realizar su trabajo en apenas horas, incluso minutos. De momento, ha desentrañado más de 350.000 estructuras de proteínas, duplicando todos los registros anteriores, además de ponerlos a disposición y en abierto a toda la comunidad científica. Y sus creadores no piensan parar: se han propuesto alcanzar los 130 millones para finales de este mismo año.

«Esta es la mayor contribución que ha hecho un sistema de inteligencia artificial hasta ahora para promover el conocimiento científico. No creo que sea exagerado decir eso», afirma Demis Hassabis, cofundador y director ejecutivo de DeepMind, además de uno de los autores del estudio. Aun así, muchos, incluidos los investigadores, se muestran cautelosos: la fiabilidad de las predicciones aún no alcanza el 60%, por lo que, aunque se trata de un gran adelanto, a la tecnología aún le queda mucho para madurar. «Que tengamos todos estos datos en esa escala es un paso asombroso», apunta David Jones, un biólogo computacional de UCL que asesoró a DeepMind en una versión anterior de AlphaFold.

La importancia de cómo se pliega la proteína

DeepMind y su AlphaFold ya sorprendieron el año pasado cuando consiguieron literalmente ‘barrer’ a todos sus competidores en un ejercicio de predicción de proteínas llamado CASP (Critical Assessment of protein Structure Prediction). En esta competición bianual que tiene como objetivo ‘enfrentar’ entre sí a diferentes modelos bioinformáticos, AlphaFold consiguió predecir al 92% de fiabilidad la estructura tridimensional de las proteínas en apenas minutos u horas, mientras que algunos de sus competidores tardaron incluso días. Pero es ahora cuando los adelantos y la tecnología detrás de esta inteligencia artificial se han publicado en una revista científica. Y, además, todas las estructuras están en abierto a través del Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular (EMBL-EBI), ubicado en Hinxton, Reino Unido.

De momento, estos archivos contienen el 98,5% de todas las proteínas humanas conocidas, así como un nivel parecido en otros organismos, como la mosca de la fruta, la E. coli, el ratón, el pez cebra, el parásito de la malaria y las bacterias de la tuberculosis. En cuanto a fiabilidad, desde DeepMind se señala que el 58% de sus predicciones para las ubicaciones de los aminoácidos individuales fueron lo suficientemente buenas como para confiar en la forma de los pliegues de la proteína (una de sus características más importantes es que su función depende de cómo se pliegan: sus propiedades fisicoquímicas las hacen adquirir una estructura tridimensional determinada, sin la cual pueden funcionar). Y, de ellas, el 36% fueron tan certeras que se pueden detallar sus características atómicas, útiles para el diseño de fármacos, por ejemplo. «Queremos darles a los experimentadores y biólogos una señal realmente clara de en qué partes de las predicciones deben confiar», afirma Kathryn Tunyasuvunakool, ingeniera científica de DeepMind y primera autora de un artículo.

Pero, a pesar de que no tenga un 100% de fiabilidad (aún), los investigadores piensan que esta inteligencia artificial ya puede ofrecer información muy valiosa. Los biólogos creen que una gran proporción de proteínas humanas y las de otros eucariotas (organismos con células que tienen núcleos) contienen regiones que están intrínsecamente desordenadas y adquieren una estructura definida solo cuando se ‘ponen de acuerdo’ con otras moléculas. Y, precisamente, algunas de las regiones que AlphaFold predijo con menor confianza «coinciden con las que los biólogos sospechan que están desordenadas», afirma Pushmeet Kohli, jefe de inteligencia artificial de Ciencia en DeepMind.

«Cambio de paradigma»

De momento, muchos científicos coinciden en que es probable que la disponibilidad de tantas estructuras de proteínas marque desde ya un «cambio de paradigma» en biología. «Todo lo que hacemos hoy que se basa en una secuencia de proteínas, ahora podemos hacerlo con la estructura de las proteínas en sí», señala Mohammed AlQuraishi, biólogo computacional de la Universidad de Columbia en Nueva York y experto en el tema.

En palabras de Elizabeth Blackburn, Premio Nobel de Fisiología o Medicina 2009 y Profesora Emérita de la Universidad de California San Francisco: «A medida que este enfoque revolucionario de DeepMind se vuelva accesible, se abrirán nuevas ventanas para la comunidad científica sobre el significado biológico de la secuencia del genoma».