Determinar las formas de las moléculas es vital para el diseño de fármacos, y los científicos pueden demorar años en hacerlo. DeepMind y AlphaFold son capaces de resolver este tipo de tareas en horas
- 8 minutos de lectura'
Desde hace algunos años, John McGeehan, biólogo y director del Centro de Innovación Enzimática de Portsmouth, Inglaterra, buscaba una molécula capaz de descomponer los 150 millones de toneladas de botellas de gaseosa y otros residuos de plástico esparcidos por el mundo.
En colaboración con investigadores de ambos lados del Atlántico, ha encontrado unas cuantas buenas opciones. Pero su tarea es la del cerrajero más exigente: localizar con precisión los compuestos químicos que por sí solos se retorcerán y doblarán en la forma microscópica que puede encajar perfectamente en las moléculas de una botella de plástico y separarlas, como una llave que abre una puerta.
Determinar el contenido químico exacto de cualquier enzima es un reto bastante sencillo hoy en día. Pero identificar su forma tridimensional puede implicar años de experimentación bioquímica. Así que el pasado otoño, tras leer que un laboratorio de inteligencia artificial de Londres llamado DeepMind había construido un sistema que predice automáticamente las formas de las enzimas y otras proteínas, McGeehan preguntó al laboratorio si podía ayudarlo con su proyecto.
Hacia el final de una semana de trabajo, envió a DeepMind una lista de siete enzimas. El lunes siguiente, el laboratorio devolvió las formas de las siete. “Esto nos hizo avanzar un año respecto a donde estábamos, si no es que dos”, dijo McGeehan.
Ahora, cualquier bioquímico puede acelerar su trabajo de forma muy similar. El jueves, DeepMind publicó las formas previstas de más de 350.000 proteínas, los mecanismos microscópicos que impulsan el comportamiento de las bacterias, los virus, el cuerpo humano y todos los demás seres vivos. Esta nueva base de datos incluye las estructuras tridimensionales de todas las proteínas expresadas por el genoma humano, así como las de las proteínas que aparecen en otros 20 organismos, incluidos el ratón, la mosca de la fruta y la bacteria E. coli.
Este vasto y detallado mapa biológico —que proporciona unas 250.000 formas hasta ahora desconocidas— puede acelerar la capacidad de entender las enfermedades, desarrollar nuevas medicinas y reutilizar las existentes. También puede conducir a nuevos tipos de herramientas biológicas, como una enzima que descompone eficazmente las botellas de plástico y las convierte en materiales fácilmente reutilizables y reciclables.
“Esto puede adelantarte en el tiempo e influir en la forma de pensar en los problemas y ayudar a resolverlos más rápidamente”, dijo Gira Bhabha, profesora adjunta del departamento de biología celular de la Universidad de Nueva York. “Tanto si estudias neurociencia como inmunología —sea cual sea tu campo de la biología— esto puede ser útil”.
Este nuevo conocimiento es su propia clase de llave: si los científicos pueden determinar la forma de una proteína, pueden determinar cómo se unirán a ella otras moléculas. Esto podría revelar, por ejemplo, cómo se resisten a los antibióticos las bacterias, y cómo contrarrestar esa resistencia. Las bacterias se resisten a los antibióticos expresando ciertas proteínas; si los científicos fueran capaces de identificar las formas de estas proteínas, podrían desarrollar nuevos antibióticos o nuevos medicamentos que las supriman.
Anteriormente, determinar la forma de una proteína requería meses, años o incluso décadas de experimentos de prueba y error con rayos X, microscopios y otras herramientas en la mesa de laboratorio. Pero DeepMind puede reducir considerablemente los plazos con su tecnología de inteligencia artificial, conocida como AlphaFold.
Cuando McGeehan envió a DeepMind su lista de siete enzimas, dijo al laboratorio que ya había identificado las formas de dos de ellas, pero no dijo cuáles. Esta era una forma de probar la eficacia del sistema; AlphaFold pasó la prueba al predecir correctamente ambas formas.
Fue aún más notable, dijo McGeehan, que las predicciones llegasen en cuestión de días. Más tarde se enteró de que AlphaFold había completado la tarea en solo unas horas.
AlphaFold predice las estructuras de las proteínas utilizando lo que se llama una red neuronal, un sistema matemático que puede aprender tareas analizando grandes cantidades de datos —en este caso, miles de proteínas conocidas y sus formas físicas— y extrapolando a lo desconocido.
Se trata de la misma tecnología que identifica los comandos que le dictas a tu teléfono inteligente, reconoce las caras en las fotos que publicas en Facebook y traduce un idioma a otro en Google Translate y otros servicios. Pero muchos expertos creen que AlphaFold es una de las aplicaciones más potentes de la tecnología.
“Demuestra que la inteligencia artificial puede hacer cosas útiles en medio de la complejidad del mundo real”, afirma Jack Clark, uno de los autores del Índice de Inteligencia Artificial, un esfuerzo por seguir el progreso de la tecnología de inteligencia artificial en todo el mundo.
Y, como descubrió McGeehan, puede ser extraordinariamente precisa. AlphaFold puede predecir la forma de una proteína con una precisión que rivaliza con la de los experimentos físicos en un 63 por ciento de las ocasiones, según pruebas de referencia independientes que comparan sus predicciones con estructuras proteicas conocidas. La mayoría de los expertos habían asumido que una tecnología tan potente estaba todavía a años de distancia.
“Pensé que tardaría otros diez años”, señaló Randy Read, profesor de la Universidad de Cambridge. “Esto ha sido un cambio total”.
Pero la precisión del sistema varía, por lo que algunas de las predicciones de la base de datos de DeepMind serán menos útiles que otras. Cada predicción de la base de datos viene acompañada de una “puntuación de confiabilisas” que indica la probabilidad de que sea exacta. Los investigadores de DeepMind calculan que el sistema proporciona una “buena” predicción un 95 por ciento de las veces.
Por ello, el sistema no puede sustituir completamente a los experimentos físicos. Se utiliza junto con el trabajo en la mesa de laboratorio, donde ayuda a los científicos a determinar qué experimentos deben realizar y a llenar los vacíos cuando los experimentos no tienen éxito. Gracias a AlphaFold, los investigadores de la Universidad de Colorado en Boulder recientemente identificaron una estructura proteica que les había costado más de una década distinguir.
Los desarrolladores de DeepMind han optado por compartir libremente su base de datos de estructuras de proteínas en lugar de vender el acceso, con la esperanza de estimular el progreso en las ciencias biológicas. “Nos interesa el máximo impacto”, dijo Demis Hassabis, director ejecutivo y cofundador de DeepMind, que es propiedad de la misma empresa matriz que Google, pero que funciona más como un laboratorio de investigación que como una empresa comercial.
Algunos científicos han comparado la nueva base de datos de DeepMind con el Proyecto Genoma Humano. El Proyecto Genoma Humano, concluido en 2003, proporcionó un mapa de todos los genes humanos. Ahora, DeepMind ha entregado un mapa de las aproximadamente 20.000 proteínas expresadas por el genoma humano, un paso más hacia la comprensión de cómo funciona nuestro cuerpo y cómo podemos responder cuando las cosas van mal.
La esperanza es también que la tecnología siga en evolución. Un laboratorio de la Universidad de Washington ha construido un sistema similar llamado RoseTTAFold y, al igual que DeepMind, compartió abiertamente el código informático que impulsa su sistema. Cualquiera puede utilizar la tecnología y trabajar para mejorarla.
Incluso antes de que DeepMind comenzara a compartir abiertamente su tecnología y sus datos, AlphaFold alimentaba una amplia gama de proyectos. Los investigadores de la Universidad de Colorado usan la tecnología para entender el modo en que bacterias como la E. coli y la salmonela desarrollan una resistencia a los antibióticos, y para desarrollar formas de combatir esta resistencia. En la Universidad de California, campus San Francisco, los investigadores han utilizado la herramienta para mejorar su comprensión del coronavirus.
El coronavirus causa estragos en el organismo a través de 26 proteínas diferentes. Con la ayuda de AlphaFold, los investigadores han mejorado su comprensión de una proteína clave y esperan que la tecnología pueda ayudar a aumentar su comprensión de las otras 25.
Si esto llega demasiado tarde para tener un impacto en la pandemia actual, podría ayudar a prepararse para la próxima. “Un mejor conocimiento de estas proteínas nos ayudará no solo a atacar este virus, sino también otros”, afirma Kliment Verba, uno de los investigadores de San Francisco.
Las posibilidades son innumerables. Después de que DeepMind diera a McGeehan formas para siete enzimas que podrían librar al mundo de los residuos plásticos, envió al laboratorio una lista de 93 más. “Ahora están trabajando en ellas”, dijo.
Cade Metz es corresponsal de tecnología y cubre inteligencia artificial, coches autónomos, robótica, realidad virtual y otras áreas emergentes. Antes trabajó para la revista Wired. @cademetz