Científicos argentinos proponen usar herramientas tipo ChatGPT para leer ADN y ARN en busca de mejores tratamientos para enfermedades

Un desarrollo de un grupo de científicos santafesinos propone aprovechar la capacidad de herramientas tipo ChatGPT para buscar patrones en las secuencias de ADN y ARN que permitan facilitar la creación de nuevos medicamentos o mejorar cultivos

2 de agosto de 2023
11:05
4 minutos de lectura'

Actualizado el 13 de septiembre de 2024

Un grupo de investigadores argentinos plantea que el “aprendizaje por transferencia” puede ser la solución para que los sistemas de IA, que funcionan muy bien para interpretar textos, puedan analizar los diversos patrones de secuencias biológicas para establecer relaciones entre ellos y las funciones que cumplen. La meta es desarrollar herramientas computacionales que, a futuro, permitan acelerar el descubrimiento de nuevos tratamientos contra el cáncer, vacunas, o adaptar plantas para que sean inmunes a ciertas plagasGETTY

Así como la inteligencia artificial (IA) es buena para interpretar textos del lenguaje humano, también puede entrenarse para “leer” secuencias de ADN, ARN y proteínas, lo cual podría tener implicancias en medicina y en producción agrícola, aseguran científicos argentinos.

Los sistemas de IA como ChatGPT constan, de manera simplificada, de dos grandes componentes: uno, que llevan adelante Grandes Modelos del Lenguaje (o LLM, por sus siglas en inglés), es decir, redes neuronales capaces de leer, traducir y resumir textos; y otro, que consiste en un sistema que genera una devolución a partir de lo que entiende la primera fase. Con esto en mente, un grupo de investigadores del Conicet en el Instituto de Investigación en Señales, Sistemas e Inteligencia Artificial (“sinc(i)”) de Santa Fe, que depende también de la Universidad Nacional del Litoral, busca obtener modelos que utilicen de forma más eficiente los LLM existentes, e incluso diseñar nuevos, para resolver desafíos abiertos en el campo de las secuencias biológicas.

“A diferencia de nuestro lenguaje, que tiene un orden jerárquico explícito (letras, sílabas, palabras y oraciones), el de las secuencias biológicas no es tan evidente, pero sí podemos encontrar patrones y jerarquías”, explicó a la Agencia CyTA-Leloir el doctor y bioingeniero Leandro Bugnon, autor principal de un artículo de opinión publicado en la revista Patterns. Y añadió: “Al identificar patrones en este ‘lenguaje de la vida’ podemos establecer relaciones entre ellos y las funciones biológicas que cumplen y, con esa información, se podrán acelerar los desarrollos de nuevos tratamientos médicos contra el cáncer y vacunas, o adaptar una planta para que sea inmune a ciertas plagas”.

Todos los seres vivos están codificados en un llamado “lenguaje de la vida” compuesto por secuencias biológicas de ADN, ARN y proteínas, que se pueden leer como si fuera texto a partir del listado de los 20 aminoácidos que conforman a estas últimas o de las letras que corresponden a los nucleótidos, componentes básicos del ARN (Adenina, Citosina, Guanina y Timina o Uracilo), como “AAAGCUUUG”.

“En la actualidad hay una gran cantidad de datos de secuencias biológicas generados por experimentos y centralizados en bases de datos públicas. Pero lo que suele suceder es que para resolver un problema concreto, como identificar a qué familia pertenece una nueva proteína y qué funciones cumple, se requiere de la validación de expertos del dominio, un proceso que puede llevar años. O sea, es mucho más lento que la velocidad a la que se generan los datos”, graficó Bugnon. Así, solo una poca información de toda la que se obtiene está etiquetada con referencias validadas.

Para resolver esta situación, Bugnon y sus colegas plantean el uso de un proceso que se conoce como “aprendizaje por transferencia”, según el cual los LLM pueden aprender automáticamente patrones de los datos sin etiquetado humano, a los que luego hay que adaptar a tareas específicas para las que no fueron entrenados originalmente. En este sentido, para el problema de la clasificación de proteínas en familias desarrollaron en el sinc(i) una red neuronal artificial que toma como entrada una secuencia, encuentra patrones con un LLM entrenado en grandes conjuntos de datos de proteínas, y luego aprende de estos patrones para asignar la familia que le corresponde en un conjunto de datos más pequeño, explican en el artículo.

De izq. a der.: Leandro Bugnon, Emilio Fenoy, Alejandro Edera, Jonathan Raad, Georgina Stegmayer, y Diego Milone, autores del artículo publicado en Patterns que explica cómo un ChatGPT para el ADN o el ARN permitiría avances en medicina y en cultivos.Agencia CyTA

“Al aplicar estos LLM, incluso utilizando sistemas de clasificación sencillos, logramos muy buenos resultados, con hasta un 40% menos de errores que los que obtienen otros grupos internacionales con redes neuronales más complejas”, aseguró. Y aclaró que entrenar LLM es costoso computacionalmente, ya que requiere de varios días de cómputo con equipamiento especial (“unidades de procesamiento gráfico” o GPUs de gran capacidad). “En nuestro trabajo utilizamos como punto de partida un LLM que fue liberado públicamente por Facebook Research y que es accesible para cualquiera que lo quiera usar”, dijo.

El desafío del ARN

El ARN codifica información solo con 4 letras, por lo que los patrones son menos evidentes y más difíciles de encontrar que los de las proteínas. “Estamos particularmente interesados en el ARN no codificante que, a diferencia del ARN mensajero, no se traduce en una proteína: son secuencias que se pliegan en estructuras específicas y cumplen diversas funciones biológicas”, señaló Bugnon. Y explicó que conocer esa estructura experimentalmente es muy costoso, por lo que se utilizan métodos computacionales para predecirla.

“Como existen muy pocas secuencias con estructuras conocidas, una de nuestras hipótesis de trabajo es que podemos desarrollar un LLM específico para ARN, que sería como un ChatGPT, pero para descubrir nuevas funciones en el ARN no codificante y así poder ayudar a curar enfermedades o a mejorar plantas”, finalizó Bugnon.

Agencia CyTA-Leloir

Agencia CyTA

Economía Futuria Inteligencia artificial

Conforme a los criterios de

Conocé más

Científicos argentinos proponen usar herramientas tipo ChatGPT para leer ADN y ARN en busca de mejores tratamientos para enfermedades

Un desarrollo de un grupo de científicos santafesinos propone aprovechar la capacidad de herramientas tipo ChatGPT para buscar patrones en las secuencias de ADN y ARN que permitan facilitar la creación de nuevos medicamentos o mejorar cultivos

El desafío del ARN

Temas

Otras noticias de Inteligencia artificial

Determinante. El polémico motivo por el que Arjona solo quiere ser entrevistado por la inteligencia artificial

Con una mano en el enchufe. Para el exCEO de Google hay que pensar en desconectar la IA si comienza a autogestionarse

Histórico vehículo. Así sería el Renault Gordini modelo 2025, según la IA

Los 5 hábitos que te hacen más productivo en solo una semana, según la IA

Cinco tendencias tecnológicas en las que la inteligencia artificial será protagonista en 2025

Cómo saber quién me dejó de seguir en Instagram

¿Se viene el servicio de mail de Elon Musk? El magnate lo considera una posibilidad “interesante”

Últimas Noticias

Archivos perdidos. Así podés encontrar la papelera de WhatsApp y liberar espacio en el teléfono

Look navideño. Cómo activar el “modo Papá Noel” en WhatsApp

Como parte de X. ¿Se viene el servicio de mail de Elon Musk? El magnate lo considera una posibilidad “interesante”