Investigadores de la universidad de Texas lograron convertir las gráficas de un escáner cerebral en frases completas y en textos que reproducían con gran fidelidad lo que habían oído; usa un sistema basado en GPT
- 7 minutos de lectura'
A tres sujetos les hicieron oír un podcast del New York Times y monólogos de un popular programa anglosajón mientras les escaneaban el cerebro. Con un descodificador diseñado por ellos, científicos estadounidenses lograron convertir las gráficas del escáner cerebral no solo en frases completas, sino en textos que reproducían con gran fidelidad lo que habían oído. Según sus resultados, publicados hoy en la revista científica Nature Neuroscience, este descodificador que han llamado “semántico” fue capaz también de verbalizar lo que pensaban y, aún más, lo que les pasaba por la cabeza mientras veían cine mudo.
Desde comienzos de siglo, y en especial en la última década, se han producido grandes avances en el diseño de interfaces cerebro-máquina (ICB). La mayoría buscaban que personas incapaces de hablar o de mover incluso todos sus músculos pudieran comunicarse. Pero la mayor parte de estos sistemas necesitan abrir el cráneo y colocar una serie de electrodos directamente en el cerebro. Otro enfoque, menos invasivo, se apoya en la técnica de imagen por resonancia magnética funcional (fMRI). Aquí, la interfaz acaba en un gorro lleno de electrodos que se coloca sobre la cabeza. Este gorro no registra la actividad neuronal directa, sino los cambios en el nivel de oxígeno en sangre que esta provoca. Esto planteaba problemas de resolución. Por un lado, por el acceso desde fuera y, por el otro, los cambios en aquel nivel se producen en intervalos de hasta 10 segundos y en ese lapso se pueden decir muchas palabras.
Para solventar estos problemas, un grupo de investigadores de la Universidad de Texas (Estados Unidos) se han apoyado en un sistema de inteligencia artificial que sonará familiar a muchos: GPT, el mismo en el que se apoya el bot ChatGPT. Este modelo de lenguaje, desarrollado por el laboratorio de inteligencia artificial OpenAI, usa aprendizaje profundo para generar texto. En esta investigación, lo entrenaron con las imágenes fMRI del cerebro de tres personas a las que hicieron oír 16 horas de audios de un consultorio del New York Times y del programa The Moth Radio Hour. De esta manera pudieron hacer corresponder lo que veían con su representación en la cabeza. La idea es que, cuando volvieran a oír otro texto, el sistema pudiera ir anticipándolo basándose en los patrones de lo ya aprendido.
“Se trata del GPT original, no como el nuevo [ChatGPT se apoya en la última versión de GPT, la 4]. Recopilamos una tonelada de datos y luego construimos este modelo, que predice las respuestas cerebrales a las historias”, dijo en una conferencia vía web la pasada semana Alexander Huth, neurocientífico de la universidad tejana. Con este procedimiento, el descodificador propone secuencias de palabras “y para cada una de esas palabras que pensamos que podrían venir a continuación, podemos medir lo bien que suena esa nueva secuencia y, al final, vemos si coincide con la actividad cerebral que observamos”, detalla.
A este descodificador lo han llamado semántico y con acierto. Anteriores interfaces registraban la actividad cerebral en las áreas motoras que controlan la base mecánica del habla, es decir, los movimientos de boca, laringe o lengua. “Lo que pueden descodificar es cómo la persona está tratando de mover la boca para decir algo. Nuestro sistema funciona en un nivel muy diferente. En lugar de fijarnos en el ámbito motor de bajo nivel, trabaja en el nivel de las ideas, de la semántica, del significado. Por eso no registra las palabras exactas que alguien escuchó o pronunció, sino su sentido”, explica Huth. Para esto, aunque las resonancias registraban la actividad de varias zonas cerebrales, se centraron más en las relacionadas con la audición y el lenguaje.
Una vez entrenado el modelo, los científicos lo probaron con media docena de personas que tuvieron que oír textos diferentes a los usados en el entrenamiento del sistema. La máquina descodificó las imágenes fMRI con una gran aproximación a lo que contaban las historias. Para confirmar que el ingenio operaba en el nivel semántico más que en el motor, repitieron los experimentos, pero esta vez pidiendo a los participantes que imaginaran ellos una historia y después la escribieran. Encontraron una gran correspondencia entre lo descodificado por la máquina y lo escrito por los humanos. Aún más difícil todavía, en una tercera tanda, los sujetos tuvieron que ver escenas de cine mudo. Aunque aquí el descodificador semántico falló más en las palabras concretas, seguía captando el sentido de las escenas.
El neurocientífico Christian Herff lidera la investigación en interfaces cerebro máquina en la Universidad de Maastricht (Países Bajos) y hace casi una década creó una ICB que permitió convertir en texto, letra a letra, las ondas cerebrales. Herff, que no ha participado en este nuevo ingenio, destaca la incorporación del predictor de lenguaje GPT. “Esto es realmente genial, ya que las aportaciones de GPT contienen la semántica del habla, no las propiedades articulatorias o acústicas, como se hacía en anteriores ICB”, dice. Además, añade: “Muestran que el modelo entrenado en lo que se oye puede descodificar la semántica de películas mudas y también del habla imaginada”. Este científico está “absolutamente convencido de que la información semántica se utilizará en las interfaces cerebro máquina para hablar en el futuro”.
Arnau Espinosa, neurotecnólogo de la fundación Wyss Center (Suiza), publicó el año pasado un trabajo sobre una ICB con un enfoque totalmente diferente que permitió comunicarse a un enfermo de ELA. Sobre la actual, recuerda que “sus resultados no son aplicables hoy en día a un paciente, necesitas un equipo de resonancia magnética que vale millones y que ocupa una sala de un hospital; pero lo que han conseguido no lo había logrado nadie antes”. La interfaz en la que intervino Espinosa era distinta. “Nosotros íbamos a una señal con menor resolución espacial, pero mucha resolución temporal. Fuimos capaces de saber en cada microsegundo qué neuronas se activan y entonces pudimos ir a fonemas y a cómo crear una palabra”, añade. Para Espinosa, al final habrá que combinar varios sistemas, cogiendo distintas señales. “Teóricamente, sería posible; mucho más complicado, pero posible”.
El neurobiólogo español de la Universidad de Columbia de Nueva York (Estados Unidos) Rafael Yuste lleva tiempo alertando de los peligros que comportan los avances de su propia disciplina. “Esta investigación, y el estudio de Facebook, demuestran la posibilidad de descodificar el habla usando neurotecnología no invasiva. Ya no es ciencia ficción”, opina en un correo. “Estos métodos tendrán enormes aplicaciones científicas, clínicas y comerciales, pero, al mismo tiempo, presagian la posibilidad de descifrar los procesos mentales, ya que el habla interna se usa a menudo para pensar. Este es un argumento más para la protección urgente de la privacidad mental como un derecho humano fundamental”, añade.
Anticipándose a estos temores, los autores de los experimentos quisieron comprobar si podían usar su sistema para leer la mente de otros sujetos. Por fortuna, comprobaron que el modelo entrenado con una persona no acertaba a descifrar lo que oía o veía otra. Para asegurarse, realizaron una última serie de ensayos. Esta vez pidieron a los participantes que contaran de siete en siete, pensaran y nombraran animales o se inventaran una historia en su cabeza mientras oían los relatos. Aquí, la interfaz apoyada en GPT, con toda la tecnología que lleva una máquina de resonancia magnética y todos los datos manejados por la IA, falló más que una escopeta de feria. Para los autores, esto mostraría que para leer la mente se necesita la cooperación de su dueño. Pero también advierten de que su investigación se apoyó en los patrones de media docena de personas. Quizá con los datos de decenas o centenares, el peligro, reconocen, sea real.
EL PAISOtras noticias de Inteligencia artificial
- 1
Renault Gordini modelo 2025: así sería el histórico vehículo, según la IA
- 2
Se termina el Impuesto PAIS: cuánto costará un iPhone en el exterior desde diciembre 2024
- 3
Las 5 señales que muestran que tenés una mentalidad positiva, según un análisis de IA
- 4
Fin del impuesto PAIS: del iPhone 16 al Galaxy S24 Ultra o la PlayStation 5, cómo cambia su precio para traerlos al país desde enero de 2025