Le daba fiaca leer un texto para la facultad, así que le pidió a Leo Messi que se lo cuente en voz alta
Tenía que leer un texto para la facultad y entrenó a una herramienta de inteligencia artificial para que se lo resuman y lo lea con la voz de Lionel Messi
- 4 minutos de lectura'
“Tenía que leer este texto, pero no tenía ganas, así que hice que me lo lea Messi”, señala en su video en redes sociales Francisco Parata. La técnica suena simple. A partir de un texto del lingüista Ferdinand de Saussure (su clásico Curso de Lingüística General), primero, mediante inteligencia artificial, hizo un resumen del mismo, y luego logró que sea el capitán argentino fuera quien se lo leyera. Claro, no es realmente Leo Messi, más ocupado por estos días en la final del US Open Cup, sino una versión sintetizada de su voz, pero el resultado es excelente: incluye hasta algunas muletillas que arrastra con su acento rosarino.
Parata utilizó Endless, una herramienta que él mismo creó junto a un grupo de amigos, y que permite encadenar el funcionamiento de diferentes módulos de inteligencia artificial. “Necesitaba transcribir un video y resumir una clase de la Universidad que tenía grabada, pero todas las apps que probé para hacerlo eran malas, caras, lentas y feas; por algún motivo me pareció lógico crear mi propio sistema para hacer esto y funcionó bien, pero era muy básico, le faltaban funciones, por ejemplo poder resumir un PDF, o traducir un texto, así que hice un diagrama de cómo quería que funcione y ahí pensé: por qué no hacer una app que se vea así, un tablero infinito en donde se pueda conectar información, poder convertir cualquier cosa en cualquier cosa. El problema era que no tenía idea de cómo hacer algo tan grande y ambicioso, así que llamé unos amigos para ver cómo podríamos hacerlo”.
El video con Messi contando las sutilezas de la semiología se viralizó rápidamente, y las redes sociales se llenaron de comentarios de estudiantes pidiendo una herramienta pública que permita hacer esto para otros textos, pero usando otras voces (Lali Espósito, Moria Casán, etcétera), pese a que son cada vez más las historias que afloran de estafas tipo deepfake, donde se digitaliza la voz de alguien para hacerse pasar por esa persona.
Lo que Parata hizo con su herramienta fue armar una suerte de línea de montaje de varias herramientas a disponibles, logrando que dialoguen entre sí sin intervención, y haciendo que una tome el resultado de la anterior y lo procese (al estilo IFTT), de tal manera que se fueran pasando la tarea completada unas a otras: primero usó una herramienta de OCR para tomar las imágenes del PDF que tenía escaneado el libro de Saussure y transformarlo en texto digital (Google Docs, por ejemplo, permite hacerlo). Luego usó una app para condensar el contenido del libro (con ChatGPT, Grammarly u otro similar) y un motor de texto a voz (es decir, que lee en voz alta un texto digital; Google, Microsoft, Amazon y otros tienen varias opciones), pero entrenándola con la voz de Lionel Messi.
“La gracia de Endless es que no está diseñado para ese uso específico. Son distintas herramientas que se pueden conectar en forma dinámica según la necesidad de la persona que la usa”, le dijo Parata a LA NACION.
Microsoft, por ejemplo, tiene una herramienta (Vall-E) que puede generar una voz sintética a partir de 3 segundos de audio; Meta ofrece herramientas similares. También hay sitios como FakeYou que ya tienen voces predefinidas (se hizo conocido el año pasado por permitir usar la voz de Darth Vader o Bob Esponja), aunque hay algunos más sofisticados.
En el último tiempo surgieron algunas herramientas como las de Eleven Labs, que prometen “crear voces en off realistas para su contenido o utilice nuestro generador de voz con IA como un lector de texto fácil de usar”. La semana pasada también se viralizó otro audio de Lionel Messi, en este caso hablando en inglés en una conferencia de prensa. El creador fue el locutor Javier Fernández, quien utilizó HeyGen, una plataforma virtual que permite generar el audio de alguien pero hablando en otro idioma.