Así funciona la tecnología que hace posibles los "deepfakes"

13 de marzo de 2020
09:22

Actualizado el 23 de noviembre de 2023

El PaísMontse Hidalgo Pérez

En el deepfake, la cara de Bill Hader cambia a la de Tom Cruise y Seth Rogen mientras habla — El rostro de Bill Hader muta al de Tom Cruise o Seth Rogen a medida que imita sus voces y expresiones

Detrás de cada deepfake hay dos redes neuronales enfrentadas. Los populares y preocupantes videos falsos en los que famosos y políticos aparecen pronunciando palabras que nunca han dicho son fruto del trabajo en equipo: una red se inventa algo, la otra determina si la primera miente y vuelta a empezar. De ahí el nombre del sistema que conforman: redes generativas antagónicas o adversarias. En inglés, el idioma que las vio nacer, se las conoce como generative adversarial networks (GAN).

Deepfake: el rostro de Bill Hader cambia mientras imita a Tom Cruise y Seth - Fuente: YouTube

Los videos falsos y las imágenes de personas que no existen son la punta del iceberg de posibles aplicaciones que tienen estos sistemas, explica Antonio Rodríguez, arquitecto de soluciones de Amazon Web Services (AWS), en un seminario online sobre GANs organizado este miércoles por la plataforma de servicios de computación en la nube. "Tienen mucha utilidad y a medida que pasa el tiempo vemos cada vez más casos de uso", explica.

En Airbus los emplean para diseñar nuevas estructuras aerodinámicas que resulten en piezas más ligeras, seguras y de mayor rendimiento en sus aeronaves. "Son diseños y formas que no se le ocurrirían a un ingeniero normal, pero que ayudan a explorar escenarios difíciles de imaginar", asegura el experto.

El video deepfake que hacer decir a Obama cosas falsas - Fuente YouTube

A la NASA, este último detalle le viene como anillo al dedo en su programa de exploración espacial, que también integra redes generativas antagónicas en sus procesos de diseño y manufactura de piezas. "Esto es súper interesante, puesto que tienes que imaginar procesos más allá de lo que conocemos hoy en día en la industria, y los retos también que van más allá de lo que hemos visto en la actualidad. Además no hay datos históricos".

Pero las GANs no se agotan en videos, fotos y piezas de objetos volantes. También tienen hueco en el diseño de prótesis dentales, en la composición musical e incluso en la generación de escenarios de juegos de rol. Su funcionamiento se adapta a cualquier escenario en el que haya que inventar una nueva realidad a partir de una base de información dada. Arquímedes quería un punto de apoyo para mover el mundo. Las redes generativas antagónicas quieren un ejemplo para inventarlo. "Las GANs han sido para muchos el avance más grande de los últimos diez años de historia de la inteligencia artificial", asegura Rodríguez.

Policías y ladrones

La idea se le ocurrió a Ian Goodfellow, investigador experto en aprendizaje automático y actual empleado de Apple, cuando estaba en un bar con amigos: ¿Sería posible que una computadora crease fotos por sí misma? Para responder a esta pregunta, siguieron la lógica del proceso creativo del ser humano. "Cuando una persona crea o compone empieza por trazar unas líneas o tocar unas notas en un piano", precisa el experto de AWS. Una vez esbozada la idea, actuamos como nuestros propios críticos y vamos generando más bocetos hasta crear algo que nos gusta. Las redes generativas antagónicas son esa idea hecha aprendizaje automático.

El deepfake de los 'candidatos' contra la desinformación

Como casi todo en el mundo de las máquinas, la historia comienza con unos datos de entrenamiento: un vídeo, una imagen, algo de música. Esta información sirve a la primera red, la generadora, para sentar las bases de lo que debe crear. Su antagonista, la red discriminadora, le toca criticar el boceto. "Tiene que tratar de discernir si los datos que recibe son reales o artificiales", precisa el experto. "En términos de machine learning, lo que hace este juego de policía y ladrón es maximizar una variable y minimizar otra a la vez. El discriminador va aprendiendo y mejorando su habilidad para descubrir datos artificiales y el generador se reentrena para aprender a engañar cada vez mejor a ese discriminador".

En el más simple de los sentidos, la pareja compone una estructura ancestralmente conocida para el ser humano: el pez que se muerde la cola. En este caso, además, el círculo es virtuoso. A cada nuevo mordisco de su propia aleta, el pez ha aprendido de los defectos del anterior y está preparado para dar un bocado mejor.

¿Cuántos mordiscos hacen falta para alcanzar la perfección? Depende. "Como es un proceso iterativo, no sabemos hasta dónde tenemos que entrenar, no tenemos ese concepto de precisión. Uno de los grandes problemas de las GANs es saber cuándo parar", señala Rodríguez. Con la perfección como meta utópica, el experto prescribe llegar hasta el punto en que el resultado generado es suficientemente bueno para el caso de uso. Mal y pronto, hasta el punto en que la farsa da el pego, al menos, ante los ojos del crítico humano.

Por Montse Hidalgo Pérez

Conforme a los criterios de

Cargando banners ...