En días sucesivos, OpenAI mostró como ChatGPT puede hacerse pasar por una persona, y Google cómo Gemini puede detectar posibles estafas telefónicas
- 6 minutos de lectura'
Fueron los dos anuncios del año, en términos de inteligencia artificial, y por extensión, en cómo será nuestra interacción con la tecnología en los próximos meses y años.
El lunes OpenAI presentó GPT-4o, su nuevo modelo de inteligencia artificial multimodal, el nuevo motor que estará detrás de ChatGPT. Esa palabra, “multimodal”, refiere a que entiende -y genera- texto, audio y video. Sobre el texto no hay grandes novedades (más allá de que ahora el sistema es capaz de tener en cuenta más variables; “entiende” consultas más complejas y puede generar respuestas a partir de más datos). En lo que sí llamó la atención es en su capacidad para generar una voz sintética extremadamente convincente, con múltiples alternativas de entonación, tiempos de reacción instantáneos y una fenomenal capacidad conversacional.
En uno de los muchos videos demostrativos que subió, la compañía a su sitio muestra, por ejemplo, cómo un usuario le pide a ChatGPT que haga una llamada telefónica en su nombre, y negocie con un servicio de atención al cliente un problema con una compra. El servicio de atención también es manejado, en este caso, por GPT-4o. La compañía muestra así la ductilidad de la plataforma para ambas tareas: atender clientes, y gestionar un trámite en nuestro nombre; en ambos casos el nivel de realismo que manejan las voces sintéticas es notable.
Dos GPT-4o negocian un reclamo en un servicio técnico
Otro ejemplo, que se entiende incluso si no hablamos inglés: en la demo le piden a GPT-4o que cuente un cuento, y que vaya variando el tono de voz (con más o menos emoción). Ambos videos muestran, además de la voz, la capacidad de diálogo e interacción frente a consultas nuevas, interrupciones y demás, que tiene esta nueva versión de ChatGPT.
¿Podría alguien, una persona, confundir alguna de las voces que genera GPT-4o con la de una persona de verdad? Seguramente, sobre todo en un entorno más complejo que el de los ejemplos: con ruido ambiente de la calle, hablando por teléfono mientras camina o lava los platos o tiene otras personas hablando alrededor, etcétera. Sí, las voces son demasiado prolijas, y no titubean ni usan otras muletillas sonoras, como sí lo hacía una voz sintética que Google presentó en 2018, y que apostaba a lo mismo: ser nuestro asistente telefónico.
En ese caso de 2018, la demo de la IA de Google llamaba por teléfono a una peluquería y hacía una cita en nuestro nombre, y agregaba elementos sonoros muy humanos (como hacer un sonido “mmm” con la boca cerrada como forma de afirmación sonora, etcétera).
Google Duplex en acción llamando a una peluquería y un restaurante
El servicio, reservado para usuarios de teléfonos Pixel, fue dado de baja en 2022, pero Google está lejos de haber abandonado la creación de un asistente que hable con naturalidad: en varias de las demos que mostró ayer martes, el resultado era el mismo que en los ejemplos que publicó OpenAI el lunes: un software que genera una interacción oral que puede confundirse con una persona (quizá con un tono de voz más mesurado).
Una demo de Project Astra, capaz de reconocer lo que le muestra la cámara
El deepfake de audio, multiplicado
Semejante capacidad de creación sintética de una voz, sumada a su locuacidad y su habilidad para interpretar respuestas que se salen de un guión, dejan a este tipo de desarrollos como herramientas ideales para generar una estafa telefónica (sea la de ChatGPT o de otro proveedor) si todavía hay gente que cae en el truco de darle su código de WhatsApp a alguien que dice ser de una campaña de vacunación (por las dudas: no hay que hacerlo, es una estafa; la mejor manera de evitar caer en ella es activar el segundo factor de autenticación de WhatsApp), ¿por qué no habrían de ser engañados por estas voces, tan amables, tan correctas, con tan buena dicción? Ya viene pasando con los deepfakes de audio, donde se usa una computadora para imitar la voz de otra persona: no es una ilusión.
Está claro que OpenAI considera que ambas alternativas telefónicas mostradas en la demo (atender un centro de consultas; hacer gestiones en nombre de alguien) le parecen válidas y una oportunidad de negocio; es probable que implemente alguna limitación para evitar que se use a ChatGPT para el delito; a la vez, no es para nada imposible que alguien genere un motor de calidad similar (al menos en lo sonoro) para fines oscuros.
Pero así como la tecnología se puede usar para el mal, también puede ayudar a frenarlo. Ayer martes, en la versión 2024 de su evento anual Google I/O, el gigante de las búsquedas hizo muchos anuncios en los que mostró cómo está insertando a Gemini (la cara de su inteligencia artificial generativa; el equivalente de ChatGPT) en todos sus servicios y productos, desde las búsquedas hasta Android.
Para este sistema operativo, la compañía prometió, en breve, un servicio nuevo que será capaz de monitorear una conversación telefónica (si lo autorizamos, por supuesto, y con un análisis del discurso local: los datos no se transmiten a ningún lado): ¿para qué? Para alertarnos si lo que nos están diciendo sigue algún patrón conocido de estafa (phishing o vishing, en la jerga informática) en el ejemplo que mostró la compañía el martes, alguien recibe una llamada de una persona (o una IA, claro) que dice ser del banco, que avisa que detectaron una actividad sospechosa y que ofrecen mover el dinero a una “cuenta segura”; el teléfono identifica algunos datos dichos en la conversación (el pedido del número de cuenta bancaria, el identificador de seguridad social estadounidense) que deberían mantenerse privados.
Demo del sistema anti estafa que llegará a los teléfonos Pixel de Google
La herramienta -que no será infalible, por supuesto, y que estará disponible más adelante, y por ahora para los teléfonos Pixel que fabrica Google- es optativa, y complementa otra que ya existe, la clasificación de llamadas y SMS como spam en base a reportes de los usuarios, donde la Argentina tenía un triste récord hace unos años. Y funcionará solo con llamadas telefónicas: las llamadas de WhatsApp están encriptadas, y por lo tanto solamente sus participantes pueden reconocer el audio intercambiado, lo que claramente limita su utilidad, pero es una excelente noticia: es una demostración de cómo la tecnología está habilitando nuevas formas de interacción (y de engaño), y también las herramientas necesarias para comenzar a combatirlas.