Odio sacar el celular por la calle. Más odio interrumpir mi caminata para interactuar con una pantalla. Es por esto que la combinación de auriculares inalámbricos y el asistente digital de mi teléfono lentamente cambiaron la forma en que usaba el teléfono fuera de casa. Alcanza con invocarlo para pedirle que llame a alguien, que ponga cierta música o que me recuerde hacer algo más tarde. Lentamente fui aprendiendo a "hablar en robot".
Está clarísimo que la apuesta por los asistentes digitales y las interfaces de voz nunca fue más alta. Google hizo alarde de sus despliegues hace algunas semanas, Apple trata de mantener vigente a Siri y aunque Amazon se jacta de dominar el mercado, también enfrenta su propia cuota de controversias. La competencia, cuyos participantes toman la forma de parlantes, relojes despertadores e incluso autos, es por acaparar los espacios que habitamos.
Las interfaces de voz —que hacen posible decirle comandos a una computadora y que esta los ejecute correctamente— pueden ser realmente impresionantes cuando funcionan. Hay algo particularmente difícil de describir, sin apelar al imaginario de la ciencia ficción, en el poder llegar a casa y decirle a la computadora que ponga la música que queremos, suba la calefacción y prenda las luces. El problema es que aparte de eso es bastante poco lo que hoy pueden hacer.
Justamente, el próximo gran desafío para el desarrollo de los asistentes digitales es pasar de la ejecución de comandos hiper-específicos a un funcionamiento más bien conversacional. Hace apenas unos días Google habilitó, tímidamente, la posibilidad de pedirle dos o tres comandos hilados a su asistente y ya no por separado, y Amazon está ofreciendo un premio de 3,5 millones de dólares a quien logre hacer que Alexa pueda conversar durante 20 minutos seguidos.
Los desarrolladores, por su lado, parecerían estar condenados a descubrir una, y otra, y otra vez que conversar con una máquina no es para nada fácil. Como comentan los participantes del desafío Alexa del año pasado, puestas a conversar, las computadoras tienen una irrefrenable tendencia no sólo a fallar sino a directamente meter la pata.
Durante las Fiestas, contaba Elizabeth Clark, una de las desarrolladoras del equipo ganador del año pasado, los usuarios de Alexa querían hablar de la Navidad y, sistemáticamente, su programa terminaba respondiendo que "Papá Noel era la mentira más elaborada alguna vez contada". Esto no sería tan grave si no fueran justamente niños quienes estaban más impacientes por hablar de Papá Noel. Nunca es una buena forma de pasar la víspera de Navidad consolando a un niño de 3 años por algo que le dijo un robot.
Uno de los ingredientes indispensables del machine learning, el subcampo de la inteligencia artificial que se dedica a lograr que las máquinas "aprendan" habilidades, es el suministro de ejemplos de los que aprender. En el caso de este grupo habían usado Reddit, ni más ni menos, para aprender chistes.
También de Reddit había salido el comportamiento racista de Norman, otro peculiar experimento, que a su vez nos recuerda a Microsoft que luego de poner a su propio experimento a aprender de Twitter en menos de 24 horas tuvo que apagar a su bot parlanchín por la naturaleza racista y xenófoba de sus comentarios. Quizá en los manuales de ciencias de la computación debería indicarse que entrenar algoritmos con redes sociales no es tan buena idea.
Una forma de sintetizar el problema es que hay demasiado que las máquinas no conocen acerca del mundo, y no conocemos una forma trivial de enseñárselo. Como dice James Vincent de The Verge, "no arruines la Navidad a los niños pequeños" no parece ser una regla fácilmente traducible a código.
El problema no es nuevo y ha generado cientos de miles de dolores de cabeza durante décadas. El filósofo Hubert Dreyfus, conocido como uno de los primeros grandes críticos a la ingenuidad en el campo de la inteligencia artificial y autor de What Computers Can’t Do (Lo que las computadoras no pueden hacer, 1972), en una simpática entrevista en 1998 ya lo resumía como el desafío del sentido común.
La anécdota que cuenta Dreyfus es la de un joven Eugene Charniak, otro pionero en el procesamiento de lenguaje natural, que quería lograr un programa con la inteligencia de un niño de 4 años. Para comprobar dicha inteligencia, el programa debía poder responder el mismo tipo de cosas que un niño luego de escuchar una sencilla historia.
La historia, por ejemplo, podía ser algo así: era el cumpleaños de Juan. María y Tomás iban a ir a lo de Juan. "Podemos regalarle una pelota", dice María. "No, ya tiene una", dice Tomás. "Te va a decir que la devuelvas."
Lo interesante, dice Dreyfus, es que aunque no esté dicho explícitamente un niño puede reconocer que están yendo a su fiesta de cumpleaños y que la pelota es su regalo. El programa puede reconocer esto si contempla el marco o contexto de una fiesta de cumpleaños. Pero ahí es cuando se vuelve complicado: ¿qué es lo que debe devolver?
Superficialmente se interpreta que lo que debe devolver es la vieja pelota, la que ya tiene. Pero cualquier chico de 4 años sabe que uno no devuelve una pelota vieja a una tienda. Debemos agregar una regla: si ya tenemos algo, no queremos otra cosa igual. No sólo la regla no parece ser universal sino que necesitamos algo más: no puede devolverse algo viejo a una tienda. ¿A qué contextos pertenecerían esas reglas?
Este tipo de problemas son lo que hacen al desafío del sentido común. El acercamiento a través de reglas explícitas es un infierno de complejidad si queremos que nuestro programa pueda hablar de cualquier cosa; y para los competidores por el millonario premio de Alexa se trata de un desafío más bien concreto. Es por esto que los chatbots más exitosos en la actualidad tratan de llevar la conversación hacia ámbitos en los que sí puedan desenvolverse.
Lo que se procura lograr es una mezcla entre lo abierto de una conversación cualquiera y lo reglado de una acerca de un tema específico, para la que pueden incorporarse reglas bien claras. Un gran ejemplo es lo que procura Google con Duplex: se incorporó muchísimo conocimiento sobre conversaciones acerca de un tema en particular (reservas) con desenlaces más bien claros (hacer la reserva o no hacerla), condimentado con detalles para hacer el intercambio más llevadero, aunque no por eso menos controversial.
La suma de estas interfaces de voz a la ubicuidad de nuestros asistentes digitales, siempre disponibles en nuestros auriculares, pinta un panorama tan interesante como vertiginoso. Si los auriculares se impusieron como la marca de nuestra aislación, de nuestra separación con el mundo, el hecho de que a través de ellos vivamos conectados al sinfín de posibilidades que Amazon, Google o Apple nos ofrecen parecería implicar exactamente lo contrario.
Por el momento, las profundas conversaciones se nos hacen distantes, pero esto no parece ser realmente un problema. Quizá, parafraseando a Chuck Palahniuk, cuando le hablamos a la máquina solo queremos escucharnos a nosotros mismos. O, más probablemente, sólo queremos que haga lo que le decimos.
Otras noticias de Inteligencia artificial
Más leídas de Tecnología
En enero. ChatGPT prepara una función clave para transformarse en un verdadero asistente
Clave. Los trucos de WhatsApp más sencillos, prácticos y desconocidos que deberías aprender
Para que el trabajo se distinga del resto. Ahora es más fácil sumar una imagen creada por IA a Google Docs
Para fanáticos. Cómo activar el “modo Merlina Addams” en WhatsApp