Cómo las compañías tecnológicas buscan crear una voz computarizada agradable
Los desarrollos buscan que un sistema informático no suene siniestro como HAL 9000, y evalúan diferentes alternativas para emular las emociones y expresiones de los humanos
Cuando las computadoras hablan, ¿cuán humanas deben sonar? Esta fue una de las preguntas a las que un equipo de seis lingüistas, ingenieros y especialistas en marketing de IBM se enfrentó en el año 2009, cuando comenzaron a diseñar una función que convertía texto en voz para Watson, el programa de inteligencia artificial de la compañía, que juega a “Jeopardy!”.
Dieciocho meses más tarde, una voz cuidadosamente diseñada, que no sonaba precisamente humana pero tampoco como HAL 9000 en la película "2001: Odisea del espacio", le dio vida al carácter sintético de Watson en una partida muy publicitada, en la cual el programa derrotó a dos de los mejores jugadores humanos de “Jeopardy!”.
El desafío de crear una “personalidad“ computarizada es ahora un reto que enfrentan un creciente número de diseñadores de software a medida que las computadoras se hacen cada vez portátiles, y los usuarios con las manos y ojos ocupados usan cada vez más la interacción de voz.
Las máquinas están escuchando, comprendiendo y hablando, y no solo las computadoras y los smartphone (teléfonos inteligentes). Se han añadido voces a una amplia gama de objetos cotidianos como automóviles y juguetes, así como a “electrodomésticos” informáticos, como los robots familiares Pepper y Jibo, y Alexa, la voz del asistente por voz, Amazon Echo.
Está surgiendo una nueva ciencia de diseño en la búsqueda de la construcción de los que se denominan “agentes conversacionales”, programas que entienden el lenguaje natural y las formas de hablar, y pueden responder a comandos de voz humana.
Sin embargo, la creación de tales sistemas, liderada por investigadores que trabajan en un campo conocido como diseño de la interacción humano-computadora, es tanto un arte como una ciencia.
IBM Watson y el desafío Jeopardy! (en inglés)
Aún no es posible crear una voz automatizada que sea indistinguible de una voz humana para algo más que frases cortas que podrían utilizarse para pronósticos meteorológicos o con el fin de comunicar direcciones a quienes conducen.
La mayoría de los diseñadores de software reconocen que todavía se enfrentan al desafío de cruzar el “valle inquietante”, en el que las voces que son casi humanas suenan de hecho inquietantes o discordantes. La frase fue acuñada por el experto en robótica japonés Masahiro Mori, en el año 1970. Él señaló que, a medida que las animaciones gráficas se hacen más humanas, llegan a un punto en el que se hacen escalofriantes y extrañas antes de mejorar y ser indistinguibles de los videos hechos por los seres humanos.
Lo mismo vale para la voz.
“Yo lo llamaría discordante”, dijo Brian Langner, un científico de la voz, quien ocupa un alto cargo en ToyTalk, una empresa de tecnología ubicada en San Francisco que crea voces digitales para cosas tales como la muñeca Barbie. “Cuando la máquina dice algunas cosas correctamente, la gente tiende a esperar que lo va a decir todo correctamente”.
Más allá de la correcta pronunciación, existe el desafío aún mayor de incluir correctamente en la voz cualidades humanas como la inflexión y la emoción. Los lingüistas llaman a esto “prosodia”; es decir, la posibilidad de añadir el énfasis, la entonación o el sentimiento correcto en el lenguaje hablado.
Las respuestas de Cortana, el asistente virtual de Microsoft (en inglés)
Hoy en día, incluso con todos los avances, no es posible representar de forma completa la riqueza de emociones que existen en el lenguaje humano mediante la inteligencia artificial. Los primeros resultados de la investigación experimental (obtenidos mediante el empleo de algoritmos de aprendizaje automático y enormes bases de datos de emociones humanas incorporadas en el discurso) recién ahora están disponibles para los científicos de la voz.
El discurso sintetizado se crea en una variedad de maneras. Las técnicas de más alta calidad para lograr discursos que suenan naturales comienzan con una voz humana que se utiliza para generar una base de datos de partes y subpartes del discurso hablado de muchas maneras diferentes. Un actor de voz humana puede pasar desde 10 horas a cientos de horas, o más, grabando audio para cada base de datos.
La importancia y la dificultad de añadir una calidad emocional intangible puede verse en la película de ciencia ficción de 2013 Ella (Her), en la que un solitario trabajador de oficina, interpretado por Joaquin Phoenix, se enamora de Samantha, la voz artificial de un avanzado sistema operativo.
Trailer de la película Ella (Her)
La voz fue finalmente interpretada por Scarlett Johansson, después de que el director de la película, Spike Jonze, decidiera que la voz de la actriz original no transmitía la relación romántica entre humano y máquina que intentaba retratar.
Las raíces de la tecnología moderna de síntesis de voz se encuentran en el trabajo precoz del informático escocés Alan Black, quien ahora es profesor en el Instituto de Tecnologías del Lenguaje, en la Universidad Carnegie Mellon.
Black reconoce que aunque se han logrado avances importantes, los sistemas de síntesis de voz aún no han alcanzado la perfección humana. “El problema es que no tenemos un buen control sobre cómo les decimos a estos sintetizadores: ‘Dilo con sentimiento’”, dijo.
Para aquellos como los desarrolladores de ToyTalk, que diseñan personajes de entretenimiento, puede suceder que los errores no sean fatales, ya que el objetivo es entretener o incluso hacer reír a su público. Sin embargo, para los programas destinados a colaborar con seres humanos en situaciones comerciales o para aquellos que pueden llegar a ser compañeros de personas, los desafíos son más sutiles.
Estos diseñadores a menudo dicen que no quieren tratar de engañar a los seres humanos con los que las máquinas se comunican, pero de todas formas desean crear una relación humana entre el usuario y la máquina.
IBM, por ejemplo, recientemente publicó un anuncio de televisión con una conversación entre el influyente cantante y compositor Bob Dylan y el programa Watson, en el que Dylan bruscamente abandona el escenario cuando el programa intenta cantar. Resulta que Watson canta muy mal.
El comercial de IBM Watson y Bob Dylan
El anuncio expresa perfectamente el objetivo de IBM de mostrar un genio no del todo humano. Querían una voz que no fuera demasiado parecida a la humana y, por extensión, no escalofriante.
“Jeopardy!” fue un problema de síntesis de voz especialmente difícil para los investigadores de IBM porque, aunque las respuestas eran cortas, había un gran número de posibles problemas de pronunciación.
“La tasa de error, en cuanto a la correcta pronunciación de una palabra, era nuestro mayor problema”, dijo Andy Aaron, un investigador del Laboratorio de Entornos Cognitivos en IBM Research.
Varios miembros del equipo pasaron más de un año creando una gigante base de datos de pronunciaciones correctas para reducir los errores a una cifra tan próxima de cero como fuera posible. Frases como champán brut, carpe diem y sotto voce presentaron potenciales áreas de errores, haciendo así que fuera imposible seguir ciegamente las reglas de pronunciación.
Los investigadores entrevistaron a 25 actores de voz, buscando un sonido humano particular, a partir del cual construir la voz de Watson. Acotaron la búsqueda hasta la voz que les gustó más, y luego la modificaron de diversas maneras, e incluso cambiaron la frecuencia para que sonara como un niño.
“Este tipo de persona fue fuertemente rechazada por casi todo el mundo”, dijo Michael Picheny, quien es el gerente del Laboratorio Multimodal Watson de IBM Research. “No queríamos que la voz sonara híper-entusiasta”.
Los investigadores buscaron una voz artificial que fuera lenta, constante y, lo más importante, “agradable”. Y al final, ellos, actuando más como artistas que como ingenieros, afinaron el programa. La voz que lograron es claramente una computadora, pero suena optimista, incluso un poco animada.
“Una buena interfaz de computadora es una obra de arte y debe ser tratada como tal”, dijo Picheny.
A medida que la tecnología de la voz continúe mejorando, habrá nuevas, atractivas y posiblemente perturbadoras aplicaciones.
Imperson, una empresa de software con sede en Israel, que desarrolla personajes conversacionales para la industria del entretenimiento, ahora está considerando la posibilidad de incursionar en la política. La idea de Imperson es que durante una campaña, un político pueda utilizar un avatar en una plataforma de redes sociales que sea capaz de interactuar con los votantes. Un Ted Cruz o un Donald Trump que suenen plausibles podrían articular las posturas del candidato sobre cualquier tema posible.
“El público quiere tener una conversación interactiva con un candidato”, dijo Eyal Pfeifel, quien es el cofundador y Director General de tecnología de Imperson. “La gente va a entender, y no habrá ningún problema del tipo ‘valle inquietante’”.
TRADUCCIÓN DE ÁNGELA ATADÍA DE BORGHETTI