Cómo la tecnología de reconocimiento de voz puede mejorar la vida de millones de personas con dificultad en el habla y la audición
Entrevista a Dimitri Kanevsky, la persona que desarrolló el motor de transcripción automática de Google
- 4 minutos de lectura'
Esta semana se celebró el Día Mundial de la Audición, fecha indispensable para concientizar a la población sobre la importancia de una escucha segura para conservar la audición para toda la vida.
Dimitri Kanevsky es el cocreador de Live Transcribe, una herramienta que transcribe en tiempo real las palabras habladas a texto escrito; seguramente la usamos todos a diario, pero sin reparar lo trascendental que puede ser para quienes tienen dificultades de audición. De hecho, Kanevsky, es uno de ellos y accede a esta entrevista a través de una videollamada por Meet desde Mountain View, en California, junto con la pantalla de su celular, para poder hablar más fluidamente. Desde que tenía un año perdió por completo la audición y la tecnología se volvió, con el tiempo, una gran aliada.
El programa que usa hoy para comunicarse es Project Relate, que permite interpretar sus palabras y transcribirlas en tiempo real. No solo eso, lo ayudan a hablar mejor: “Desde que empecé a usar esta herramienta de reconocimiento de voz mi pronunciación mejoró notablemente porque puedo ver el feedback. Si la herramienta transcribe algo que digo de manera incorrecta, lo repito tratando de modificar hasta que lo comprenda” dice a LA NACION. Lo impresionante es que el matemático puede combinar esa app con Google Translate para lograr mejorar su propia pronunciación, afectada por su sordera. “También me permite pedir cosas en comercios, pedir un auto o bien empezar a hablar con una persona”, explica.
La aplicación fue presentada a fines del 2021 y está destinada a personas con discapacidad en el habla y el lenguaje. Si bien está en fase beta, no solo permite interpretar en tiempo real las palabras pronunciadas con afecciones (para las que una app de voz a texto convencional no está preparada), sino también con funciones extra como la de escuchar y repetir, además de recurrir a un asistente virtual.
Kanevsky sabe de sobra del tema y no solo por su condición, sino porque es matemático y se especializó en toda su carrera en algoritmos de reconocimiento de voz. Antes de unirse a Google, fue miembro del personal de investigación en el departamento de algoritmos de voz de IBM y trabajó en varios centros de matemáticas, como el Instituto Max Planck en Alemania y el Instituto de Estudios Avanzados en Princeton. Patentó 295 desarrollos a lo largo de su carrera, y fue honrado por la Casa Blanca, en 2012, como Campeón del Cambio por sus esfuerzos para promover el acceso a la ciencia, la tecnología, la ingeniería y las matemáticas.
Kanevsky cuenta a LA NACION que luego de recorrer el mundo científico pasó al área de tecnología para desarrollar el reconocimiento de voz y ayudar a las personas que no oyen a comunicarse. Y su sueño se cumplió: “Yo mismo podía entender a los demás y la gente podía entenderme a mí usando estas tecnologías de voz desarrolladas por Google. Este fue el cumplimiento de un sueño que tuve durante muchos años”.
La experiencia con Google comenzó en el 2014, y su primer logro fueron las aplicaciones prácticas y funcionales, como Live Transcribe y Live Caption. Esto fue integrado en múltiples aplicaciones, que permiten diferentes acciones, desde la traducción (en tiempo real o no), reconocimiento de la voz en documentos de Google (para desgrabar una entrevista o dictarle a la computadora o teléfono), pedirle cosas a Google Home o a Google Maps desde el auto o tener el subtitulado de cualquier video, entre otros.
La tecnología de reconocimiento de voz avanza a pasos agigantados. De ser una rareza pasó a ser un estándar de traducción automática en YouTube o en el teclado de Google, Gboard. Lo que vendrá, explica Kanevsky, es avanzar en el desarrollo de nuevas funciones, como un modo que permita ese subtitulado automático incluso cuando no se dispone de una conexión a internet.
El otro sueño de Kanevsky en materia de accesibilidad gracias a la tecnología es que no sea necesario tener un teléfono celular para comunicarse, que la transcripción en tiempo real pueda hacerse en dispositivos como auriculares o anteojos de realidad aumentada, tanto en el idioma que se está hablando como también tener la posibilidad de traducción y transcripción en tiempo real.
“El día mundial de la audición es una oportunidad para publicitar esta herramienta que ayuda a todos a comunicarse” enfatiza el matemático, y muestra en su cara cómo los labios se tapan, pandemia mediante, al tener el barbijo. En estos dos años las personas con discapacidades auditivas que se comunicaban a través de la lectura de los labios quedaron incomunicadas: “Con la máscara no sabés cuándo alguien empieza a hablar, y fue un cambio de vida absoluto. Esta herramienta está disponible para todo el mundo, gratis y lista para descargar y usar”, agrega Kanevsky con una sonrisa.