De tu boca a tu pantalla: la transcripción es la nueva meta de las compañías tecnológicas

20 de octubre de 2019
00:30

Actualizado el 13 de septiembre de 2024

The New York TimesJohn Markoff

Otter.ai es una de las compañías que prometen resolver el problema de las transcripciones de las grabaciones, conversaciones y entrevistas

LOS ALTOS, California. — Sam Liang extraña a su madre y desea poder recapturar las cosas que ella le dijo cuando estaba en la escuela secundaria.

"Realmente la extraño", relató respecto de su muerte en 2001. "Esos fueron momentos de la vida muy preciados".

Liang, quien es el jefe ejecutivo y co-fundador de Otter.ai, una nueva empresa en Silicon Valley, se ha propuesto hacer algo sobre este tema en el futuro. Su compañía ofrece un servicio de transcripción de voz automática que exhibe una elevada precisión y que está adquiriendo popularidad entre los periodistas, estudiantes, podcasters y trabajadores de empresas.

Las mejoras en la tecnología de los softwares han hecho posible la transcripción de voz automática. Al captar una vasta cantidad de palabras humanas, los programas de redes neuronales pueden ser entrenados para reconocer el lenguaje hablado con tasas de precisión que, en las mejores circunstancias, se acercan al 95%. Junto con el costo en baja de almacenar datos, ahora es posible usar el lenguaje humano de maneras que eran impensables hace apenas algunos años.

Liang, un ingeniero eléctrico educado en Stanford, que fue miembro del equipo original que diseñó Google Maps, dijo que la compresión de datos había hecho posible captar las conversaciones que tendría una persona en toda su vida en solo dos terabytes de información — lo que es lo suficientemente compacto como para almacenar en dispositivos que cuestan menos de $50.

Las rápidas mejorías en la tecnología para el reconocimiento del habla, que en la última década ha dado lugar a los asistentes virtuales de voz como Siri, de Apple, Alexa, de Amazon, Google Voice, Microsoft Cortana y otros, se están extendiendo a nuevas áreas que están comenzando a tener un significativo impacto en los lugares de trabajo.

Estos portales dedicados al reconocimiento de la voz ya han ocasionado grandes preocupaciones respecto de la privacidad. "Las computadoras tienen una capacidad mucho mayor para organizar, acceder y evaluar las comunicaciones humanas que las personas mismas," dijo Marc Rotenberg, presidente y director ejecutivo del Centro de Información sobre la Privacidad Electrónica (Electronic Privacy Information Center, en idioma inglés), ubicado en Washington. En 2015, el grupo presentó un reclamo en la Comisión Federal de Comercio (Federal Trade Commission, en idioma inglés) en contra de Samsung, argumentando que la captura y el almacenamiento de conversaciones por parte de sus televisores inteligentes era una nueva amenaza a la privacidad. La transcripción del habla potencialmente traslada las preocupaciones sobre la privacidad a nuevas áreas, tanto en el hogar como en el trabajo, dijo.

Yun Fu y Sam Liang, cofundadores de Otter.ai, la start-up que permite realizar transcripciones de forma automática con una precisión del 95 por ciento

Y es casi seguro que planteará nuevas preguntas sobre la privacidad para las compañías. Liang aseguró que las compañías estaban interesadas en capturar todas las conversaciones de los empleados, incluso lo que sucede alrededor de la máquina enfriadora de agua.

"Este es el poder de esta nueva base de conocimiento para la empresa", señaló. "Reconocen que las personas pasan tantas horas todos los días en reuniones que quieren entender cómo se mueven las ideas y cómo las personas realmente se comunican entre sí".

Los rápidos avances realizados en el mercado de la transcripción automatizada de la voz en el último año muestran un sorprendente potencial a corto plazo en una creciente gama de nuevas aplicaciones. Este otoño (boreal), por ejemplo, en la Universidad de California, Los Ángeles, los estudiantes en el campus que requieren asistencia para tomar notas, como aquellos con problemas de audición, están siendo equipados con el servicio Otter.ai. El sistema está diseñado para reemplazar el proceso actual de toma de notas, donde otros estudiantes toman notas durante las clases y luego las comparten.

En mayo, cuando la ex primera dama, Michelle Obama, visitó el campus como parte de la celebración de ingreso de los estudiantes a la universidad, los alumnos sordos recibieron el acceso a la transcripción instantánea de su discurso, el cual fue generado por el servicio de transcripción.

Zoom, un fabricante de un sistema de videoconferencia basado en la web, ofrece una opción de transcripción de voz impulsada por Otter.ai que permite capturar instantáneamente una transcripción de una reunión de negocios que se puede almacenar y buscar en línea. Una de las características que ofrece Otter.ai y otras compañías es la capacidad de separar fácilmente y luego etiquetar diferentes oradores en una sola transcripción.

Empresas como Rev, que se inició en 2010 con trabajadores temporarios para ofrecer transcripción por $ 1 por minuto, ofrecen un servicio adicional de transcripción automática de voz por 10 centavos por minuto. Como resultado, la transcripción está expandiéndose a una variedad de nuevas áreas, que incluyen los subtítulos para canales de YouTube, videos de capacitación corporativa y empresas de investigación de mercado que necesitan transcripciones de grupos focales.

El sistema Rev permite al cliente elegir si desea tener más precisión o solo una devolución más rápida a un costo menor, dijo Jason Chicola, fundador y director ejecutivo de la compañía. Cada vez más, sus clientes corregirán los textos generados por computadora en lugar de transcribirlos desde cero. Él señaló que si bien Rev tenía 40.000 transcriptores humanos, no creía que la transcripción automática diezmaría su fuerza laboral. "Los humanos y las máquinas trabajarán juntos en el futuro previsible", dijo.

Una vista de Descript, uno de los software de transcripción que permite editar audio como si fuera un texto

Sin embargo, las tecnologías relacionadas con la voz están teniendo un innegable impacto sobre la estructura de las compañías.

"Tenemos chatbots que se ejecutan en vivo en producción y están desviando muchos casos de servicio", dijo Richard Socher, quien es el científico jefe de Salesforce, una compañía de software basada en la nube. "En grandes organizaciones de servicios, con miles de personas, si puedes automatizar el 5% de las solicitudes de restablecimiento de contraseña, eso ya es un gran impacto en esa organización".

En el campo de la medicina, la transcripción automática se está utilizando para cambiar la forma en que los médicos toman notas. En los últimos años, los sistemas electrónicos de registro de la salud se convirtieron en parte de la visita de rutina al consultorio, y los médicos fueron criticados por mirar sus pantallas y escribir en lugar de mantener el contacto visual con los pacientes. Ahora, varias empresas de salud nuevas ofrecen servicios de transcripción que capturan texto y potencialmente video en la sala donde se realiza el examen y utilizan un transcriptor humano remoto, o un escriba, para editar el texto automatizado y producir un conjunto de notas "estructuradas" de la visita del paciente.

Una de las compañías, Robin Healthcare, con sede en Berkeley, California, registra las visitas al consultorio mediante un sistema automatizado de transcripción del habla que luego es registrado por "escribas" humanos que trabajan en Estados Unidos, según Noah Auerhahn, el jefe ejecutivo de la compañía. La mayoría de los escribas son estudiantes de medicina que escuchan la conversación del médico y luego producen un registro completo dentro de las dos horas posteriores a la visita del paciente. El sistema Robin Healthcare se está utilizando en la Universidad de California, en San Francisco y en la Universidad de Duke.

Un competidor, DeepScribe, también con sede en Berkeley, adopta un enfoque más automatizado para generar registros de salud electrónicos. La firma utiliza varios motores de voz de grandes compañías tecnológicas como Google e IBM para grabar la conversación y crea un resumen del examen que es revisado por un ser humano. Al confiar más en la automatización del habla, DeepScribe puede ofrecer un servicio menos costoso, dijo Akilesh Bapu, el director ejecutivo de la compañía.

En el pasado, la transcripción del habla humana se ha limitado en gran medida a los campos legales y médicos. Este año, el costo de la transcripción automatizada se ha derrumbado a medida que las empresas rivales han competido por acceder a un mercado en rápido crecimiento. Compañías como Otter.ai y Descript, una nueva empresa rival con sede en San Francisco, fundada por el creador de Groupon, Andrew Mason, están regalando servicios básicos de transcripción y se está centrando en cobrar por suscripciones que ofrecen características mejoradas.

Un ejemplo de esta nueva funcionalidad es un anuncio que Descript hizo en septiembre de un servicio basado en la web destinado a permitir a los podcasters editar audio y video tal como editarían texto en un procesador de textos. En el pasado, la edición de audio y video requería habilidades y software especiales. Ahora, Descript espera abrir la edición de audio y video a una audiencia más general, dijo Mason.

"La transcripción automática se estaba volviendo lo suficientemente precisa y barata como para que sea realmente utilizable", afirmó. "Pensamos: ¡Dios! ¿No sería genial construir un editor de audio que funcione como un procesador de texto? Planteamos esta idea a algunos de nuestros amigos productores, y todos dijeron: ‘Bueno… Sí, tuvimos esa idea hace 20 años, ¿cuándo van a hacer eso?’"

Los científicos del habla hacen hincapié en que, si bien los sistemas de transcripción automatizados han sido mejorados significativamente, todavía están lejos de ser perfectos. Si bien la transcripción automática puede obtener una precisión del 95%, esto solo es posible en las mejores circunstancias. Un acento, un micrófono mal colocado o un ruido de fondo pueden hacer que la precisión disminuya.

Para el futuro, se espera que aparezca otra tecnología de este tipo, conocida como procesamiento del lenguaje natural, que trate de captar el significado de las palabras y de las oraciones que incrementen la precisión de la computadora a niveles humanos. Pero, por ahora, esto continúa siendo una de las fronteras más desafiantes en el campo de la inteligencia artificial .

Christopher Manning, un científico informático de la Universidad de Stanford que se especializa en el procesamiento de lenguaje natural, abordó el tema durante un reciente discurso en San José, California.

"Todavía hay tantas cosas que hacen los seres humanos y que las computadoras no pueden hacer, que estoy absolutamente seguro de que no tendré que hallar un nuevo campo de trabajo antes de jubilarme", señaló.

Traducción de Ángela Atadía de Borghetti

Por John Markoff

Economía Futuria Inteligencia artificial

Conforme a los criterios de