Es capaz de sintetizar e imitar una voz humana a partir de una grabación de tres segundos, e incluso de mantener el tono y la emotividad del audio original
- 2 minutos de lectura'
Microsoft está desarrollando VALL-E, una tecnología basada en Inteligencia Artificial (IA) que es capaz de aprender e imitar cualquier voz tomando como ejemplo una grabación de tres segundos.
La compañía tecnológica estadounidense está apostando por la implementación de las IA en sus productos y servicios. En este sentido, está trabajando en proyectos para agregar el chat desarrollado por OpenAI ChatGPT en sus buscadores y en la suite de Office.
Siguiendo esta línea, Microsoft ha presentado su proyecto de IA VALL-E, un modelo de lenguaje Text-to-Speech (TTS, o texto-a-voz, por las siglas en inglés) que sintetiza el texto para transformarlo en voz. Lo novedoso de esta tecnología es su capacidad de aprendizaje en contexto que, mediante grabaciones de audio de tan solo tres segundos, es capaz de imitar las voces de estas grabaciones.
Es decir, tal y como explica Microsoft en documento compartido en GitHub, VALL-E puede sintetizar voces personalizadas de “alta calidad” con una grabación registrada de tres segundos de un hablante. Sus desarrolladores también señalan que las muestras tomadas sugieren que VALL-E podría “preservar la emoción del hablante y el entorno acústico del mensaje”.
La compañía ha subrayado que esta tecnología supera “significativamente” a otros sistemas de TTS en cuanto a la naturalidad del habla y a la similitud con el hablante. Durante la etapa previa al entrenamiento, los desarrolladores escalaron los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que, según han explicado, es “cientos de veces” más grande que los sistemas existentes.
Asimismo, otra novedad de esta tecnología es que está siendo desarrollada para funcionar con “otros modelos generativos de IA”, como es GPT-3. Esta característica ofrece posibilidades de integrar VALL-E en otras tecnologías como ChatGPT. De esta forma, esta IA también podría ofrecer resultados de voz además de texto.
Europa PressOtras noticias de Inteligencia artificial
- 1
Renault Gordini modelo 2025: así sería el histórico vehículo, según la IA
- 2
Histórico: China repavimentó casi 160 km de autopista con máquinas autónomas
- 3
El truco que pocos saben de X: así se pueden generar fotos de Messi, Maradona o Milei
- 4
Las 5 señales que muestran que tenés una mentalidad positiva, según un análisis de IA