Al igual que lo que mostró Meta hace una semana, la compañía está trabajando en un motor capaz de generar un video de 5 segundos, con una animación creada enteramente por un algoritmo a partir de una frase de texto
- 2 minutos de lectura'
Google ha presentado Imagen Video, un sistema de generación de video de alta calidad a partir de texto, capaz de generar una amplia variedad de videos y animaciones en distintos estilos artísticos.
Imagen Video parte del trabajo realizado por Google en Imagen, el modelo basado en Inteligencia Artificial (IA) capaz de crear imágenes de gran realismo a partir de breves descripciones de texto que la compañía presentó en mayo.
El nuevo sistema se basa en una cascada de modelos de difusión de video y tiene capacidad para “generar videos de alta definición con alta fidelidad de fotogramas, fuerte consistencia temporal y comprensión profunda del lenguaje”, como detalla la compañía tecnológica en el texto de la investigación.
"a cat eating food out of a bowl in the style of van gogh" pic.twitter.com/BJ0lqxA1Iv
— Rachel Metz (@rachelmetz) October 5, 2022
Cómo funciona
A partir de una descripción breve en texto, este sistema genera videos de alta definición de 1280 x 768 píxeles a 24 fotogramas por segundo (fps) de unos 5,3 segundos de duración y con una densidad de 126 millones de píxeles, aproximadamente.
Para conseguir este resultado, los investigadores de Google han entrenado el sistema con una base de datos interna de 14 millones de parejas de video y texto, y 60 millones de parejas de imagen y texto. También han recurrido a la base de datos pública LAION y sus 400 millones de conjuntos de datos de imagen y texto. El procesamiento de los datos ha permitido redimensionar las imágenes y los videos y alinearlos con los textos.
Los investigadores destacan algunas de las características particulares que presenta su sistema frente a otras propuestas, como la capacidad de generar videos con distintos estilos artísticos; la comprensión de la estructura tridimensional, pese a fallar un poco en la consistencia durante la rotación de un objeto; y de generar texto animado en una diversidad de estilos.
Meta ha presentado recientemente ‘Make-A-Video’, su sistema de inteligencia artificial capaz de generar un video corto de alta calidad a partir de una descripción en texto, que se basa en la tecnología de generación de imágenes ‘Make-A-Scene’.
Europa PressOtras noticias de Inteligencia artificial
Más leídas de Tecnología
Similares a los Ray-ban de Meta. Samsung tendrá su línea de anteojos inteligentes en 2025
Cuidado. Qué significa quitar la foto de perfil en WhatsApp, según un psicólogo
Auto clásico. Cómo se vería el histórico Dodge GTX modelo 2025, según la IA
Google. Así es juego interactivo que Google le dedica a la Luna de noviembre