Adaptan el modelo de IA Stable Diffussion para generar música a partir de texto

19 de diciembre de 2022
14:51

Los desarrolladores del modelo de inteligencia artificial (IA) Stable Difussion han adaptado esta tecnología para que sea capaz de crear espectrogramas capaces de convertirse en clips de audio o música a partir de un texto.

Stable Difussion es un modelo de aprendizaje automático ('machine learning') de texto a imagen desarrollado por Stability AI, que se utiliza para generar imágenes digitales de alta calidad a partir de texto.

Dos desarrolladores llamados Seth Forsgren y Hayk Martiros han creado un proyecto llamado 'Rifussion' mediante el cual adaptan esta solución a la música. Con ella se pueden generar espectrogramas que se pueden traducir, a su vez, en clips de audio.

Tal y como explican los creadores de este proyecto en su página web, un espectrograma de audio o sonograma es una representación visual basada en conjuntos de indicaciones de texto introducidos por el usuario.

Estos sonogramas disponen de dos ejes: X, que representa el tiempo, e Y, que representa la frecuencia. El color de cada píxel de cada espectrograma de audio, en cambio es su amplitud. Precisamente es este dato el que tiene en cuenta Torchaudio, que toma la imagen generada por Stable Diffusion y la convierte en audio.

Desde Rifussion anuncian que no solo es posible generar música a partir de imágenes y texto, sino que también se permite combinar, experimentar y fusionar estilos.

Los desarrolladores han puntualizado que, en caso de disponer de una GPU lo suficiente potente, se pueden crear sonogramas con un tamaño de imágenes generadas de 512 x 512 píxeles y de cinco segundos de duración. No obstante, se pueden introducir variaciones infinitas basándose en la misma imagen original.

Rifussion incluye actualmente un generador de clips, así como indicaciones y detalles técnicos para poder utilizar esta tecnología en su página web. Además, su código está disponible en su repositorio en GitHub.

Europa Press

Adaptan el modelo de IA Stable Diffussion para generar música a partir de texto

Seguí leyendo

Polémica. Fue a comer a un restaurante con su hija, pero la echaron por la ropa que llevaba puesta

Aumento de transporte. Qué días y horarios pueden viajar gratis los jubilados y pensionados

Se supo. Qué significa el emoji del corazón con un punto abajo

Últimas Noticias

"En la Argentina hay 173 edificios LEED". Cómo impulsar la construcción sostenible a través de incentivos tributarios, técnicos y financieros

"Detestable". El Gobierno repudió los videos de Alberto Fernández junto a Tamara Pettinato en el despacho presidencial

Tras sufrir un ACV. El lingüista y activista Noam Chomsky se encuentra internado en Brasil