Stable Audio 3: Nuevas herramientas para generación de sonido en IA

Segun MarkTechPost (AI/ML News), Stability AI ha lanzado nuevos pesos abiertos para Stable Audio 3, un sistema de modelos de difusión latente diseñado para producir y editar audio estéreo a 44.1 kHz. Este avance permite generar contenido sonoro con mayor flexibilidad, soportando duraciones variables y ediciones mediante técnicas de relleno de datos. La tecnología se basa en modelos de difusión que aprenden a eliminar ruido gradualmente de representaciones comprimidas del audio, llamadas latentes. El sistema opera mediante pares de datos entrenados: una versión ruidosa de la señal latente y su correspondiente audio original.

El conjunto Stable Audio 3 incluye tres variantes por tamaño: pequeña, media y grande. Cada versión difiere en capacidad computacional y en la duración máxima de la salida. Los parámetros del componente de difusión transformador son exactos: la versión pequeña-música posee 459 millones de parámetros y genera contenido sonoro de hasta dos minutos, exclusivamente musical. La versión pequeña-efectos también cuenta con 459 millones de parámetros, limitada a efectos sonoros y con duración máxima de dos minutos. La versión media, con 1.400 millones de parámetros, permite generar hasta seis minutos y veinte segundos de audio, integrando música y efectos. Por su parte, la versión grande, con 2.700 millones de parámetros, también alcanza esa duración máxima y combina ambas categorías. Cada modelo incluye un autoencodador SAME (Semantically-Aligned Music autoEncoder), que transforma audio estéreo a 44.1 kHz en una representación compacta y viceversa. La relación de reducción en este componente es de 4096×, superior a los valores típicos entre 1024× y 2048× en modelos anteriores. Esta característica disminuye significativamente el tamaño de los latentes, optimizando el rendimiento sin sacrificar calidad.

Los pesos abiertos para las versiones pequeña y media están disponibles en Hugging Face, mientras que la versión grande se ofrece bajo licencia empresarial. La arquitectura se divide en dos módulos clave: el autoencodador SAME y el transformador de difusión que produce secuencias latentes basadas en texto, duración y máscaras de edición. El modelo capaz de interpretar instrucciones verbales y aplicar cambios específicos en el audio representa un salto en la interactividad de las herramientas de generación sonora.

Para los lectores peruanos, esta evolución tecnológica abre puertas a aplicaciones prácticas en el sector creativo local. Desde producción de contenido audiovisual en redes sociales hasta la generación de efectos para emisoras de radio o eventos culturales, las herramientas de IA como Stable Audio 3 pueden reducir costos operativos y acelerar el proceso de creación. Aunque aún se requieren ajustes para integrarla en entornos comerciales, su disponibilidad abierta permite que emprendedores, estudiantes y profesionales de audio exploren nuevas formas de expresión sin necesidad de infraestructura especializada. El avance demuestra que las tecnologías de inteligencia artificial ya no solo operan en sectores como la salud o la finanza, sino que también entran en el corazón de la creatividad cotidiana.