Se considera que la ”Suite Illiac” es la primera pieza musical compuesta por una computadora electrónica. Lejaren Hiller, profesor y compositor de la Universidad de Illinois en Urbana-Champaign, programó minuciosamente Illiac I, la computadora pionera de la institución, para generar los cuatro movimientos de esta obra a partir de probabilidades algorítmicas. Eso ocurría en 1956.
Hoy en día, con el aumento de la potencia computacional y la tecnología de la IA generativa, se puede generar música en el navegador web tan solo con indicaciones de texto, y todo ello en cuestión de segundos. Los nuevos modelos de IA generativa, como Suno y Udio, pueden generar piezas impresionantes, con melodías, armonías y ritmos refinados, así como timbres con maestría profesional. Ahora bien, a diferencia de Illiac I, estos modelos se entrenan con música previamente escrita por manos humanas. Por consiguiente, esta nueva capacidad de generar música viable desde el punto de vista comercial nos obliga a replantearnos el modo en que la industria protege y remunera a los artistas.
Con el auge de estos sistemas de IA generativa surge una pregunta fundamental: ¿cómo podemos tratar a los artistas de manera justa?
En el Laboratorio de Audio, Música e IA (AMAAI) de la Universidad de Tecnología y Diseño de Singapur estamos estudiando si los nuevos modelos de IA diseñados para detectar similitudes entre piezas musicales podrían revelar nuevas formas de distribuir las regalías. Ante un panorama musical cada vez más dominado por la IA, esta investigación podría ayudar a transformar la forma en que se compensa a los creadores.

Cómo aprendemos música: la red neuronal original
Nuestros cerebros, formados por unos 86 000 millones de neuronas conectadas entre sí mediante unos mecanismos denominados sinapsis, son la inspiración de los modelos de IA. A lo largo de la vida, estamos expuestos a decenas de miles de canciones. Nuestros cerebros aprenden implícitamente patrones y expectativas al formar nuevas conexiones sinápticas y reforzar las que ya existen.
En las ciencias cognitivas, este proceso se conoce como aprendizaje estadístico. Cuanto más nos exponemos a determinados patrones, como el intervalo de quinta justa (do-sol) de la música occidental, más se refuerzan esas conexiones. Esto nos permite formarnos expectativas sobre la música. Por ejemplo, cuando oímos una nota disonante que no pertenece a una tonalidad, se transgreden nuestras expectativas aprendidas, lo que nos lleva a percibir esa nota como incorrecta o fuera de lugar.
Seguimos teniendo un conocimiento limitado de estas complejas redes
El cerebro no almacena piezas musicales enteras como una grabación. En lugar de ello, el cerebro crea vías neuronales que codifican patrones y estructuras musicales. Estas vías son las que nos permiten reconocer y anticipar melodías y armonías. Cuando tarareamos o componemos una canción, no estamos recordando una grabación determinada, sino construyendo música de forma dinámica a partir de patrones aprendidos.
Cómo se crea música mediante IA
Las redes de aprendizaje profundo se basan en una idea similar. Las redes neuronales artificiales se inspiran en la biología humana, en particular en la teoría del conexionismo, que postula que el conocimiento surge del fortalecimiento de las conexiones (sinapsis) entre las unidades de procesamiento del cerebro (neuronas).
Durante su entrenamiento, las redes neuronales artificiales se alimentan con miles de piezas musicales. No almacenan estas piezas, sino que aprenden la relación estadística entre sus elementos musicales, del mismo modo que nuestro cerebro aprende patrones por exposición.
Tras el entrenamiento, lo que queda no es una base de datos de canciones, sino un conjunto de parámetros ponderados (pesos) que codifican las vías estadísticas necesarias para dar forma a la estructura musical. Estos pesos pueden interpretarse como la fuerza de las sinapsis en el cerebro. Cuando llega el momento de generar música, la red realiza una inferencia. Dada una entrada, a menudo un texto con instrucciones, toma muestras de la distribución estadística aprendida para producir nuevas secuencias.
Sin embargo, estos conjuntos de pesos pueden contener miles de millones de parámetros, lo que los convierte en una especie de caja negra (un sistema de IA cuyo funcionamiento interno es opaco) difícil de interpretar. En un intento por comprender mejor estas redes, los investigadores han desarrollado nuevas técnicas como las explicaciones aditivas de Shapley (SHAP) y la propagación de relevancia por capas (LRP), si bien la comprensión de estas complejas redes sigue siendo limitada.
Generador de música de IA ética a partir de texto
Esta falta de entendimiento desemboca en otro problema, el de la falta de transparencia de los sistemas comerciales. En el Laboratorio de Audio, Música e IA hemos creado Mustango, un modelo de conversión de texto en música controlable y de código abierto, como MusicGen de Meta. Pero, a diferencia del modelo de Meta, Mustango ha sido entrenado exclusivamente con datos de Creative Commons.
Si un modelo se entrena con música de Taylor Swift y de artistas menos conocidos, ¿debería compensarse a todos los artistas por igual?
Esa transparencia no es la norma en este campo. Los modelos comerciales como Suno y Udio no han divulgado sus conjuntos de datos de entrenamiento ni los detalles de sus modelos. Esto suscita importantes cuestiones sobre cómo debemos tratar los derechos de autor para facilitar el desarrollo ético de la IA en la industria musical. Esta cuestión queda ilustrada por causas judiciales recientes como la de Recording Industry Association of America (RIAA) v. Udio y Suno (junio de 2024).
Detector de entrenamiento musical con IA
Puesto que las redes neuronales, a diferencia de las bases de datos, no almacenan canciones de entrenamiento, sino que interiorizan patrones estadísticos, resulta difícil detectar si se han utilizado determinadas piezas musicales para entrenar un modelo, y dado que las empresas de IA pueden borrar fácilmente sus datos de entrenamiento, es casi imposible realizar auditorías.
En el Laboratorio de Audio, Música e IA estamos estudiando cómo podemos ayudar a verificar si los modelos se han entrenado con canciones concretas. Para ello, estamos explorando nuevas técnicas, como los ataques de inferencia de pertenencia y el análisis de perturbación. En este último, por ejemplo, introducimos pequeños cambios en una canción y observamos cómo responde el modelo a ellos. Si el modelo reacciona de manera desproporcionada a los pequeños cambios, ello indica que la IA ha estado expuesta a esa canción durante su entrenamiento.
Concesión de licencias de conjuntos de datos musicales para el aprendizaje automático
Con el auge de estos sistemas de IA generativa surge una pregunta fundamental: ¿cómo podemos tratar a los artistas de manera justa? A menos que los tribunales consideren válido el argumento de que la música protegida por derechos de autor puede utilizarse libremente para el entrenamiento musical porque estamos rodeados de música todo el tiempo, los sistemas comerciales de IA generativa deben obtener las licencias correspondientes de los conjuntos de datos musicales que utilizan para el entrenamiento.
Sin embargo, como no existe un mecanismo universal de negociación de licencias, las empresas emergentes y los laboratorios universitarios más pequeños podrían verse en apuros. Sin acceso a grandes conjuntos de datos, se enfrentan a importantes barreras a la hora de entrenar modelos o hacer que sus ponderaciones estén disponibles en código abierto, lo que ralentiza el progreso tecnológico. A falta de claridad jurídica, estos grupos a menudo no pueden asumir el riesgo de enfrentarse a actuaciones judiciales. Además, la adquisición de grandes conjuntos de datos jurídicamente válidos suele requerir una inversión inicial considerable que impide la participación a las empresas tecnológicas más pequeñas.
La industria de la música tiene que adaptarse con rapidez. Debemos pensar en tecnologías que nos ayuden a facilitar prácticas de entrenamiento éticas
Compensar a los artistas por el uso de su música para entrenar modelos de IA
El diseño de modelos de concesión de licencias también conlleva otras cuestiones. Por ejemplo, si un modelo se entrena con una canción de éxito de Taylor Swift y con canciones de artistas menos conocidos, ¿debería compensarse a todos los artistas por igual? Una tarifa de concesión de licencias única para todos puede que no sea justa. Una opción más equitativa podría ser utilizar un mecanismo dinámico que examine en qué medida contribuye cada canción al resultado generado.
Si un usuario introduce la instrucción "crear una canción al estilo de Taylor Swift", el resultado generado será similar a la música de Taylor Swift. En este caso, ¿deberíamos considerar la atribución en función del parecido, asegurándonos de que se compensa al artista cuya música influye más significativamente en el resultado? Para que esto pueda hacerse, necesitaríamos avances técnicos, como modelos de similitud muy precisos que nos ayuden a concebir ese modelo de atribución dinámico y justo.
Modelos de vectorización de audio
El procesamiento del lenguaje natural constituye la base de este tipo de métricas basadas en la similitud. Dado que los modelos de aprendizaje automático no pueden tratar con palabras directamente, las traducimos a vectores de números antes de alimentar cualquier modelo, un proceso denominado vectorización. Estos vectores son esencialmente coordenadas multidimensionales, y los investigadores han descubierto a partir de los primeros modelos, como word2vec, que las palabras que aparecen en contextos similares tienen posiciones vectoriales similares, siguiendo la hipótesis de la semántica distribucional.
En el ámbito de la música, utilizamos un proceso de vectorización similar para representar el audio. En el Laboratorio de Audio, Música e IA estamos investigando cómo perfeccionar esas vectorizaciones para crear métricas de similitud musical con significado que puedan centrarse en el timbre, la melodía, la armonía, el ritmo o incluso la propia instrucción de entrada. Estas métricas también podrían ampliarse para detectar los plagios. No obstante, este tipo de investigación sigue siendo complicada debido a la ausencia de reglas y conjuntos de datos claramente definidos en relación con los plagios.
Potenciar la creatividad humana mediante la música generada por IA
En la conferencia de 2024 de la ISMIR (International Society for Music Information Retrieval), los discursos inaugurales, como el de Ed Newton-Rex, fundador de Fairly Trained, organización sin ánimo de lucro que intenta garantizar que se pague a los artistas por los datos de entrenamiento aportados, dieron un nuevo impulso al clamor por la defensa de los derechos de los artistas, así como a la demanda de herramientas de IA que permitan potenciar a los creadores musicales en lugar de sustituirlos. En lugar de modelos diseñados para la pura generación de música, la IA podría centrarse en mejorar el proceso creativo de los compositores al actuar como asociados colaboradores, ayudando a los compositores con ideas sobre las armonías, y acelerar los flujos de trabajo, rellenando secciones melódicas breves y otras tareas.
Al igual que sucedió con la revolución desencadenada por el iPod y la transmisión de música en continuo, la actual revolución de la IA, posiblemente mayor y más compleja, está obligando a la industria musical a adaptarse rápidamente. Al hacerlo, debemos pensar en tecnologías que puedan ayudarnos a facilitar la transparencia y las prácticas de entrenamiento éticas.
La primera interpretación pública de la "Suite Illiac" en 1956 generó mucho revuelo. Un oyente “presagió un futuro desprovisto de creatividad humana”. Los modelos actuales de música creada mediante IA generativa han causado un revuelo similar en los círculos artísticos, así como en el ámbito de la negociación de licencias. Pero estas asombrosas nuevas tecnologías también podrían propiciar el desarrollo de herramientas de colaboración que no socaven los procesos creativos de los artistas, sino que los mejoren y les garanticen un trato justo.
Acerca de la autora
Dorien Herremans es una investigadora musical belga especializada en IA y profesora asociada de la Universidad de Tecnología y Diseño de Singapur, donde dirige el Laboratorio de Audio, Música e IA (AMAAI). Herremans lleva muchos años trabajando en la generación automática de música y la computación afectiva. Sus investigaciones han sido recogidas en publicaciones como Vice Magazine y en medios de comunicación nacionales franceses y belgas. Herremans participó en la mesa redonda del Diálogo de la OMPI “Proteger o no proteger los productos de la IA, esa es la cuestión de PI” celebrado en noviembre de 2024.