Getty Images/Igor Zhukov; Unsplash/Planet Volumes

Les redevances à l’ère de l’IA : rémunérer les artistes pour les chansons générées par l’IA

Dorien Herremans, professeure associée à l’Université de technologie et de design de Singapour, responsable du laboratoire Audio, Music and AI Lab (AMAAI)

6 mai 2025

Partager

L’industrie musicale fondée sur l’IA se développe, ce qui soulève des questions sur la manière de protéger et de rémunérer les artistes dont les œuvres sont utilisées pour entraîner des modèles d’intelligence artificielle générative. Les réponses se trouvent-elles dans les modèles eux-mêmes?

La “Suite Illiac” est considérée comme la première œuvre musicale composée par un ordinateur électronique. Lejaren Hiller, professeur et compositeur à l’Université de l’Illinois, Urbana-Champaign, a minutieusement programmé l’ordinateur révolutionnaire de l’école, l’Illiac I, pour qu’il génère quatre mouvements sur la base de probabilités algorithmiques. C’était en 1956.

Aujourd’hui, grâce à l’augmentation de la puissance de calcul et à la technologie de l’IA générative, il est possible de générer de la musique dans votre navigateur Web à l’aide de simples requêtes textuelles, en quelques secondes. Les nouveaux modèles d’IA générative tels que Suno et Udio peuvent créer des œuvres impressionnantes, avec des mélodies, des harmonies et des rythmes soignés, ainsi que des timbres maîtrisés comme par des professionnels. Cependant, contrairement à ce que faisait l’Illiac I, ces modèles sont entraînés à partir de musiques préexistantes créées par l’homme. Par conséquent, cette nouvelle capacité de générer de la musique commercialement viable nous oblige à repenser la manière dont l’industrie protège et rémunère les artistes.

L’essor de ces systèmes d’IA générative s’accompagne d’une question fondamentale : comment traiter les artistes de manière équitable?

Au laboratoire Audio, Music and AI Lab (AMAAI) de l’Université de technologie et de design de Singapour, nous cherchons à savoir si de nouveaux modèles d’IA conçus pour détecter les similitudes entre les œuvres musicales pourraient révéler de nouvelles façons de distribuer les redevances. Dans un domaine musical appelé à être de plus en plus dominé par l’IA, cette recherche pourrait contribuer à transformer le mode de rémunération des créateurs.

Dorien Herremans, vêtue d’une chemise blanche, travaille sur un MacBook dans une pièce faiblement éclairée, avec des panneaux muraux verticaux espacés de manière régulière derrière elle.
Université de technologie et de design de Singapour
Dorien Herremans.

Comment apprendre la musique – le réseau neuronal original

Notre cerveau, composé d’environ 86 milliards de neurones reliés par des voies appelées synapses, a inspiré les modèles d’IA. Tout au long de notre vie, nous entendons des dizaines de milliers de chansons. Notre cerveau assimile de manière automatique des schémas et des attentes en formant de nouvelles connexions synaptiques et en renforçant les connexions existantes.

Dans le domaine des sciences cognitives, ce processus est connu sous le nom d’apprentissage statistique. Plus nous sommes exposés à certains modèles – comme l’intervalle de quinte parfaite (do-sol) dans la musique occidentale – plus ces connexions se renforcent. Cela nous permet de former des attentes à l’égard de la musique. Par exemple, lorsque nous entendons une note dissonante qui n’appartient pas à une tonalité, elle est contraire à nos attentes acquises, ce qui nous amène à la percevoir comme erronée ou déplacée.

Notre compréhension de ces réseaux complexes reste limitée

Notre cerveau ne stocke pas des œuvres musicales entières comme un enregistrement. Au contraire, il construit des voies neuronales qui codent les schémas et les structures de la musique. Ces voies nous permettent de reconnaître et d’anticiper les mélodies et les harmonies. Lorsque nous fredonnons ou composons une chanson, nous ne nous souvenons pas d’un enregistrement donné, mais nous construisons la musique de manière dynamique sur la base de schémas acquis.

Comment l’IA fabrique-t-elle de la musique?

Les réseaux d’apprentissage profond reposent sur une idée similaire. Les réseaux neuronaux artificiels s’inspirent de la biologie humaine, notamment de la théorie du connexionnisme, qui part du principe que la connaissance émerge du renforcement des connexions (synapses) entre les unités de traitement du cerveau (neurones).

Durant l’apprentissage, les réseaux neuronaux artificiels sont alimentés par des milliers d’œuvres musicales. Ils ne mémorisent pas ces œuvres, mais apprennent plutôt les relations statistiques entre leurs éléments musicaux, un peu comme notre cerveau apprend des schémas à force de les rencontrer.

Après l’entraînement, il ne reste pas une base de données de chansons, mais un ensemble de paramètres de pondération qui codent les voies statistiques nécessaires pour façonner la structure musicale. Ces pondérations peuvent être interprétées comme la force des synapses dans le cerveau. Lorsque le moment est venu de produire de la musique, le réseau effectue une inférence. Sur la base d’une entrée (souvent une requête textuelle), il effectue un échantillonnage à partir de la distribution statistique apprise pour produire de nouvelles séquences.

Cependant, ces séries de pondérations peuvent contenir des milliards de paramètres, ce qui les rend difficiles à interpréter, à l’image d’une boîte noire (un système d’IA dont le fonctionnement interne est opaque). Afin de mieux comprendre ces réseaux, les chercheurs ont mis au point de nouvelles techniques, comme les méthodes SHAP (SHapley Additive exPlanations) et LRP (Layer-wise Relevance Propagation), mais notre compréhension de ces réseaux complexes reste limitée.

Générateur éthique de musique par l’IA à partir de texte

Cette compréhension limitée alimente un autre problème : le manque de transparence des systèmes commerciaux. Au laboratoire AMAAI, nous avons créé Mustango, un modèle libre de droits et contrôlable de conversion de texte en musique, similaire à MusicGen de Meta. Mais contrairement au modèle de Meta, Mustango a été entraîné exclusivement à partir de données relevant de licences Creative Commons.

Si un modèle a été entraîné à partir de la musique de Taylor Swift et d’artistes moins connus, tous les artistes devraient-ils être rémunérés de manière égale?

Une telle transparence n’est pas la norme dans ce domaine. Les modèles commerciaux tels que Suno et Udio n’ont pas divulgué leurs ensembles de données d’entraînement, ni les détails de leur modèle. Cela soulève des questions importantes sur la manière dont nous devrions traiter le droit d’auteur afin de faciliter le développement éthique de l’IA dans l’industrie musicale. Cette question est illustrée par des affaires judiciaires récentes telles que Recording Industry Association of America (RIAA) c. Udio et Suno (juin 2024).

Détecteur d’entraînement dans le domaine de la musique générée par l’IA

Contrairement aux bases de données, les réseaux neuronaux ne stockent pas les chansons utilisées pour l’entraînement, mais intègrent plutôt des schémas statistiques; il est donc difficile de déterminer si des œuvres musicales particulières ont été utilisées pour entraîner un modèle. De plus, comme les sociétés d’IA peuvent facilement supprimer leurs données d’entraînement, les vérifications sont pratiquement impossibles.

Au laboratoire AMAAI, nous étudions comment aider à vérifier si des modèles ont été entraînés sur des chansons particulières. Pour cela, nous explorons de nouvelles techniques telles que les attaques par inférence d’appartenance et l’analyse de perturbation. Dans ce dernier cas, par exemple, nous apportons de minuscules modifications à une chanson et observons comment le modèle y réagit. Si le modèle réagit fortement à de petits changements, cela indique que l’IA a été en contact avec cette chanson pendant son entraînement.

Licences pour les ensembles de données musicales destinés à l’apprentissage automatique

L’essor de ces systèmes d’IA générative s’accompagne d’une question fondamentale : comment traiter les artistes de manière équitable? À moins que les tribunaux ne jugent fondé l’argument selon lequel la musique protégée par le droit d’auteur peut être utilisée librement à des fins d’entraînement dans le domaine de la musique parce que nous entendons de la musique tout le temps autour de nous, les systèmes commerciaux d’IA générative devraient obtenir les licences nécessaires pour les ensembles de données musicales qu’ils utilisent à des fins d’entraînement.

Cependant, en l’absence d’un mécanisme universel de concession de licences standard, les petites start-up et les laboratoires universitaires se trouveraient dans une situation délicate. N’ayant pas accès à de grands ensembles de données, ces entités sont confrontées à des obstacles importants s’agissant d’entraîner leurs modèles ou de rendre leurs pondérations librement accessibles, ce qui ralentit les progrès technologiques. Faute de clarté juridique, ces groupes ne peuvent souvent pas prendre le risque d’être poursuivis en justice. De plus, l’acquisition de grands ensembles de données juridiquement fiables nécessite généralement un investissement initial considérable qui empêche les petites entreprises de technologie d’entreprendre ce type de démarche.

L’industrie musicale doit s’adapter rapidement. Nous devons garder en tête les technologies qui nous aident à mettre en place des pratiques d’entraînement éthiques.

Rémunération des artistes pour l’utilisation de leur musique dans l’entraînement des modèles d’IA

La création de modèles de licence soulève également d’autres questions. Par exemple, si un modèle a été entraîné à partir d’un tube de Taylor Swift et de chansons d’artistes moins connus, tous les artistes devraient-ils être rémunérés de manière égale? Un droit de licence unique pour tous n’est peut-être pas juste. Une option plus équitable pourrait consister à utiliser un mécanisme dynamique qui examine la contribution de chaque chanson au résultat généré.

Si un utilisateur saisit la requête “créer une chanson comme Taylor Swift”, le résultat généré sera similaire à la musique de Taylor Swift. Dans ce cas, faut-il privilégier l’attribution en fonction de la ressemblance, en veillant à ce que l’artiste dont la musique influence le plus la production soit rémunéré? Pour que ce soit possible, il faudrait des progrès techniques, notamment des modèles de similarité très précis qui pourraient nous aider à concevoir un modèle d’attribution dynamique et équitable.

Modèles d’intégration audio

Le traitement du langage naturel (NLP) constitue le point de départ des mesures de similarité. Comme les modèles d’apprentissage automatique ne peuvent pas traiter directement les mots, nous les traduisons en vecteurs de chiffres avant de les intégrer à un modèle, un processus appelé “encodage”. Ces vecteurs sont essentiellement des coordonnées multidimensionnelles et les chercheurs ont découvert, à partir de modèles précoces tels que word2vec, que les mots apparaissant dans des contextes similaires ont des positions vectorielles similaires, selon l’hypothèse de la sémantique distributionnelle.

Dans le domaine de la musique, nous utilisons un processus d’intégration similaire pour représenter l’audio. Au laboratoire AMAAI, nous menons des recherches sur la manière d’affiner ces intégrations afin de créer des mesures de similarité musicale exploitables, axées sur le timbre, la mélodie, l’harmonie, le rythme ou même les données d’entrée elles-mêmes. Ces mesures pourraient également être étendues pour détecter le plagiat. Cependant, ces recherches restent difficiles compte tenu de l’absence de règles clairement définies en matière de plagiat et d’ensembles de données.

Améliorer la créativité humaine grâce à l’IA générative appliquée à la musique

Lors de la conférence ISMIR (International Society for Music Information Retrieval) de 2024, des discours liminaires comme celui d’Ed Newton-Rex, fondateur de Fairly Trained, une organisation à but non lucratif qui vise à garantir que les artistes soient rémunérés pour l’apport de données d’entraînement, ont relancé le débat sur les droits des artistes et appelé à la création d’outils d’IA qui valorisent les créateurs de musique au lieu de les remplacer. Au lieu de modèles conçus pour la seule génération de musique, l’IA pourrait se concentrer sur l’amélioration du processus créatif des compositeurs, en agissant comme un partenaire collaboratif, en aidant les compositeurs à trouver des idées d’harmonisation, en accélérant les flux de travail, en complétant de courtes sections mélodiques, etc.

Tout comme la révolution déclenchée par l’iPod et la musique en continu, la révolution actuelle de l’IA, sans doute plus importante et plus complexe, oblige l’industrie musicale à s’adapter rapidement. Ce faisant, nous devons garder en tête les technologies qui peuvent nous aider à mettre en place une transparence et des pratiques d’entraînement éthiques.

La première exécution publique de la “Suite Illiac” en 1956 a suscité un grand émoi. Un auditeur “prédisait un avenir dépourvu de créativité humaine”. Les modèles actuels de création de musique par l’IA générative ont provoqué un tollé similaire dans les milieux artistiques, ainsi que dans le domaine de la concession de licences. Mais ces nouvelles technologies extraordinaires pourraient également conduire au développement d’outils collaboratifs qui, loin de nuire à la créativité des artistes, la renforcent et garantissent aux artistes une rémunération équitable.

À propos de l’autrice

Dorien Herremans est une chercheuse belge spécialisée dans la musique générée par l’IA, professeure associée à l’Université de technologie et de design de Singapour où elle est responsable du laboratoire Audio, Music and AI Lab (AMAAI) Elle travaille depuis de nombreuses années sur la génération automatique de musique et l’informatique affective. Ses recherches ont été publiées dans des revues comme Vice Magazine et dans les médias nationaux français et belges. Mme Herremans a fait partie d’un groupe d’experts sur le thème “AI Output: To Protect or Not to Protect – That Is the IP Question” lors du Dialogue de l’OMPI de novembre 2024.