Getty Images/Igor Zhukov; Unsplash/Planet Volumes

Royalties na era da IA: remuneração de artistas por músicas geradas pela IA

Dorien Herremans, professora associada e responsável pelo Laboratório de Áudio, Música e IA (AMAAI) da Universidade de Tecnologia e Design de Singapura

6 de Maio de 2025

Partilhar

O crescente recurso à inteligência artificial no setor musical vem suscitando questões sobre a proteção e a remuneração dos artistas cujas obras são usadas para treinar os modelos de IA generativa. Será que os próprios modelos podem trazer a solução ao problema?

“Illiac Suite” é considerada a primeira peça musical composta por computador. Lejaren Hiller, compositor e professor da Universidade de Illinois Urbana-Champaign, nos EUA, programou minuciosamente o computador da universidade, o pioneiro Illiac I, para gerar quatro movimentos musicais a partir de probabilidades algorítmicas. Isso se deu nos idos de 1956.

Hoje, com o aumento do poder de cálculo dos computadores e o advento da tecnologia de IA generativa (genAI), você consegue gerar músicas com seu navegador habitual usando unicamente comandos de texto (prompts, em inglês) – e isso, em questão de segundos. Novos modelos de IA generativa, como Suno e Udio, são capazes de criar peças impressionantes, com melodias, harmonias e ritmos requintados, além de timbres masterizados de nível profissional. No entanto, diferentemente do Illiac I, esses modelos são treinados com músicas preexistentes, compostas por seres humanos. Por isso, esse novo recurso de geração de músicas comercialmente viáveis nos obriga a refletir sobre como a indústria deve proteger e remunerar os artistas.

O advento dos sistemas de IA generativa suscita uma questão fundamental: como tratar os artistas de maneira justa?

No Laboratório de Áudio, Música e IA (AMAAI) da Universidade de Tecnologia e Design de Singapura, buscamos determinar se novos modelos de IA criados para detectar semelhanças entre peças musicais poderiam proporcionar novas maneiras de distribuir royalties. Num cenário musical que tende a ser cada vez mais dominado pela IA, essa pesquisa talvez ajude a mudar a maneira de remunerar os criadores e as criadoras.

Dorien Herremans, de camisa branca, trabalhando em um MacBook, numa sala pouco iluminada, com painéis verticais espaçados uniformemente atrás dela.
Universidade de Tecnologia e Design de Singapura
Dorien Herremans

Como aprendemos música: a rede neural original

Composto por cerca de 86 bilhões de neurônios conectados por “pontos de contato” denominados sinapses, o cérebro humano foi a fonte de inspiração para os modelos de IA. Ao longo da vida, o ser humano é exposto a milhares de músicas. Nosso cérebro aprende implicitamente padrões e expectativas, formando novas conexões sinápticas e fortalecendo as já existentes.

Em ciência cognitiva, esse processo é denominado aprendizagem estatística. Quanto mais o ser humano é exposto a certos padrões – como o intervalo de quinta justa, de dó a sol, comum na música ocidental – mais fortes se tornam essas conexões. Isso nos torna capazes de criar expectativas sobre a música. Por exemplo, quando ouvimos uma nota dissonante, que não pertence a determinada tonalidade, ela contradiz nossas expectativas, fazendo com que a consideremos errada ou inadequada.

Nossa compreensão dessas redes complexas ainda é limitada

Nosso cérebro não armazena peças musicais inteiras, como se fosse uma gravação. Em vez disso, constrói pontos de contato neurais que codificam padrões e estruturas presentes na música. Esses pontos de contato nos permitem reconhecer e antecipar melodias e harmonias. Quando cantarolamos ou compomos, não estamos relembrando determinada gravação, mas construindo a música de maneira dinâmica, com base nos padrões aprendidos.

Como criar música com a IA

As redes de “deep learning” (aprendizado profundo) funcionam de maneira semelhante. As redes neurais artificiais se inspiram na biologia humana, principalmente na teoria do conexionismo, cujo postulado é que o conhecimento emerge do fortalecimento das conexões (sinapses) entre as unidades de processamento do cérebro (neurônios).

Durante o treinamento, as redes neurais artificiais são alimentadas com milhares de peças musicais. Essas peças não são armazenadas. As redes aprendem a relação estatística entre seus elementos musicais, do mesmo modo que nosso cérebro aprende padrões por meio da exposição aos sons.

Ao final do treinamento, não obtemos um banco de dados musical, mas um conjunto de parâmetros de peso que codificam os pontos de contato estatísticos necessários para formar a estrutura musical. Esses pesos podem ser interpretados como a força das sinapses no cérebro. No momento de gerar música, a rede faz a inferência. A partir de uma entrada – geralmente um comando de texto – a rede examina a distribuição estatística aprendida para produzir novas sequências.

No entanto, esses conjuntos de pesos podem conter bilhões de parâmetros, o que os transforma numa autêntica “caixa preta” (sistema de IA cujo funcionamento interno é obscuro) que é difícil de interpretar. Com o intuito de entender melhor essas redes, os pesquisadores desenvolveram novas técnicas, como a SHAP (SHapley Additive exPlanations) e a LRP (Layer-wise Relevance Propagation), mas nossa compreensão dessas redes complexas ainda é limitada.

Gerador ético de música criada por IA a partir de texto

A essa incompreensão se adiciona outro problema: a ausência de transparência nos sistemas comerciais. No Laboratório AMAAI, criamos o Mustango, um modelo de transformação de texto em música controlável e de código aberto, parecido com o MusicGen da Meta, mas treinado exclusivamente com dados do Creative Commons.

Se o modelo tiver sido treinado com músicas de Taylor Swift e de artistas menos conhecidos, todos devem ser remunerados da mesma forma?

O código aberto não é a norma nessa área. Modelos comerciais, como Suno e Udio, não divulgam os dados utilizados para treinamento, nem os detalhes de seus modelos. Isto traz à tona questões importantes sobre como devemos tratar os direitos autorais para favorecer o desenvolvimento de uma IA ética no setor musical. O problema é ilustrado por processos recentes, como o movido pela associação da indústria fonográfica dos EUA (RIAA, na sigla em inglês): Recording Industry Association of America vs. Udio e Suno (junho de 2024).

Detector de música usada para treinamento de IA

Como as redes neurais – diferentemente dos bancos de dados – não armazenam as músicas usadas para treinamento, mas internalizam padrões estatísticos, é difícil determinar se certas músicas foram usadas para treinar um modelo. Além disso, como as empresas de IA podem apagar facilmente seus dados de treinamento, as auditorias são praticamente impossíveis.

No Laboratório AMAAI, buscamos maneiras de verificar se os modelos foram treinados com determinadas músicas. Para isso, empregamos novas técnicas, como ataques de inferência de associação e análise de perturbação. Nesta última, por exemplo, fazemos pequenas mudanças numa música e observamos como o modelo reage. Reações fortes, indicam que a IA foi exposta a essa música durante o treinamento.

Licenciamento de conjuntos de dados musicais para aprendizado de máquina

O advento dos sistemas de IA generativa suscita uma questão fundamental: como tratar os artistas de maneira justa? A menos que os tribunais considerem válida a argumentação de que músicas protegidas por direitos autorais podem ser usadas livremente para treinar modelos de IA, já que as ouvimos em todo lugar e a qualquer hora, os sistemas comerciais de IA generativa devem obter licenças para usar os conjuntos de dados musicais em seu treinamento.

Mas como não existe um mecanismo universal padronizado de licenciamento, as pequenas startups e os laboratórios acadêmicos ficam numa situação difícil. Sem acesso a grandes conjuntos de dados, eles enfrentam grandes dificuldades para treinar modelos ou disponibilizar seus pesos como código aberto, o que acaba retardando o progresso tecnológico. A falta de clareza jurídica em relação a tais questões faz com que essas entidades mais frágeis evitem correr o risco de fazer face a processos judiciais. Além disso, a aquisição de grandes conjuntos de dados juridicamente seguros geralmente exige um investimento inicial considerável, o que exclui as empresas de tecnologia de pequeno porte.

O setor musical precisa se adaptar rapidamente. Devemos refletir sobre tecnologias que nos ajudem a favorecer práticas éticas de treinamento.

Remuneração dos artistas pelo uso de suas músicas no treinamento de modelos de IA

Existem também outras questões relativas à criação de modelos de licenciamento. Por exemplo, se o modelo tiver sido treinado com hits de Taylor Swift e músicas de artistas menos conhecidos, todos devem ser remunerados da mesma forma? Uma taxa única de licenciamento talvez não seja a solução. Uma opção mais equitativa poderia ser o uso de um mecanismo dinâmico que estabeleça o quanto cada música contribui para a obra gerada pela IA.

Se o usuário digitar o comando “criar uma música com o estilo de Taylor Swift”, o resultado gerado será semelhante às composições da artista. Nesse caso, deveríamos atribuir a influência em função da semelhança, garantindo que o ou a artista cuja música influenciou mais significativamente o resultado final seja remunerado(a)? Para que isso seja possível, precisamos de avanços técnicos, incluindo modelos de similaridade extremamente precisos que possam nos ajudar a conceber um modelo de atribuição dinâmico e justo.

Modelos de incorporação de áudio

O Processamento de Linguagem Natural (PLN) fornece a base para esses indicadores de similaridade. Como os modelos de aprendizado de máquina são incapazes de trabalhar diretamente com palavras, nós as traduzimos em vetores numéricos antes de alimentar os modelos, num processo denominado “embedding”, ou incorporação em português. Os vetores são basicamente coordenadas multidimensionais. Ao estudar modelos pioneiros, como o word2vec, pesquisadores perceberam que em contextos semelhantes as palavras ocupam posições vetoriais semelhantes, de acordo com a hipótese da semântica distribucional.

Na área musical, usamos um processo de incorporação semelhante para representar o áudio. No Laboratório AMAAI, pesquisamos maneiras de fazer a sintonia fina dessas incorporações a fim de criar indicadores de similaridade musical úteis, capazes de se concentrar em timbre, melodia, harmonia, ritmo e até mesmo no próprio comando digitado. A capacidade desses indicadores pode ser ampliada para detectar plágio. No entanto, essa pesquisa ainda enfrenta dificuldades devido à ausência de regras e conjuntos de dados claramente definidos para identificação de plágio.

Como aumentar a criatividade humana graças à IA generativa aplicada à música

Na conferência ISMIR 2024 (International Society for Music Information Retrieval – Sociedade Internacional de Recuperação de Informações Musicais), palestras como a de Ed Newton-Rex, fundador da organização sem fins lucrativos Fairly Trained (Treinado de maneira justa), cujo objetivo é garantir que os artistas sejam remunerados pelas músicas de sua autoria utilizadas para treinamento de modelos, reforçaram o clamor pelos direitos dos artistas e pela necessidade de ferramentas de IA que empoderem os criadores musicais, ao invés de substituí-los. Em vez de modelos concebidos somente para gerar música, a IA poderia ser direcionada para o aprimoramento do processo criativo dos compositores, e atuar como uma colaboradora, fornecer ideias para a harmonização, acelerar fluxos de trabalho, preencher fragmentos melódicos curtos e muito mais.

Do mesmo modo que a revolução deflagrada pelo iPod e pelo streaming musical, a atual revolução da IA, que é provavelmente ainda mais abrangente e complexa, obriga a indústria musical a se adaptar rapidamente. Nesse processo, devemos refletir sobre tecnologias que nos ajudem a favorecer práticas éticas de treinamento.

A primeira apresentação pública da “Illiac Suite”, em 1956, causou grande controvérsia. Um espectador chegou a prever um futuro desprovido de criatividade humana. Atualmente, os modelos de IA generativa aplicados à música causam reações semelhantes, tanto no meio artístico quanto na seara do licenciamento. Mas essas novas tecnologias fascinantes também podem contribuir para o desenvolvimento de ferramentas colaborativas que, em vez de prejudicar, aprimorem os processos criativos dos artistas e garantam que sejam remunerados de maneira justa.

Sobre a autora

Dorien Herremans é uma pesquisadora belga especializada em IA aplicada à música e professora associada da Universidade de Tecnologia e Design de Singapura (SUTD), onde é responsável pelo Laboratório de Áudio, Música e IA (AMAAI). Herremans vem trabalhando há vários anos nas áreas de geração automática de música e computação afetiva. Suas pesquisas já foram publicadas na revista Vice e em mídias francesas e belgas, entre outras. Em novembro de 2024, a pesquisadora participou de um painel no fórum WIPO Conversation, abordando o tema: “AI Output: To Protect or Not to Protect – That Is the IP Question” (Conteúdo gerado por IA: proteger ou não proteger, eis a questão da PI).