产权组织

人工智能时代的版权使用费:为人工智能生成的歌曲向艺术家付费

作者:Dorien Herremans新加坡科技设计大学副教授,音频、音乐与人工智能实验室(AMAAI)负责人

2025年5月6日

共享

人工智能音乐产业正在发展壮大,这引发了如何保护其作品被用于训练生成式人工智能模型的艺术家并向其付费的问题。答案是否就在模型本身?

“伊利亚克组曲"被认为是第一首由电子计算机创作的音乐作品。Lejaren Hiller是伊利诺伊大学香槟分校的教授兼作曲家,他花费巨大精力为该校的先驱计算机Illiac I编写程序,根据算法概率生成了四重奏。那是在1956年。

如今,随着算力和生成式人工智能(genAI)技术的崛起,仅通过文本提示词就可以在几秒钟内通过你的网络浏览器生成音乐。Suno和Udio等新的genAI模型可以创作出令人印象深刻的作品,具有精良的旋律、和声和节奏,以及专业的音色掌握。不过,与Illiac I不同的是,这些模型是利用人类创作的已有音乐进行训练的。因此,这种新发现的生成具有商业价值的音乐的能力要求我们重新思考该行业如何保护艺术家,并为其付酬。

随着这些genAI系统的兴起,一个基本问题也随之而来:我们该如何公平地对待艺术家?

在新加坡科技设计大学的音频、音乐和人工智能实验室(AMAAI),我们正在探索旨在检测音乐作品之间相似性的新人工智能模型能否揭示分配版权使用费的新方法。在人工智能将日益占据主导地位的音乐领域,这项研究可能有助于改变创作者获得补偿的方式。

Dorien Herremans身着白衬衫,在一间光线昏暗的房间里使用MacBook工作,她身后是垂直、均匀分布的墙板。
新加坡科技设计大学
Dorien Herremans.

我们如何学习音乐——原始神经网络

我们的大脑由约860 亿个神经元组成,这些神经元通过称为”突触“的通路连接在一起,这就是人工智能模型的灵感来源。在我们的一生中,会接触到数以万计的歌曲。我们的大脑通过形成新的突触连接和加强现有的突触连接,潜移默化地学习模式和预期。

在认知科学中,这一过程被称为统计学习。我们接触的某些模式越多,比如西方音乐中常见的纯五度音程(do-sol),这些连接就越强。这使我们能够形成对音乐的预期。例如,当我们听到一个不属于某个调式的不和谐音符时,它就会违反我们所学到的预期,导致我们认为它是错误的或不合适的。

我们对这些复杂网络的了解仍很有限

我们的大脑不会像录音一样存储整首乐曲。相反,我们的大脑会建立神经通路,对音乐中的模式和结构进行编码。正是这些通路让我们能够识别和预测旋律与和声。当我们哼唱或创作一首歌曲时,我们并不是在记忆某首特定的录音,而是在学习模式的基础上动态地构建音乐。

人工智能音乐是如何制作的

深度学习网络也基于类似的理念。人工神经网络的灵感来自于人类生物学,特别是连接主义理论,该理论认为知识是通过加强大脑处理单元(神经元)之间的连接(突触)而产生的。

在训练过程中,人工神经网络会被投喂成千上万的音乐作品。它们不会储存这些乐曲,而是学习音乐元素之间的统计关系,就像我们的大脑通过接触学习模式一样。

训练结束后留下的不是一个歌曲数据库,而是一组权重参数,这些参数编码了塑造音乐结构所需的统计路径。这些权重可以解释为类似大脑中突触的强度。当需要生成音乐时,网络就会进行推理。进行输入(通常是文本提示词),它就会从学习到的统计分布中采样,生成新的序列。

然而,这些权重集可能包含数十亿个参数,形成了一个”黑盒”(内部运作不透明的人工智能系统),难以解读。为了更好地了解这些网络,研究人员开发了SHAP(SHapley附加解释)和LRP(逐层相关性传播)等新技术,但我们对这些复杂网络的了解仍然有限。

道德的文本转化人工智能音乐生成器

这种缺乏了解的情况还导致了另一个问题:商业体系缺乏透明度。在AMAAI 实验室,我们创建了Mustango,这是一个可控的开源文本转音乐模型,类似Meta的MusicGen。但与Meta的模型不同的是,Mustango完全是根据知识共享数据进行训练的。

如果一个模型是由泰勒-斯威夫特和知名度较低的艺术家的音乐共同训练的,那么是否所有艺术家都应当获得同等补偿?

这种开放性并不是该领域的常规做法。Suno和Udio等商业模型没有公开其训练数据集和模型的具体情况。这就提出了一个重要问题,即我们应该如何处理版权问题,以促进音乐行业人工智能道德的发展。 美国唱片业协会 (RIAA) 诉Udio和Suno案(2024 年 6 月)等近期法律案件就说明了这一问题。

人工智能音乐训练探测器

由于神经网络与数据库不同,它不存储训练歌曲,而是将统计模式内化,因此很难检测特定音乐是否被用于训练模型,而且由于人工智能公司可以轻易删除训练数据,因此几乎不可能进行审计。

在AMAAI实验室,我们正在研究如何帮助验证特定歌曲是否被用于训练模型。为此,我们正在探索成员推理攻击和扰动分析等新技术。例如,在后者中,我们对歌曲进行细微改动,并观察模型对这些改动的反应。如果模型对细微变化反应强烈,则表明人工智能在训练过程中接触过这首歌曲。

许可音乐数据集用于机器学习

随着这些genAI系统的兴起,一个基本问题也随之而来:我们该如何公平地对待艺术家?除非法院认可因为我们无时无刻不在身边听到音乐,因此受版权保护的音乐可以自由用于训练音乐这一论据,否则商业genAI系统应当对其用于训练的音乐数据集适当许可。

然而,由于没有通用的标准许可机制,这将使较小的初创企业和学术实验室陷入困境。由于无法获得大型数据集,它们在训练模型或将其权重开源方面面临巨大障碍,从而延缓了技术进步。由于缺乏明确的法律规定,这些团体往往无法冒面临法律诉讼的风险。此外,获取合法的大型数据集通常需要大量的前期投资,这使得将规模较小的科技公司排除在外。

音乐产业必须迅速做出调整。我们必须牢记,技术能够帮助我们促进道德的训练做法

艺术家因使用其音乐训练人工智能模型而获得的补偿

在设计许可模式时还会遇到其他问题。例如,如果一个模型是同时用泰勒-斯威夫特的热门歌曲和知名度较低的艺术家的歌曲进行训练的,那么所有艺术家是否应该获得同等补偿?一刀切的许可费可能并不公平。一个更公平的方案是使用一种动态机制,查看每首歌对所生成的输出有多大贡献。

如果用户输入”创作一首像泰勒-斯威夫特创作的歌曲“的提示词,生成的输出将与泰勒·斯威夫特的音乐相似。在这种情况下,我们是否应该考虑根据相似性决定权利归属,确保对音乐输出影响最大的艺术家得到补偿?要做到这一点,我们需要技术进步,包括高度精确的相似性模型,以帮助我们构想这样一个动态和公平的权利归属模型。

音频嵌入模型

自然语言处理(NLP)为这种基于相似性的度量提供了基础。由于机器学习模型无法直接处理单词,因此我们在向任何模型投喂单词之前,先将其转化为数字向量,这一过程称为嵌入。这些向量本质上是多维坐标,研究人员从word2vec等早期模型中发现,根据分布式语义假设,在相似语境中出现的单词具有相似的向量位置。

在音乐领域,我们使用类似的嵌入过程来表示音频。在AMAAI 实验室,我们正在研究如何对这种嵌入进行微调,以创建有意义的音乐相似度指标,这些指标可以关注音色、旋律、和声、节奏甚至输入提示词本身。这些指标还可以扩展到检测剽窃行为。然而,由于缺乏明确界定的剽窃规则和数据集,此类研究仍具有挑战性。

通过人工智能生成音乐提高人类创造力

在2024年的ISMIR(国际音乐信息检索协会)大会上, 公平训练组织(Fairly Trained) )的创始人埃德-牛顿-雷克斯等发表了主旨发言,为关于艺术家权益的呼声增添了新动力,并呼吁开发能够赋能音乐创作者而非取代他/她们的AI工具。该组织是一家非营利组织,致力于确保艺术家为训练数据输入获得报酬。人工智能不是为纯粹的音乐生成而设计的模型,而是可以通过充当协作伙伴、协助作曲家构思和声、加快工作流程、填充短旋律部分等方式,将重点放在加强作曲家的创作过程。

与iPod 和音乐流传输引发的革命一样,正在进行的人工智能革命可以说更宏大、更复杂,它正迫使音乐产业迅速做出调整。在此过程中,我们必须牢记,技术可以帮助我们促进透明度和道德的训练做法。

1956 年,"伊利亚克组曲"的首次公开演出引起了巨大反响。一位听众 "预言未来人类的创造力将丧失"。如今的genAI 音乐模式在艺术界和许可领域也引起了类似的骚动。但是,这些令人惊叹的新技术也可以促进协作工具的开发,这些工具不仅不会削弱,反而会加强艺术家的创作过程,并确保他/她们获得公平的待遇。

关于作者

Dorien Herremans 是来自比利时的人工智能音乐研究员,也是新加坡科技设计大学(SUTD)的副教授,她领导着该校的音频、音乐和人工智能实验室(AMAAI)。Herremans 多年来一直从事自动音乐生成和情感计算研究。她的研究成果曾刊登在《Vice Magazine》等刊物以及法国和比利时的国家媒体上。在2024年11月举行的 产权组织对话会上,Herremans参加了”人工智能的输出:保护还是不保护——这是一个知识产权问题"小组讨论。