«Сюита Иллиака» считается первым музыкальным произведением, сочиненным электронным компьютером. Леджарен Хиллер, преподаватель и композитор в Иллинойсском университете в Урбане-Шампейне, тщательно написал программу для Illiac I (новаторского компьютера вуза), чтобы тот сгенерировал четыре части на основе алгоритмических вероятностей. Это было в 1956 году.
Сегодня, в условиях увеличения вычислительных мощностей и развития технологий генеративного ИИ, можно всего за несколько секунд сгенерировать музыку в веб-браузере с помощью только текстовых запросов. Новые модели генеративного ИИ, такие как Suno и Udio, могут создавать впечатляющие произведения с выверенными мелодиями, гармониями и ритмами, а также с профессионально подобранным тембром. Однако эти модели, в отличие от Illiac I, обучаются на уже существующей музыке, сотворенной человеческими руками. Новая возможность генерировать музыку, пригодную для коммерческого использования, заставляет нас переосмыслить способы охраны и компенсации деятелей искусства в этой отрасли.
На фоне развития таких систем генеративного ИИ возникает принципиальный вопрос: как обеспечить справедливое отношение к деятелям искусства?
В Лаборатории аудио, музыки и ИИ (AMAAI) Сингапурского университета технологий и дизайна мы задаемся вопросом, способны ли новые модели ИИ, созданные для выявления сходства между музыкальными произведениями, предложить нам новые методы распределения роялти. Возможно, по итогам этих исследований поменяется способ компенсации творческих деятелей в музыкальной среде, где все больше доминирует ИИ.
Как мы учимся музыке: исходная нейронная сеть
ИИ-модели вдохновлены нашим мозгом, состоящим из примерно 86 млрд нейронов и связей между ними, которые называются синапсы. На протяжении жизни мы слышим десятки тысяч песен. Наш мозг подсознательно усваивает закономерности и ожидания, формируя новые синаптические связи и укрепляя существующие.
В когнитивистике этот процесс называется статистическим обучением. Чем чаще мы наблюдаем определенные закономерности (например, распространенный в западной музыке интервал чистой квинты, до – соль), тем прочнее становятся эти связи. За счет этого у нас возникают ожидания от музыки. Например, когда мы слышим диссонирующую ноту, выбивающуюся из лада, она нарушает сформировавшиеся ожидания, и мы воспринимаем ее как неправильную, неуместную.
Мы все еще не до конца понимаем эти сложные сети.
Наш мозг не хранит целые музыкальные произведения, как записи. Вместо этого в мозгу строятся нейронные пути, кодирующие закономерности и структуры в музыке. Именно за счет этих путей мы способны узнавать мелодии и гармонии и формировать ожидания от них. Когда мы напеваем себе под нос или сочиняем песню, мы не вспоминаем конкретную запись, а динамически конструируем музыку на основании усвоенных схем.
Как ИИ создает музыку
Нейросети глубокого обучения основаны на сходной идее. Искусственные нейронные сети вдохновлены человеческой биологией, в частности теорией коннекционизма, утверждающей, что знание возникает за счет усиления связей (синапсов) между обрабатывающими единицами мозга (нейронами).
В ходе обучения искусственные нейронные сети знакомятся с тысячами музыкальных произведений. Нейросети не хранят их, а изучают статистические отношения между их музыкальными элементами, как наш мозг изучает закономерности в ходе прослушивания музыки.
После обучения остается не база данных с песнями, а набор весовых параметров, кодирующих статистические пути, которые необходимы для формирования музыкальной структуры. Эти веса можно интерпретировать как силу синаптических связей в мозгу. Когда нужно генерировать музыку, сеть делает логический вывод. На основе входящих данных (зачастую текстового запроса) она берет образцы из освоенного статистического распределения, чтобы создать новые последовательности.
Однако эти наборы весов могут содержать миллиарды параметров, напоминая тем самым черный ящик (ИИ-систему с непрозрачными внутренними процессами), с трудом поддающийся интерпретации. В попытке лучше понять такие сети исследователи разработали новые методики, например SHAP (SHapley Additive exPlanations, «Суммирующие пояснения Шепли») и LRP (Layer-wise Relevance Propagation, «Послойное распространение релевантности»), но мы по-прежнему не до конца понимаем эти сложные сети.
Этичный генератор ИИ-музыки из текста
Неполное понимание связано с еще одной проблемой – недостаточной прозрачностью коммерческих систем. В Лаборатории AMAAI мы созда��и Mustango – контролируемую модель генерации музыки из текста с открытым исходным кодом, подобную MusicGen от корпорации Meta. Однако Mustango, в отличие от модели Meta, была обучена исключительно на данных Creative Commons.
Если модель обучалась на музыке Тейлор Свифт и менее известных деятелей искусства, должны ли все они получить одинаковую компенсацию?
Такая открытость нетипична для этого сектора. Коммерческие модели, например Suno и Udio, не раскрывают информацию об обучающих массивах данных и подробности о моделях. В связи с этим возникает важный вопрос о том, какие меры в области авторского права будут способствовать этичному развитию ИИ в музыкальной индустрии. О наличии проблемы свидетельствуют недавние судебные иски, например «Ассоциации звукозаписи США (RIAA) против Udio и Suno» (июнь 2024 года).
Детектор обучения ИИ-музыки
Поскольку в нейросетях, в отличие от баз данных, не хранятся использованные для обучения песни, а вырабатываются внутренние статистические закономерности, трудно определить, использовались ли конкретные музыкальные произведения для обучения модели; а поскольку ИИ-компании легко могут удалить свои обучающие данные, проводить аудиты практически невозможно.
В Лаборатории AMAAI мы ищем способы подтвердить, обучались ли модели на тех или иных песнях. С этой целью мы исследует новые методики, такие как атаки на определение членства и анализ реакции на вмешательство. Например, в последнем случае мы вносим крошечные изменения в песню и наблюдаем, как модель на них отреагирует. Если модель сильно реагирует на небольшие изменения, это указывает, что ИИ сталкивался с этой песней в ходе обучения.
Лицензирование массивов музыкальных данных для машинного обучения
На фоне развития таких систем генеративного ИИ возникает принципиальный вопрос: как обеспечить справедливое отношение к деятелям искусства? Если суды не сочтут обоснованным аргумент о том, что охраняемую авторским правом музыку можно свободно использовать для обучения музыке, потому что мы постоянно слышим музыку в окружающем мире, коммерческие системы генеративного ИИ должны будут надлежащим образом получать лицензии на массивы музыкальных данных, используемых для обучения.
Однако в отсутствие универсального стандартного механизма лицензирования это поставит небольшие стартапы и научные лаборатории в трудное положение. Без доступа к большим базам данных они столкнутся с серьезными препятствиями при обучении моделей и предоставлении исходных данных по своим весам, тем самым замедляя технологический прогресс. В отсутствие правовой определенности эти группы зачастую не готовы рисковать и подвергаться судебному преследованию. Кроме того, приобретение больших юридически чистых массивов данных, как правило, требует значительных инвестиций на первых этапах, что исключит из гонки небольшие ИТ-компании.
Музыкальная индустрия должна стремительно адаптироваться. Следует помнить о технологиях, делающих возможными этичные методы обучения.
Компенсации деятелям искусства за использование их музыки для обучения ИИ-моделей
В связи с разработкой моделей лицензирования возникают и другие вопросы. Например, если модель обучалась на хите Тейлор Свифт, а также на песнях менее известных деятелей искусства, все ли они должны получить одинаковую компенсацию? Унифицированный лицензионный сбор может оказаться несправедливым. Более справедливым вариантом может стать использование динамичного механизма, учитывающего, какой вклад каждая песня внесла в сгенерированный результат.
Если пользователь вводит запрос «напиши песню, как у Тейлор Свифт», то на выходе получит нечто похожее на музыку этой певицы. Следует ли в таком случае устанавливать автора на основании сходства и обеспечивать компенсацию деятеля искусства, музыка которого больше всего повлияла на результат? Чтобы это стало возможным, технологии должны продвинуться вперед; в частности, потребуются модели установления сходства с высокой точностью, которые помогут нам создать динамичную и справедливую модель установления авторства.
Модели эмбеддинга аудио
Принцип создания индикаторов на основе сходства можно заимствовать из сферы обработки текстов на естественном языке. Поскольку модели машинного обучения не могут взаимодействовать со словами напрямую, мы преобразуем их в векторы чисел, прежде чем передать любой модели. Этот процесс называется эмбеддингом, или векторым представлением. Векторы фактически являются многомерными координатами. Исследователи обнаружили, что уже в ранних моделях, таких как word2vec, слова, появляющиеся в сходных контекстах, имеют сходные векторные позиции, согласно гипотезе распределенной семантики.
В сфере музыки используется аналогичный процесс эмбеддинга для представления аудио. В Лаборатории AMAAI мы исследуем, как усовершенствовать эмбеддинг, чтобы создать осмысленные индикаторы музыкального сходства, учитывающие тембр, мелодию, гармонию, ритм или даже сам исходный запрос. С помощью подобных индикаторов также можно выявлять плагиат. Однако эти исследования по-прежнему сталкиваются с трудностями из-за отсутствия четких определенных правил в отношении плагиата и массивов данных.
Развитие творческих способностей человека за счет генеративной ИИ-музыки
На конференции ISMIR (Международного общества получения музыкальной информации) в 2024 году ключевые докладчики, такие как Эд Ньютон-Рекс, основатель некоммерческой компании Fairly Trained, стремящейся обеспечить получение деятелями искусства платы за обучающие данные, придали новый импульс общественному возмущению по поводу прав творцов. Выступающие призывали к созданию ИИ-инструментов, расширяющих возможности деятелей искусства, а не вытесняющих их. Вместо моделей, созданных исключительно для генерации музыки, ИИ мог бы использоваться для упрощения творческой работы композиторов, выступая в качестве партнера-коллеги, предлагая композиторам идеи по гармонизации, ускоряя процессы, заполняя короткие мелодические секции и так далее.
Как и революция, вызванная появлением iPod и потоковым вещанием музыки, происходящая сейчас революция ИИ – возможно, еще более масштабная и комплексная – заставляет музыкальную индустрию стремительно адаптироваться. При этом следует помнить о технологиях, делающих возможными прозрачность и этичные методы обучения.
Первое публичное исполнение «Сюиты Иллиака» в 1956 году вызвало большой ажиотаж. Один слушатель «предсказал будущее, лишенное человеческого творчества». Сегодняшние музыкальные модели генеративного ИИ вызвали сходное возмущение среди деятелей искусства, а также в секторе лицензирования. Но эти поразительные новые технологии также могут способствовать развитию инструментов сотрудничества, не подрывающих, а поддерживающих творческие процессы деятелей искусства, при этом обеспечивая справедливое отношение к ним.
Об авторе
Дорин Херреманс – исследователь ИИ-музыки из Бельгии, доцент в Сингапурском университете технологии и дизайна (SUTD), где она возглавляет Лабораторию аудио, музыки и ИИ (AMAAI). Г-жа Херреманс уже много лет занимается темой автоматической генерации музыки и эмоционального программирования. Ее исследования печатались в таких изданиях, как Vice Magazine, и в национальных СМИ на французском и бельгийском языках. Г-жа Херреманс участвовала в экспертной дискуссии на тему «Результаты работы ИИ: охранять или не охранять – вот в чем вопрос ИС» на Дискуссии ВОИС в ноябре 2024 года.