『イリアック組曲』は、コンピューターによって作曲された世界最初の音楽作品であると考えられています。イリノイ大学アーバナ・シャンペーン校で教鞭をとるLejaren Hiller教授は作曲家でもあり、同校が所有していた黎明期のコンピューター、Illiac Iに大変な苦労を重ねてプログラミングし、アルゴリズムの確率論に基づいて4つの楽章を生成しました。それは1956年のことです。
今日では、計算能力の向上と生成AI技術の進歩によって、テキストプロンプトだけで、ほんの数秒の間にWebブラウザーで音楽を生成できるようになりました。SunoやUdioなどの新しい音楽生成AIモデルを使えば、洗練されたメロディー、ハーモニー、リズム、そしてプロ並みの音色で印象的な作品を作成できます。ただし、Illiac Iと違って、このようなモデルの学習に使われるのは、人間の手によって書かれた既存の楽曲です。それゆえ、商業的に成立し得るレベルの楽曲を生成するこのような新興の技術を前に、業界は、アーティストをどのように保護して報酬を保証したらよいのか、再検討を迫られています。
このような音楽生成AIシステムの台頭は、どのようにすればアーティストを公正に処遇できるのかという根本的な問題を私たちに突きつけています。
私たちは、異なる楽曲の間の類似性を検出するために新たに設計したAIモデルを用いて、旧来とは異なる方法でロイヤルティを分配することはできないか、シンガポール工科デザイン大学のオーディオ・音楽・AIラボ (AMAAI) で研究を進めているところです。音楽環境ではますますAIの影響力が強まっていますが、この研究によって、クリエイターへの報酬の分配方法の見直しが進むかもしれません。
私たちはどのように音楽を学ぶのでしょうか – ニューラルネットワーク (神経回路網) の本来的な姿
人間の脳は、シナプスと呼ばれる経路でつながった約860億個のニューロンで構成されています。AIモデルはここから着想を得たものです。私たちは、生涯を通して何万という楽曲に触れています。そうすることで、私たちの脳内で新たなシナプス結合が形成されるとともに、既存の結合が強化され、パターンと予想を無意識のうちに学習しているのです。
このプロセスは、認知科学の世界では統計的学習として知られているものです。西洋音楽で一般的な全音階的五音音階 (ド~ソ) のような特定のパターンに触れる機会が多くなるほど、シナプス結合が強化されます。このようにして、音楽に関する予想が形成され、例えば、あるキーから外れた不協和音を聞くと、これまでに学習してきた予測に合致しないので、間違いである、あるいは不適切であると認識するようになります。
このように複雑なネットワークに関する私たちの理解は限定的なものにとどまっています
私たちの脳は、録音と違って、楽曲を丸ごと保存するわけではありません。楽曲のパターンや構成をコード化する神経経路が構築されるのです。このような経路によって、メロディーやハーモニーを認識し、予想することができるようになります。私たちがハミングをしたり、曲を作ったりするときは、特定の録音を思い出しているのではなく、習得したパターンに基づいて音楽を動的に構築しているわけです。
AI音楽はどのように作られるのでしょうか
深層学習におけるネットワークも、その原理は私たちの脳と類似しています。人工ニューラルネットワークはヒューマ��バイオロジーに着想を得たものですが、中でも特に重要なのは、コネクショニズムの理論です。これは、脳の処理ユニット (ニューロン) 間の結合 (シナプス) が強化されることから知識が形成されるという前提に立つものです。
人工ニューラルネットワークの学習には、何千もの楽曲が供給されます。これらはそのまま保存されるのではなく、楽曲を構成する要素間の統計的関係が学習されます。それはちょうど、私たちの脳が、受けた刺激をパターンとして学ぶのと同じようなものです。
学習後に蓄積されるのは、楽曲のデータベースではなく、一群の「重みパラメーター」です。これらによって、楽曲の構造を形成するために必要な統計的経路がコード化されます。それぞれの重み (ウエイト) は、脳内のシナプスの強度と同様であると考えることができます。楽曲を生成する際には、ニューラルネットワークは推論を実行します。インプット (多くの場合はテキストプロンプト) が与えられると、学習された統計分布に基づいてサンプリングして、新たなシーケンスを生成します。
ただし、これらの重みのセットには何十億ものパラメーターが含まれていることがあり、解釈困難なブラックボックス (内部の動作が不透明なAIシステム) のようになってしまいます。このようなネットワークの理解を容易にするため、SHAP (SHapley Additive exPlanations) やLRP (Layer-wise Relevance Propagation) などの新しい手法が開発されてきました。それでも、こうした複雑なネットワークに対する私たちの理解は依然として限定的なものにとどまっています。
テキストから倫理的なAI音楽を生成
ネットワークについての理解が困難なことから、商用システムの透明性が確保できないという、新たな問題が発生します。私たちは、前出のAMAAIラボでMustangoを開発しました。これは、Meta社のMusicGenと同様に、テキストプロンプトを音楽に変換できる制御可能なオープンソースのモデルです。ただし、Meta社のモデルとは異なり、Mustangoの学習においては、クリエイティブ・コモンズのライセンスを許諾されたデータのみが使用されています。
あるモデルの学習に、Taylor Swift氏と、それほど知名度の高くないアーティストの楽曲が使用された場合、報酬はすべてのアーティストに対して平等に支払われるべきでしょうか。
AI音楽の世界では、このようなオープン性は一般的ではありません。SunoやUdioなどの商業ベースのモデルでは、学習に使用されたデータセットやモデルの詳細は開示されていません。ここから、音楽業界において倫理的なAI開発を進めるに当たって、著作権をどのように扱うべきかという重要な問題が発生します。先般提起されたアメリカレコード協会 (RIAA) 対UdioおよびSuno事件 (2024年6月) などは、この問題を象徴的に示すものです。
AI音楽の学習を検出する仕組み
ニューラルネットワークは、データベースと違って、学習に使用された楽曲を保存せず、統計パターンが内部化されます。そのため、特定の楽曲が学習用に使用されたか否かを検出することが困難になります。さらに、AI企業は学習データを容易に削除できるため、監査することはほぼ不可能です。
私たちはAMAAIラボで、特定の曲がモデルの学習用に使用されたかどうかの検証に役立つ方法を検討しています。そのために、メンバーシップ推論攻撃 (membership inference attacks) や摂動解析など、新たな手法を模索しているところです。例えば後者では、曲に小さな変更を加えた場合、モデルがそれにどのように反応するかを観察します。このような微細な変化に強く反応する場合は、AIモデルの学習中にこの楽曲に触れたことが明らかになります。
機械学習用の楽曲データベースに対するライセンスの許諾
このような音楽生成AIシステムの台頭は、どのようにすればアーティストを公正に処遇できるのかという根本的な問題を私たちに突きつけています。「時間と場所を問わず音楽を聴けるようにするためならば、AIの学習用に、著作権で保護された楽曲を自由に使用してもよい」とする主張に、裁判所が意義を見出しでもしない限り、営利を目的とする生成AIシステムは、学習用に使用する楽曲のデータセットを適切にライセンスする必要があります。
ただし、共通に適用できるライセンシングの仕組みが存在しないため、小規模なスタートアップ企業や学術的なラボは厳しい状況に追い込まれるでしょう。大規模なデータセットにアクセスできなければモデルの学習に著しい支障をきたすほか、「重み」をオープンソースで利用可能にするに際しても大きな障壁が存在するので、技術進歩に遅延が生じてしまいます。法的な面でも明確性が欠如していることから、このような事業者にとって、法的措置に発展する恐れのあるリスクを取ることは、多くの場合、容易ではありません。加えて、大規模で法的問題がないデータセットの取得には、通常、小規模なテクノロジー企業には手の届かないほどの多額の先行投資を必要とします。
音楽産業は事態への適応を急がねばなりません。私たちは、どのようなテクノロジーが倫理的な学習の実践に役立つかをよく意識しておく必要があります。
AIモデルの学習用に楽曲を使用されるアーティストへの報酬
ライセンシングモデルの作成に関連する問題は、それだけではありません。例えば、あるモデルの学習に、Taylor Swift氏のヒット曲と、それほど知名度の高くないアーティストの楽曲が使用された場合、報酬はすべてのアーティストに対して平等に支払われるべきでしょうか。画一的なライセンス料は公平とは言えないかもしれません。より公平な方法があるとすれば、それは、AIが生成した作品に対するそれぞれの楽曲の貢献度を調べる動的なメカニズムを使用することでしょう。
ユーザーが「テイラー・スウィフトのような曲を作成する」というプロンプトを入力すると、生成される出力はTaylor Swift氏の音楽のようになります。この場合、生成されたアウトプットとの類似性に応じた帰属を考慮し、これに最も大きな影響を与えた楽曲のアーティストが報酬を受けられるようにすべきでしょうか。これが可能になるのは、技術的な進歩によって高精度の類似性モデルなどが開発され、このような動的で公正なアトリビューションモデルを考案できるようになるまで待たねばならないかもしれません。
音声「埋め込み」モデル
自然言語処理 (NLP) は、このような類似性に基づく測定のベースとなります。機械学習モデルは単語を直接的には処理できないため、モデルに入力する前に単語を数値ベクトルに変換します。これが「埋め込み」と呼ばれるプロセスです。このようなベクトルは基本的に多次元座標です。類似した文脈上に現れる単語が類似したベクトルポジションを有していることは、分布意味論に従って、初期のword2vecなどのモデルの頃に発見されていました。
同様の埋め込みプロセスは、音楽の分野では、音声を表現するために使用されています。AMAAIラボでは、有意な音楽的類似性の測定基準を作成するために、このような埋め込みを微調整する方法に関する研究が進められています。このような類似性の基準の策定には、音色、メロディー、ハーモニー、リズム、さらには入力プロンプト自体も考慮されています。盗作の検出を目的として、この測定基準を拡張することもできます。盗作のルールに関する明確な定義が存在しないことに加え、データセットがないことから、このような研究は依然として容易ではありません。
AIで生成された音楽で人間の創造性を育てる
2024年の国際音楽情報検索学会 (ISMIR: International Society for Music Information Retrieval) 会議では、Fairly Trainedの創設者であるEd Newton-Rex氏などによる基調講演が行われました。Fairly Trainedは、AI学習用データの入力に対してアーティストが正当な報酬を受けられるようにすることを目指す非営利団体です。これらの基調講演を受けて、アーティストの権利を求める動きが勢いを増すとともに、音楽クリエイターに取って代わるのではなく、これに力を与える存在としてのAIツールを求める声が上がりました。純粋に音楽生成を目的として設計されたモデルに代わって、AIは、作曲家の創作プロセスの強化に集中することができます。具体的には、作曲家に協力するパートナーとして、異なる音を調和させるためのアイデアを提供すること、作業の流れを加速すること、短いメロディー部を埋めることなどが挙げられます。
かつてiPodや音楽ストリーミングがもたらした革命と同様に、現在進行中のAI革命に適応することは、音楽業界にとって喫緊の課題となっています。しかも、AI革命は、これまでの革命に比べ、おそらく規模が大きく、より複雑なものなのです。こうした大きな流れに適応していくには、どのようなテクノロジーが透明性の向上と倫理的な学習の実践に役立つかをよく意識しておく必要があります。
1956年に「イリアック組曲」が初演されたときには、大変な騒動が巻き起こりました。あるリスナーは、「これは人間の創造性が全くなくなる未来の予兆だ」とまで語ったほどです。今日私たちが目にしている生成AIモデルもこれと同様に、アーティスト界だけでなく、ライセンシングの世界にも一大センセーションをもたらしています。しかし、この驚くべき新技術は、アーティストの創作プロセスを損なうのではなく、むしろこれを強化する協調ツールの開発につながっていく可能性も秘めています。つまり、このようなツールは、アーティストを公正に処遇するための手段にもなり得るのです。
著者について
Dorien Herremans氏は、ベルギー出身のAI音楽研究者で、シンガポール工科デザイン大学 (SUTD) 准教授、オーディオ・音楽・AIラボ (AMAAI) リーダーも務めています。同氏は、長年にわたり自動音楽生成とアフェクティブコンピューティングに取り組んできており、その研究成果は、Vice Magazineなどの出版物や、フランスとベルギーの全国メディアで紹介されています。また、2024年11月に開催されたWIPO Conversationフォーラムの「AIが生成する作品: 保護すべきか、保護せざるべきか–それが問題だ (AI Output: To Protect or Not to Protect - That Is the IP Question) 」と題するパネルディスカッションにパネリストとして参加しています。