تعتبر مقطوعة "إلياك سويت" أول مقطوعة موسيقية ألفها حاسوب إلكتروني. برمج ليجارين هيلر، وهو أستاذ ومؤلف موسيقي في جامعة إلينوي أوربانا شامبين، حاسوب المدرسة الرائد "Illiac I" بعد عناء طويل ليتمكن من توليد أربع حركات موسيقية بناءً على احتمالات خوارزمية. وكان ذلك في عام 1956.
أما اليوم، ومع ازدياد قدرات الحوسبة وتكنولوجيا الذكاء الاصطناعي التوليدي (genAI)، أصبح من الممكن توليد الموسيقى في متصفح الويب الخاص بكم، باستخدام الأوامر النصية فحسب، وفي غضون ثوانٍ معدودة. يمكن لنماذج الذكاء الاصطناعي التوليدي الجديدة مثل Suno وUdio إنشاء مقطوعات موسيقية مدهشة، بألحان وتناغمات وإيقاعات مصقولة، وأوزان متقنة بشكل احترافي. ولكن، على عكس نموذج Illiac I، تُدرَّب النماذج الجديدة باستخدام موسيقى موجودة سلفاً كتبتها أيدي البشر. لذلك، تتطلب منا هذه القدرة الجديدة على توليد موسيقى قابلة للاستخدام التجاري أن نعيد التفكير في كيفية حماية صناعة الموسيقى ومكافأة الفنانين.
مع انتشار أنظمة الذكاء الاصطناعي التوليدي هذه، يتبادر إلى الذهن سؤال أساسي: كيف نضمن معاملة الفنانين بإنصاف؟
في مختبر الصوت والموسيقى والذكاء الاصطناعي (AMAAI) في جامعة سنغافورة للتكنولوجيا والتصميم، نستكشف ما إذا كانت نماذج الذكاء الاصطناعي الجديدة المصممة لاكتشاف أوجه التشابه بين المقطوعات الموسيقية قادرة على اكتشاف طرق جديدة لتوزيع الإتاوات. في مشهد موسيقي يتجه نحو الهيمنة المتزايدة للذكاء الاصطناعي، يمكن أن يساعد هذا البحث في تغيير كيفية مكافأة المبدعين.
كيف نتعلم الموسيقى: الشبكة العصبية الأصلية
أدمغتنا، التي تتكون من حوالي 86 مليار خلية عصبية متصلة بمسارات تسمى المشابك العصبية، هي مصدر إلهام لنماذج الذكاء الاصطناعي. وطوال حياتنا، نستمع إلى عشرات الآلاف من الأغاني. وتتعلم أدمغتنا ضمنياً الأنماط والاتجاهات من خلال تكوين وصلات عصبية جديدة وتقوية الوصلات القائمة.
وفي العلوم الإدراكية، تُعرف هذه العملية باسم التعلم الإحصائي. وكلما تعرضنا أكثر لأنماط معينة مثل دائرة الخماسيات (دو-سول) الشائعة في الموسيقى الغربية، كلما أصبحت هذه الروابط أقوى. وهذا يمكننا من تكوين توقعات عن الموسيقى. على سبيل المثال، عندما نسمع نغمة متنافرة لا تنتمي إلى مفتاح ما، فإنها تنتهك توقعاتنا المكتسبة، مما يدفعنا إلى إدراك أنها خاطئة أو في غير مكانها.
ويبقى فهمنا لهذه الشبكات المعقدة محدوداً،
إذ لا تخزن أدمغتنا مقطوعات موسيقية كاملة مثل الأسطوانات. وبدلاً من ذلك، تبني أدمغتنا مسارات عصبية تشفّر الأنماط والتراكيب الموسيقية. وهذه المسارات هي التي تسمح لنا بالتعرف على الألحان والتناغمات واستباقها. عندما ندندن أو نؤلف أغنية، فإننا لا نتذكر تسجيلاً بعينه، بل نؤلف الموسيقى بشكل ديناميكي بناءً على الأنماط المكتسبة.
كيف تُصنع موسيقى الذكاء الاصطناعي
تعتمد شبكات التعلم العميق على فكرة مماثلة. تُستوحى الشبكات العصبية الاصطناعية من علم الأحياء البشري، لا سيما نظرية الاتصال، التي تفترض أن المعرفة تنبثق من تقوية الروابط (نقاط الاشتباك العصبي) بين وحدات المعالجة (الخلايا العصبية) في الدماغ.
أثناء عملية التدريب، تتلقى الشبكات العصبية الاصطناعية آلاف المقطوعات الموسيقية. وهي لا تخزن هذه المقطوعات، بل تتعلم العلاقات الإحصائية القائمة بين عناصرها الموسيقية، مثلما تتعلم أدمغتنا الأنماط من خلال التعرض لها.
بعد انتهاء التدريب، ما يتبقى ليس قاعدة بيانات للأغاني بل مجموعة من المعايير الترجيحية التي ترمز إلى المسارات الإحصائية اللازمة لتشكيل البنية الموسيقية. ويمكن تفسير هذه الترجيحات على أنها قوة نقاط الاشتباك العصبي في الدماغ. وعندما يحين وقت توليد الموسيقى، تقوم الشبكة بعملية الاستدلال. وعند تلقيها لمدخلات غالباً ما تكون عبارة عن أمر نصي، تقوم الشبكة بأخذ عينات من التوزيع الإحصائي المكتسب لإنتاج تسلسلات جديدة.
ولكن، قد تحتوي هذه المجموعات الترجيحية على مليارات المعايير، مما يجعلها أشبه بصندوق أسود (نظام ذكاء اصطناعي يصعب تفسيره من الداخل). وفي محاولة لفهم هذه الشبكات بشكل أفضل، طوّر الباحثون تقنيات جديدة مثلSHAP (SHapley Additive exPlanations) و LRP (Layer-wise Relevance Propagation)، ولكن فهمنا لهذه الشبكات المعقدة لا يزال محدوداً.
مولد الموسيقى بالذكاء الاصطناعي أخلاقياً باستخدام الأوامر النصية
افتقارنا إلى الفهم يفاقم مشكلة أخرى: انعدام الشفافية في الأنظمة التجارية. في مختبر AMAAI، أنشأنا نموذج Mustango، وهو نموذج لتحويل النصوص إلى موسيقى مفتوح المصدر يمكن التحكم فيه مثل نموذج شركة ميتا: ميوزيك جين. ولكن على عكس نموذج ميتا، جرى تدريب Mustango حصرياً على بيانات المشاع الإبداعي.
إذا كان النموذج قد دُرِّب على موسيقى تايلور سويفت وفنانين أقل شهرة، فهل يجب مكافأة جميع الفنانين على قدم المساواة؟
هذه الدرجة من الانفتاح ليست أمراً معتاداً في هذا المجال. فلم تكشف النماذج التجارية مثل Suno وUdio عن مجموعات بيانات التدريب الخاصة بها، ولا عن تفاصيل نماذجها. ويثير هذا تساؤلات مهمة بشأن كيفية التعامل مع حق المؤلف لتسهيل التطوير الأخلاقي للذكاء الاصطناعي في مجال الموسيقى. وتتضح هذه المسألة من خلال الدعاوى القضائية الأخيرة مثل قضية جمعية صناعة التسجيلات الأمريكية (RIAA) ضد Udio وSuno (يونيو 2024).
كاشف الموسيقى المستخدمة في تدريب الذكاء الاصطناعي
نظراً لأن الشبكات العصبية - على عكس قواعد البيانات - لا تخزن الأغاني المستخدمة في التدريب بل تستوعب الأنماط الإحصائية فحسب، فمن الصعب اكتشاف ما إذا كانت قطع موسيقية معينة قد استُخدمت لتدريب نموذج ما، ولأن شركات الذكاء الاصطناعي يمكنها بسهولة حذف بيانات التدريب التي استخدمتها، فإن عمليات التدقيق تكاد تكون مستحيلة.
في مختبر AMAAI، نبحث في كيفية المساعدة في التحقق مما إذا كانت النماذج قد دُرِّبت على أغانٍ معينة. لهذا، نستكشف تقنيات جديدة مثل هجمات استدلال العضوية وتحليل الاضطراب. في هذا الأخير، على سبيل المثال، نقوم بإجراء تغييرات صغيرة على أغنية ما ونلاحظ كيفية استجابة النموذج لها. إذا تفاعل النموذج بقوة مع التغييرات الطفيفة، فهذا يشير إلى أن الذكاء الاصطناعي قد تعرض لهذه الأغنية أثناء تدريبه.
ترخيص مجموعات بيانات الموسيقى للتعلم الآلي
مع انتشار أنظمة الذكاء الاصطناعي التوليدي هذه، يتبادر إلى الذهن سؤال أساسي: كيف نضمن معاملة الفنانين بإنصاف؟ ما دامت المحاكم لم تقبل بعد بحجة أنه يمكن استخدام الموسيقى المحمية بموجب حق المؤلف بحرية لتدريب الذكاء الاصطناعي الذي ينتج الموسيقى لأننا نسمع الموسيقى من حولنا طوال الوقت، يجب على أنظمة الذكاء الاصطناعي التوليدي التجارية ترخيص مجموعات البيانات الموسيقية التي تستخدمها للتدريب كما يجب.
ولكن، نظرًا لعدم وجود آلية ترخيص قياسية عالمية، فإن هذا من شأنه أن يترك الشركات الناشئة الصغيرة والمختبرات الأكاديمية في مأزق. وبدون الوصول إلى مجموعات البيانات الكبيرة، تواجه هذه الشركات والمختبرات عوائق جسيمة في تدريب النماذج أو إتاحة ترجيحاتها لتكون مفتوحة المصدر، مما يؤدي إلى إبطاء سرعة التقدم التكنولوجي. وفي ظل غياب الوضوح القانوني، لا تستطيع هذه الجهات في كثير من الأحيان المخاطرة بالتعرض لإجراءات قانونية. بالإضافة إلى ذلك، يتطلب الحصول على مجموعات بيانات كبيرة وسليمة من الناحية القانونية عادةً نوعاً من الاستثمار المسبق الضخم الذي يحول دون مشاركة شركات التكنولوجيا الأصغر حجماً.
ويجب أن تتكيف صناعة الموسيقى بسرعة. يجب أن نضع في الاعتبار التقنيات التي تساعدنا على تسهيل ممارسات التدريب الأخلاقية
حصول الفنانين على مقابل لاستخدام موسيقاهم في تدريب نماذج الذكاء الاصطناعي
وتأتي أسئلة أخرى مع تصميم نماذج الترخيص أيضاً. على سبيل المثال، إذا تم تدريب نموذج ما على أغنية ناجحة لتايلور سويفت بالإضافة إلى أغاني لفنانين أقل شهرة، فهل يجب مكافأة جميع الفنانين بالتساوي؟ قد لا تكون رسوم الترخيص الموحدة عادلة. يمكن أن يكون الخيار الأكثر إنصافاً هو استخدام آلية متغيرة تنظر في مقدار مساهمة كل أغنية في المحتوى الناتج.
إذا قام المستخدم بإدخال عبارة "أنشئ أغنية على غرار تايلور سويفت"، فسيكون الإصدار الناتج مشابهاً لموسيقى تايلور سويفت. في هذه الحالة، هل ينبغي لنا أن نفكر في العزو بحسب التشابه، بما يضمن حصول الفنان الذي تؤثر موسيقاه بشكل كبير على الموسيقى المولدة على مستحقاته؟ لكي يكون هذا الأمر ممكناً، سنحتاج إلى تطورات تقنية، بما في ذلك استخدام نماذج تشابه عالية الدقة يمكن أن تساعدنا في تصور نموذج عزو ديناميكي وعادل كهذا.
نماذج تضمين الصوت
توفر معالجة اللغة الطبيعية (NLP) الأساس لمثل هذه المقاييس القائمة على التشابه. وبما أن نماذج التعلم الآلي لا يمكنها التعامل مع الكلمات مباشرة، فإننا نترجمها إلى نواقل من الأرقام قبل إدخالها إلى أي نموذج، وهي عملية تسمى التضمين. هذه النواقل هي في الأساس إحداثيات متعددة الأبعاد، وقد اكتشف الباحثون من النماذج المبكرة مثل word2vec أن الكلمات التي تظهر في سياقات متشابهة لها مواضع ناقلات متشابهة، وذلك باتباع فرضية الدلالة الموزعة.
في مجال الموسيقى، نستخدم عملية تضمين مماثلة لتمثيل الصوت. في مختبر AMAAI، نبحث عن كيفية ضبط مثل هذه التضمينات لإنشاء مقاييس تشابه موسيقية مجدية يمكن أن تركز على النغمة أو اللحن أو الانسجام أو الإيقاع أو حتى على المدخلات نفسها. يمكن أيضًا توسيع نطاق هذه المقاييس للكشف عن عمليات انتحال المؤلفات الموسيقية. ومع ذلك، تظل مثل هذه الأبحاث صعبة بسبب عدم وجود قواعد ومجموعات بيانات واضحة المعالم عن عمليات الانتحال.
تعزيز الإبداع البشري من خلال موسيقى الذكاء الاصطناعي التوليدي
في مؤتمر الجمعية الدولية لاسترجاع المعلومات الموسيقية لعام 2024، أضافت الخطابات الرئيسية مثل تلك التي ألقاها إد نيوتن-ريكس، مؤسس منظمة "التدريب العادل" وهي منظمة غير ربحية تحاول ضمان حصول الفنانين على أجر مقابل إدخال بيانات التدريب، زخماً إلى موجة الاحتجاج المطالبة بحقوق الفنانين، فضلاً عن الدعوة إلى تطوير أدوات الذكاء الاصطناعي التي تمكّن مبدعي الموسيقى بدلاً من استبدالهم. فبدلاً من النماذج المصممة لتوليد الموسيقى البحتة، يمكن أن يركز الذكاء الاصطناعي على تعزيز العملية الإبداعية للملحنين من خلال العمل كأطراف مساعدة، وتقديم العون للملحنين بتزويدهم بأفكار للتنسيق الموسيقي، وتسريع سير العمل، وملء المقاطع اللحنية القصيرة وغيرها.
على غرار الثورة التي أشعلها الآيبود والبث الموسيقي، فإن ثورة الذكاء الاصطناعي المستمرة، والتي يمكن القول إنها أكبر وأكثر تعقيداً، تجبر صناعة الموسيقى على التكيف بسرعة. وفي هذا الصدد، يجب أن نضع في اعتبارنا التقنيات التي قد تساعدنا على تيسير تحقيق الشفافية واتباع ممارسات التدريب الأخلاقية.
فقد أثار أول أداء علني لـمقطوعة "Illiac Suite" في عام 1956 الكثير من الضجة. فقد تنبأ أحد المستمعين بمستقبل خالٍ من الإبداع البشري. وقد أحدثت نماذج موسيقى الذكاء الاصطناعي التوليدي اليوم ضجة مماثلة في الأوساط الفنية، وكذلك في مجال الترخيص. لكن هذه التقنيات الجديدة المدهش�� يمكن أن تؤدي أيضاً إلى تطوير أدوات تعاونية لا تقوض العمليات الإبداعية للفنانين بل تعززها، فضلاً عن ضمان تحقيق الإنصاف لهم.
عن المؤلفة
دوريان هيريمانز هي باحثة في مجال موسيقى الذكاء الاصطناعي من بلجيكا وأستاذة مساعدة في جامعة سنغافورة للتكنولوجيا والتصميم (SUTD)، حيث تتولى إدارة مختبر الصوت والموسيقى والذكاء الاصطناعي (AMAAI). عملت هيريمانز على توليد الموسيقى الآلية والحوسبة العاطفية لسنوات عديدة. ظهرت أبحاثها في منشورات مثل مجلة فايس وفي وسائل الإعلام الوطنية الفرنسية والبلجيكية. شاركت هيريمانس في محادثة الويبو - نواتج الذكاء الاصطناعي: الحماية أو عدم الحماية؟ وكان هذا هو السؤال المتعلق بالملكية الفكرية في منتدى محادثة الويبو في نوفمبر 2024.