السبت 21 ديسمبر 2024

ابتكارات الذكاء الاصطناعي من مايكروسوفت تحول الموناليزا إلى مغنية راب مثيرة

باور بريس

بفضل تقنية الذكاء الاصطناعي الجديدة من مايكروسوفت، تستطيع لوحة الموناليزا الآن أن تفعل أكثر من مجرد الابتسام، ففي الأسبوع الماضي، قام باحثو شركة مايكروسوفت بتفصيل نموذج جديد للذكاء الاصطناعي قاموا بتطويره والذي يمكنه التقاط صورة ثابتة لوجه ومقطع صوتي لشخص يتحدث وإنشاء مقطع فيديو ذو مظهر واقعي تلقائيًا لذلك الشخص الذي يتحدث. 

 

وتكتمل مقاطع الفيديو، التي يمكن إنشاؤها من وجوه واقعية، بالإضافة إلى الرسوم الكاريكاتورية أو الأعمال الفنية، بمزامنة الشفاه المقنعة وحركات الوجه والرأس الطبيعية.

 

وفي أحد مقاطع الفيديو التجريبية، أظهر الباحثون كيف قاموا بتحريك لوحة الموناليزا لغناء أغنية راب كوميدية للممثلة آن هاثاواي، وتعتبر مخرجات نموذج الذكاء الاصطناعي، المسمى VASA-1 ، مسلية ومتناقضة بعض الشيء في واقعها. 

 

وبحسب موقع CNN، قالت شركة مايكروسوفت إن التكنولوجيا يمكن استخدامها للتعليم أو "تحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل"، أو ربما لإنشاء رفاق افتراضيين للبشر، ولكن من السهل أيضًا رؤية كيف يمكن إساءة استخدام الأداة واستخدامها لانتحال شخصيات أشخاص حقيقيين.

 

مع ظهور المزيد من الأدوات لإنشاء صور ومقاطع فيديو وصوت مقنعة يتم إنشاؤها بواسطة الذكاء الاصطناعي، يشعر خبراء التكنولوجيا بالقلق من أن سوء استخدامها قد يؤدي إلى أشكال جديدة من المعلومات الخاطئة، ويشعر البعض أيضًا بالقلق من أن التكنولوجيا قد تؤدي إلى مزيد من تعطيل الصناعات الإبداعية، بدءًا من الأفلام وحتى الإعلانات.

 

في الوقت الحالي، قالت شركة مايكروسوفت إنها لا تخطط لإصدار نموذج VASA-1 للجمهور على الفور، وتشبه هذه الخطوة الطريقة التي يتعامل بها شريك Microsoft OpenAI مع المخاوف المتعلقة بأداة الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

 

وقال باحثو مايكروسوفت في تدوينة: "نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين". لكنهم أضافوا أن الشركة "ليس لديها أي خطط لإطلاق" المنتج علنًا "حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة".

 

جعل الوجوه تتحرك

 

وقال الباحثون إن نموذج الذكاء الاصطناعي الجديد من مايكروسوفت تم تدريبه على العديد من مقاطع الفيديو لوجوه الأشخاص أثناء التحدث، وهو مصمم للتعرف على حركات الوجه والرأس الطبيعية، بما في ذلك "حركة الشفاه، والتعبير (غير الشفاه)، ونظرة العين، والوميض، من بين أمور أخرى". والنتيجة هي فيديو أكثر واقعية عندما يقوم VASA-1 بتحريك صورة ثابتة.

 

 

 

على سبيل المثال، في أحد مقاطع الفيديو التجريبية التي تم ضبطها على مقطع يظهر فيه شخص ما يبدو مضطربًا، أثناء لعب ألعاب الفيديو على ما يبدو، كان الوجه المتكلم مقطبًا بالحواجب والشفتين متلاصقتين، يمكن أيضًا توجيه أداة الذكاء الاصطناعي لإنتاج مقطع فيديو حيث ينظر الموضوع في اتجاه معين أو يعبر عن مشاعر معينة.

 

عند النظر عن كثب، لا تزال هناك علامات تشير إلى أن مقاطع الفيديو تم إنشاؤها آليًا، مثل الرمش غير المتكرر وحركات الحاجب المبالغ فيها، لكن مايكروسوفت قالت إنها تعتقد أن نموذجها "يتفوق بشكل كبير" على الأدوات المماثلة الأخرى و"يمهد الطريق للتفاعلات في الوقت الفعلي مع صور رمزية نابضة بالحياة تحاكي سلوكيات المحادثة".