تستطيع لوحة الموناليزا الآن أن تفعل أكثر من مجرد الابتسام، وذلك بفضل تقنية الذكاء الاصطناعي الجديدة من مايكروسوفت.
في الأسبوع الماضي، قام باحثو مايكروسوفت بتفصيل نموذج جديد للذكاء الاصطناعي قاموا بتطويره والذي يمكنه التقاط صورة ثابتة لوجه ومقطع صوتي لشخص يتحدث وإنشاء مقطع فيديو ذو مظهر واقعي تلقائيًا لذلك الشخص الذي يتحدث. تكتمل مقاطع الفيديو – التي يمكن إنشاؤها من وجوه واقعية، بالإضافة إلى الرسوم الكاريكاتورية أو الأعمال الفنية – بمزامنة الشفاه المقنعة وحركات الوجه والرأس الطبيعية.
في أحد مقاطع الفيديو التجريبية، أظهر الباحثون كيف قاموا بتحريك لوحة الموناليزا لتلاوة أغنية راب كوميدية للممثلة آن هاثاواي.
تعد المخرجات من نموذج الذكاء الاصطناعي، المسمى VASA-1، مسلية ومتناقضة بعض الشيء في واقعها. وقالت مايكروسوفت إن التكنولوجيا يمكن استخدامها للتعليم أو “تحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل”، أو ربما لإنشاء رفاق افتراضيين للبشر. ولكن من السهل أيضًا رؤية كيف يمكن إساءة استخدام الأداة واستخدامها لانتحال شخصيات أشخاص حقيقيين.
إنه مصدر قلق يتجاوز مايكروسوفت: مع ظهور المزيد من الأدوات لإنشاء صور ومقاطع فيديو وصوت مقنعة يتم إنشاؤها بواسطة الذكاء الاصطناعي، يشعر الخبراء بالقلق من أن سوء استخدامها قد يؤدي إلى أشكال جديدة من المعلومات الخاطئة. ويشعر البعض أيضًا بالقلق من أن التكنولوجيا قد تؤدي إلى مزيد من تعطيل الصناعات الإبداعية، بدءًا من الأفلام وحتى الإعلانات.
في الوقت الحالي، قالت مايكروسوفت إنها لا تخطط لإصدار نموذج VASA-1 للجمهور على الفور. تشبه هذه الخطوة الطريقة التي تتعامل بها شركة OpenAI، شريك Microsoft، مع المخاوف المتعلقة بأداة الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، Sora: قامت OpenAI بإثارة Sora في فبراير، ولكنها جعلتها متاحة حتى الآن فقط لبعض المستخدمين المحترفين وأساتذة الأمن السيبراني لأغراض الاختبار.
وقال باحثو مايكروسوفت في تدوينة: “نحن نعارض أي سلوك لإنشاء محتويات مضللة أو ضارة لأشخاص حقيقيين”. لكنهم أضافوا أن الشركة “ليس لديها أي خطط لإطلاق” المنتج علنًا “حتى نتأكد من استخدام التكنولوجيا بشكل مسؤول ووفقًا للوائح المناسبة”.
وقال الباحثون إن نموذج الذكاء الاصطناعي الجديد من مايكروسوفت تم تدريبه على العديد من مقاطع الفيديو لوجوه الأشخاص أثناء التحدث، وهو مصمم للتعرف على حركات الوجه والرأس الطبيعية، بما في ذلك “حركة الشفاه، والتعبير (غير الشفاه)، ونظرة العين، والوميض، من بين أمور أخرى”. والنتيجة هي فيديو أكثر واقعية عندما يقوم VASA-1 بتحريك صورة ثابتة.
على سبيل المثال، في أحد مقاطع الفيديو التجريبية التي تم ضبطها على مقطع يظهر فيه شخص ما يبدو مضطربًا، أثناء لعب ألعاب الفيديو على ما يبدو، كان الوجه المتكلم مقطبًا بالحواجب وزم الشفتين.
يمكن أيضًا توجيه أداة الذكاء الاصطناعي لإنتاج مقطع فيديو حيث ينظر الموضوع في اتجاه معين أو يعبر عن مشاعر معينة.
عند النظر عن كثب، لا تزال هناك علامات تشير إلى أن مقاطع الفيديو تم إنشاؤها آليًا، مثل الرمش غير المتكرر وحركات الحاجب المبالغ فيها. لكن مايكروسوفت قالت إنها تعتقد أن نموذجها “يتفوق بشكل كبير” على الأدوات المماثلة الأخرى و”يمهد الطريق للتفاعلات في الوقت الفعلي مع صور رمزية نابضة بالحياة تحاكي سلوكيات المحادثة البشرية”.