الشخصيات في ألعاب الفيديو التي يتحكم فيها بواسطة الحاسوب ليست شيئا جديدا. فالشخصيات التي يتحكم بها الحاسوب هي من العناصر الأساسية في عالم الألعاب منذ فترة طويلة. ولكن اليوم ظهر نموذج مميز وجديد في مجال الألعاب ذات التحكم الذاتي بواسطة الحاسوب والذي سيغير عالم الألعاب.
سيما (SIMA) هو نموذج مطور في عالم ألعاب الفيديو والمعروف بالوكيل المتعدد المهام والقابل للتعلم والتوجيه والذي يعتمد على الذكاء الاصطناعي التوليدي للقيام بأمور لم نعهدها في الألعاب المنتشرة في الوقت الحالي.
ما هو سيما؟
يصف مختبر أبحاث الذكاء الاصطناعي غوغل ديب مايند نموذج سيما بأنه “وكيل ذكاء اصطناعي”، والذي يختلف عن النماذج الأخرى مثل شات جي بي تي وجيميني، يُدرب وكلاء الذكاء الاصطناعي على مجموعة كبيرة من البيانات، كما يمكنهم معالجة البيانات واتخاذ الإجراءات بأنفسهم.
سيما سيكون قادر على أداء أنواع مختلفة من المهام، إنه كصديق افتراضي يمكنه فهم التعليمات واتباعها في جميع أنواع البيئات الافتراضية من استكشاف الزنزانات الغامضة إلى بناء القلاع الفخمة، يمكنه إتمام المهام أو حل التحديات المسندة إليه.
وعلى عكس الشخصيات غير القابلة للعب، فإن سيما الذي يتحكم فيه الذكاء الاصطناعي غير مبرمج في لعبة معينة للتصرف بطريقة ما أو الاستجابة لبعض الإجراءات التي يقدمها البشر. بل تُعرفه غوغل بأنه وكيل ذكاء اصطناعي عام للبيئات الافتراضية الثلاثية الأبعاد.
كيف يعمل؟
لا يمتلك سيما أي نوع من الوصول إلى خوارزميات اللعبة أو القواعد الداخلية، وبدلا من ذلك، يدرب ساعات عديدة من خلال مقاطع الفيديو التي تعرض أسلوب لعب اللاعبين العاديين. ومن هذه البيانات والشروح المقدمة، فهو يتعلم ربط تمثيلات مرئية معينة للقيام بالإجراءات والعمليات والتفاعلات. كما يتعلم من مقاطع فيديو للاعبين وهم يوجهون بعضهم البعض للقيام بأشياء خاصة في اللعبة.
على سبيل المثال، قد يتعلم الوكيل سيما من كيفية تحرك وحدات البيكسل في نمط معين على الشاشة أن هذا الإجراء يسمى “التحرك للأمام”، أو عندما تقترب الشخصية من شيء يشبه الباب ويستخدم شيئا يشبه مقبض الباب، فهذا يعني “فتح باب”. أمور بسيطة مثل هذه، مهام أو أحداث تأخذ بضع ثوان ولكنها أكثر من مجرد الضغط على مفتاح أو تحديد شيء ما.
يلعب سيما جنبا إلى جنب مع اللاعبين فهو يتصرف على شاكلة اللاعب البشري من خلال اتباع أوامر لفظية، فهو مصمم ليكون مساعدا للاعب وليس خصما له.
تقول غوغل: “سيما ليس مدربا على الفوز في لعبة، بل هو مجهز للعمل جنبا إلى جنب مع اللاعب وتنفيذ الإجراءات بناء على تعليمات اللغة الطبيعية”. كما أوضحت أن سيما يعمل كلاعب زميل يحاول إنجاز كل ما يطلبه منه اللاعب البشري.
وأضافت غوغل أن سيما يحتاج فقط إلى الصور التي توفرها البيئة ثلاثية الأبعاد وتعليمات اللغة التي يقدمها المستخدم. ومع إخراجات الفأرة ولوحة المفاتيح، يتم تقييمها عبر 600 مهارة، تشمل مجالات كالتنقل وتفاعل الكائنات وغيرها، فيفهم الجمل مثل “انعطف لليسار” أو “اقطع الشجرة” وينفذها.
كيف يفهم سيما ألعاب الفيديو
وفق تقرير غوغل، فإن النموذج الذي تدرب على العديد من الألعاب كان أفضل من النموذج الذي تعلم كيفية اللعب في لعبة واحدة فقط. فقد تفوقت نماذج سيما التي تم تدريبها على مجموعة من الألعاب الثلاثية الأبعاد بشكل ملحوظ على جميع النماذج المتخصصة والتي تدربت على لعبة واحدة فقط.
وقعت هذه الاختبارات على 9 ألعاب منها “نو مانز سكاي” ولعبة “إيكو” و “تيرداون” و “جوت سيميليتور” وغيرها. ومن خلال التجارب على هذه الألعاب، فإن الوكيل الذي تدرب في كل الألعاب ما عدا واحدة كان بنفس الأداء الجيد في تلك اللعبة التي لم يتدرب عليها مسبقا.
وتبرز هذه التحديات على العمل في بيئات جديدة قدرة سيما على تعميم المهارات المكتسبة خارج نطاق التدريب. وتعتبر هذه نتيجة أولية واعدة، ولكن هناك حاجة إلى مزيد من البحث حتى يتمكن هذا المساعد من تقديم أداء قريب من المستوى البشري في كل من الألعاب المرئية وغير المرئية.
ميزات سيما
يشتمل نموذج غوغل لألعاب الفيديو “سيما” على ميزات متطورة تمكنه من التفاعل ضمن بيئات محاكاة ثلاثية الأبعاد مختلفة. تعد هذه الميزات جزءا لا يتجزأ من تصميمه، مما يسمح له بفهم وتنفيذ تعليمات اللغة الطبيعية وتنفيذ العديد من الإجراءات. وأبرز هذه الميزات:
– نقل المعرفة إلى بيئة متعددة: من السمات الرئيسية لسيما أنه يستطيع استخدام المعرفة والمهارات التي اكتسبتها في بيئة ما لتحقيق أداء جيد في بيئة أخرى دون البدء من الصفر في كل مرة. تعد هذه القدرة على التنقل بين البيئات مهمة جدا لمرونة النموذج وكفاءته. فهذا يتيح له استخدام ما تعلمه في مجموعة واسعة من المواقف بدلا من موقف واحد فقط.
على سبيل المثال، إذا تعلم النموذج مفهوم “فتح الباب” في إحدى الألعاب، فيمكنه تطبيق هذه المعرفة عند مواجهة باب في لعبة أخرى غير ذات صلة. تعمل أنظمة الإدراك والعمل المتطورة للوكيل على تسهيل رسم خرائط المفاهيم المشتركة من خلال استخلاص أوجه التشابه الأساسية في التفاعلات عبر البيئات وتسريع تكيفها.
– يفهم تعليمات اللغة الطبيعية: صمم سيما لفهم مجموعة واسعة من التعليمات اللغوية، وتفسيرها في سياق بيئتها وأهدافها الحالية. يمتد هذا الفهم إلى الأوامر المعقدة وتسلسلات التعليمات، مما يمكّنه من الانخراط في التفاعلات المتطورة وإكمال المهام المعقدة وفقا لمدخلات اللغة الشبيهة بالإنسان.
– ينفذ أكثر من 600 إجراء: نظرا لتنوع بيئات التدريب وصعوبة المهام التي يمكنه التعامل معها، يمكن لنموذج سيما تنفيذ أكثر من 600 إجراء مختلف، وذلك بفضل مخزونه الكبير من الحركة، حيث يمكنه الاستجابة بشكل صحيح لمختلف المواقف والتعليمات.
تحديات تطوير سيما
واجه فريق أبحاث ديب مايند العديد من المشكلات الصعبة عند تطوير سيما. تنشأ هذه المشاكل عند تدريب نماذج الذكاء الاصطناعي في بيئات ثلاثية الأبعاد مختلفة ومتغيرة، وسنذكر أبرز التحديات التي واجهها المطورون:
– بيئات الوقت الحقيقي غير مصممة لنماذج مثل سيما: تدرب سيما في بيئات الوقت الحقيقي التي تعتمد على الوقت الفعلي، خاصة ألعاب الفيديو التجارية، وهذه البيئات غير متوقعة بطبيعتها وليست مصممة لوكلاء الذكاء الاصطناعي مثل سيما. تصممت هذه البيئات للاعبين البشر وتحتوي على تفاصيل دقيقة وديناميات يمكن أن تكون تحديا للذكاء الاصطناعي للتنقل والفهم.
– معلومات محدودة: يعني تقييم أداء سيما دون وصول إلى واجهة برمجة التطبيقات أن الوكيل لا يمكن أن يعتمد على حالات بيئية صريحة أو آليات اللعبة الأساسية التي عادة ما تكون متاحة للمطورين. هذا القيد يستدعي الاعتماد على إشارات بصرية ونصية فقط، مما يعكس تجربة لعب الإنسان ولكن يثير تحديات كبيرة في تفسير البيئة بدقة وإعطاء رد مناسب.
– دقة التقدير: نقص الوصول المباشر إلى حالة البيئة يعقد عملية التقييم، مما يجعل من الصعب التأكد مما إذا كان الذكاء الاصطناعي قد فهم ونفذ مهمة معينة بنجاح، خاصة في حالات معقدة أو غامضة.