كجزء كبير من التطور التكنولوجي، تلعب الروبوتات دورا مهما في المجالات الصناعية، كالمساعدة في تحسين الإنتاجية والجودة، واللوجيستية كالتغليف والتعبئة بشكل أسرع ودقة أكثر، والطبية كمساعدة الأطباء والجراحين في إجراء العمليات الدقيقة وتقديم الرعاية الصحية للمرضى الذين يحتاجون إلى الرعاية الخاصة، والبيئية المحدودة كجمع النفايات وتنظيف الشوارع.
ولكن على عكس الباحثين الذين يعملون على نماذج الذكاء الاصطناعي مثل شات جي بي تي ويواجهون كميات هائلة من نصوص الإنترنت والصور ومقاطع الفيديو لتدريب الأنظمة، فإن الروبوتيين يواجهون تحديات أثناء تدريب الآلات الفيزيائية، لأن البيانات الخاصة بالروبوتات مكلفة، وبسبب عدم وجود أساطيل من الروبوتات تجوب العالم، فليس هنالك بيانات كافية ومتاحة بسهولة لتجعلها تؤدي بشكل جيد في البيئات الديناميكية مثل منازل الناس، وبالرغم من أن بعض الباحثين توجهوا إلى المحاكاة لتدريب الروبوتات، فإن هذه العملية التي غالبا ما تتطلب مصمم جرافيك أو مهندسا، تحتاج كثيرا من الجهد والتكلفة العالية.
وفي هذا السياق قدم فريق من الباحثين من جامعة واشنطن دراستين جديدتين عن أنظمة ذكاء اصطناعي تستخدم إما الفيديو أو الصور لإنشاء محاكاة يمكن أن تدرب الروبوتات على العمل في بيئات حقيقية، حيث ستمكن هذه الأنظمة من خفض كبير في تكاليف تدريب الروبوتات على العمل في بيئات معقدة، وقد تمّ تقديم الدراسة الأولى في 16 يوليو/تموز الماضي، والدراسة الثانية في الـ19 من الشهر نفسه خلال مؤتمر “علوم وأنظمة الروبوتات” في دلفت في هولندا.
نظام ريل تو
كشفت الدراسة الأولى عن نظام الذكاء الاصطناعي “ريل تو” (RialTo) الذي أنشأه “أبهيشيك غوبتا” وهو أستاذ مساعد في كلية “بول جي ألين” لعلوم وهندسة الحاسوب والمؤلف المشارك في كلا الورقتين مع فريق في معهد “ماساتشوستس” للتكنولوجيا.
ويساعد النظام المستخدم في تسجيل فيديو لهندسة هذه البيئة وأجزائها المتحركة عن طريق هاتفه الذكي، على سبيل المثال في المطبخ سيسجل المستخدم كيفية فتح الخزائن والثلاجة، ثم يستخدم النظام نماذج الذكاء الاصطناعي الموجودة، ويقوم إنسان ببعض العمل السريع من خلال واجهة مستخدم رسومية لإظهار كيفية تحرك الأشياء.
ولإنشاء نسخة محاكاة من المطبخ المعروض في الفيديو يتدرب روبوت افتراضي عن طريق التجربة والخطأ في البيئة الافتراضية من خلال محاولاته المتكررة لأداء مهام مثل فتح الخزانة أو المحمصة.
وتعرف هذه الطريقة بـ”التعلم المعزز”، ويتحسن أداء الروبوت في تلك المهمة من خلال المرور بهذه العملية التعليمية، ويتكيف مع الاضطرابات أو التغيرات في البيئة التي يوجَد فيها، مثل وجود كوب بجانب المحمصة، حيث يمكن للروبوت بعد ذلك نقل تلك المعرفة إلى البيئة الفيزيائية، وأن يكون دقيقا تقريبا مثل الروبوت المدرب في المطبخ الحقيقي.
وقال غوبتا “نحاول تعليم الأنظمة على العالم الحقيقي من خلال المحاكاة”.
ويمكن للأنظمة بعد ذلك تدريب الروبوتات في مشاهد المحاكاة هذه، حتى يتمكن الروبوت من العمل بشكل أكثر فعالية في الفضاء المادي، هذا مفيد للسلامة، ويرى غوبتا أنه لا يمكن أن يكون لديك روبوتات سيئة التدريب تكسر الأشياء وتؤذي الناس.
ويمضي فريق ريل تو قدما في رغبته لنشر نظامه في منازل الناس بعد أن تمّ اختباره بشكل كبير في المختبر، وقال غوبتا أنه يريد دمج كميات صغيرة من بيانات التدريب الواقعية مع الأنظمة لتحسين معدلات نجاحها.
نظام يو آر دي فورمر
في الدراسة الثانية، قام الفريق ببناء نظام يسمى يو آر دي فورمر (URD Former)، وهو نظام يركز بشكل أقل على الدقة العالية في مطبخ واحد، ويقوم بسرعة وبشكل رخيص بإنشاء مئات من المحاكاة العامة للمطابخ، حيث يمسح النظام الصور من الإنترنت، ثم بربطها بالنماذج الموجودة حول كيفية تحرك تلك الأدراج والخزائن في المطبخ مثلا، وبعد ذلك يتنبأ بمحاكاة من الصورة الحقيقية الأولية، الأمر الذي يسمح للباحثين بتدريب الروبوتات بسرعة وبتكلفة منخفضة في مجموعة واسعة من البيئات.
وقالت “زوي تشين” المؤلفة الرئيسية لدراسة يو آر دي فورمر “في مصنع على سبيل المثال هنالك الكثير من التكرار” وأضافت “قد تكون المهام صعبة التنفيذ، ولكن بمجرد برمجة الروبوت يمكنه الاستمرار في أداء المهمة مرارا وتكرارا. بينما المنازل فريدة ومتغيرة باستمرار، هنالك تنوع في الأشياء والمهام وتصاميم الأرضيات، بالإضافة إلى الأشخاص الذين يتحركون من خلالها، وهنا يصبح الذكاء الاصطناعي مفيدا حقا لتدريب الروبوتات”.
في سياق متصل، نبهت ورقة الدراسة إلى أن هذه المحاكاة أقل دقة بشكل ملحوظ من تلك التي تنتجها “ريل تو”، وقد قال الباحث “غوبتا” الذي أنشأ هذا الأخير “يمكن أن تكمل الطريقتان بعضهما البعض، يو آر دي فورمر مفيد حقا للتدريب المسبق على مئات السيناريوهات، في حين “ريل تو” مفيد بشكل خاص إذا كنت قد قمت بالفعل بتدريب روبوت، والآن تريد نشره في منزل شخص ما وتحقيق نجاح بنسبة 95%”.
ما التعلم المعزز حسب المنظور الآلي؟
يعرف التعلم المعزز “آر إل” (RL) كفرع من فروع تعلم الآلة الذي يدرب البرامج على اتخاذ القرارات لتحقيق أفضل النتائج، عن طريق استخدام أسلوب التعلم بالمحاولة والخطأ الذي يستخدمه البشر لتحقيق أهدافهم.
وهذا يعني أن البرامج التي تعمل على تحقيق الهدف يتمّ تعزيزها، أمّا الإجراءات التي تنتقص من الهدف فيتمّ تجاهلها، وتشبه هذه العمليّة التعلم المعزز للإنسان والحيوان في مجال علم النفس السلوكي، مثل الطفل الذي يكتشف أنه يتلقى الثناء من والديه عندما يساعد شقيقه مثلا، ويتلقى ردود فعل سلبية عندما يصرخ أو يرمي ألعابه، ثم سرعان ما يتعلم مجموعة الأنشطة التي تؤدي إلى المكافأة النهائيّة.
وتقوم عملية التعلم المعزز على 3 خطوات مهمة:
1- البيئة
تبدأ الخطوة الأولى في التعلم المعزز في إعداد بيئة التدريب، وغالبا ما تكون بيئة محاكاة بمواصفات للملاحظات، والإجراءات (وهي خطوة يتخذها النظام الذاتي للتنقل في البيئة)، والمكافآت (وهي القيمة الإيجابية أو السلبية أو الصفرية بمعنى أوضح المكافأة أو العقاب لاتخاذ الإجراء).
وتشير مساحة الملاحظة عادة إلى مصادر المستشعر المتاحة على النظام الروبوتي الحقيقي ومدخلات التحكم المرغوبة، بينما توجد مساحات إجراءات منفصلة في تطبيقات التعلم المعزز الأخرى، إذ يفضل في الروبوتات عادة الإجراءات المستمرة التي تغطي على سبيل المثال أهداف موضع أو سرعة المفاصل، نظرا لأن المهام الروبوتية غالبا ما تتضمن قيودا إمّا على النظام الفيزيائي (مثل حدود المفاصل)، أو بعض أنماط السلوك المرغوبة، وتستخدم عادة وظائف المكافأة الكثيفة لتشفير بعض مواصفات الأهداف بشكل صريح.
2- التدريب
تشمل الخطوة الثانية من التعلم المعزز في الروبوتات تحديد نظام التدريب الفعلي للوكيل (وهو خوارزمية ما يسمى بالنظام الذاتي)، وعلى الرغم من وجود طرق مختلفة لتمثيل السياسة النهائية، فإنه يتمّ اعتماد الشبكات العصبية العميقة لتحديد العلاقة بين الحالة والإجراء (هو خطوة يتخذها وكيل “آر إل” للتنقل في البيئة) بسبب قدرتها على التعامل مع انعدام الرتابة، وأيضا يتمّ اقتراح مجموعة واسعة من الخوارزميات المحتملة على مدى السنوات الماضية.
وأما بالنسبة للتحكم في الروبوتات، فيتم عادة اعتماد خوارزميات التعلم المعزز غير المعتمدة على النموذج، لأنها لا تتطلب نموذجا حقيقيا للبيئة، والذي غالبا ما يكون غير متاح للروبوت، وهي مثالية عندما تكون البيئة غير معلومة ومتغيرة، بعكس خوارزميات التعلم المعزز المعتمدة على النموذج، التي تستخدم عادة عندما تكون البيئات محددة جيدا وغير متغيرة حيث يكون اختبار بيئة العالم الحقيقي صعبا.
3- النشر
بعد تقييم السياسات المدربة بنجاح في بيئات التدريب الافتراضية، يتمّ نشرها في النظام الروبوتي الحقيقي، ويعتمد نجاح النشر على عدة عوامل منها الفجوة بين العالم الافتراضي والعالم الحقيقي، وصعوبة المهمة التعليمية المقبلة، أو تعقيد منصة الروبوت نفسها.