برامج وتطبيقات

بحث يكشف قصور نموذج الذكاء الاصطناعي GPT-4 في فهم الصور

عندما كشفت شركة (أوبن أي آي) OpenAI أول مرة عن نموذج الذكاء الاصطناعي الأحدث (جي بي تي-4) GPT-4 في وقت سابق من هذا العام، روّجت له بأنه قادر على فهم وسائط مختلفة، مثل: فهم سياق الصور، فضلًا عن النصوص.

وقالت الشركة وقتئذ إنه يمكن لنموذج (جي بي تي-4) GPT-4 التعليق على الصور المعقدة وكذلك تفسيرها نسبيًا، ولكن منذ الإعلان عن نموذج الذكاء الاصطناعي في أواخر شهر آذار/ مارس، عاقت (أوبن أي آي) مزايا الصور الخاصة بالنموذج، وذلك بسبب مخاوف من إساءة الاستخدام وقضايا الخصوصية.

وحتى وقت قريب، ظلت الطبيعة الدقيقة لتلك المخاوف لغزًا. ولكن في وقت مبكر من هذا الأسبوع، نشرت شركة (أوبن أي آي) ورقة بحثية تشرح بالتفصيل عملها للتخفيف من أكثر الجوانب إشكالية في أدوات تحليل الصور الخاصة بنموذج (جي بي تي-4).

وحتى الآن، لم يستخدم نموذج (جي بي تي-4) GPT-4 مع مزايا الرؤية، الذي تسميه (أوبن أي آي) داخليًا GPT-4V، إلا بضعة آلاف من مستخدمي (بي ماي آيز) Be My Eyes، وهو تطبيق لمساعدة الأشخاص الضعاف البصر والمكفوفين على التنقل في البيئات المحيطة بهم.

ووفقًا للورقة البحثية، فقد بدأت شركة (أوبن أي آي) خلال الأشهر القليلة الماضية أيضًا التحقيق في النموذج بحثًا عن علامات السلوك غير المقصود.

وفي الورقة، تدعي (أوبن أي آي) أنها طبقت ضمانات لمنع استخدام GPT-4V بطرق ضارة، مثل: كسر اختبار CAPTCHA، وهي أداة مكافحة الإزعاج الإلكتروني الموجودة في العديد من نماذج الويب، أو تحديد هوية الشخص، أو تقدير عمره، أو عرقه واستخلاص النتائج بناءً على معلومات غير موجودة في الصورة.

وتقول (أوبن أي آي) أيضًا إنها عملت على الحد من أكثر تحيزات GPT-4V ضررًا، خاصةً تلك التي تتعلق بالمظهر الجسدي للشخص، أو جنسه، أو عرقه.

ولكن كما هو الحال مع جميع نماذج الذكاء الاصطناعي، فإنه لا يمكن للضمانات أن تحل المشكلة تمامًا. إذ يكشف البحث أن GPT-4V يواجه أحيانًا صعوبات في التوصل إلى الاستدلالات الصحيحة، مثل: الجمع عن طريق الخطأ بين سلسلتين من النصوص في صورة ما لإنشاء مصطلح مختلق.

وعلى غرار نموذج (جي بي تي-4) GPT-4 الأساسي، فإن GPT-4V عرضة للهلوسة، أو اختراع الحقائق بنبرة الواثق. ولا يقتصر الأمر على فقدان النص أو الأحرف، وإغفال الرموز الرياضية، والإخفاق في تعرف الأشياء الواضحة وإعدادات الأماكن.

وليس من المستغرب إذن أن تقول (أوبن أي آي) بعبارات واضحة لا لبس فيها إنه يجب ألا يُستخدم GPT-4V لاكتشاف المواد أو الكيماويات الخطرة في الصور.

وعند تطبيقه على مجال التصوير الطبي، فإن GPT-4V ليس أفضل حالًا، حيث يقدم أحيانًا إجابات غير صحيحة للسؤال نفسه الذي أجاب عنه إجابات صحيحة في سياق سابق.

وفي ناحية أخرى، تُحذّر (أوبن أي آي) من أن GPT-4V لا يفهم الفروق الدقيقة في بعض رموز الكراهية، فهو على سبيل المثال، يفتقد المعنى الحديث لمصطلح Templar Cross (التفوق الأبيض) في الولايات المتحدة.

ولوحظ أن GPT-4V يؤلف أغانٍ أو قصائد تمدح شخصيات أو مجموعات كراهية معينة عندما تُقدَّم إليه صورة لهم حتى عندما لم تُسمَّ الشخصيات أو المجموعات صراحةً.

ويميز GPT-4V أيضًا ضد جنس معين وأنواع معينة من الجسم، ولكن فقط عندما تُعطَّل ضمانات (أوبن أي آي).

وفي كثير من الحالات، اضطرت الشركة إلى تنفيذ ضمانات صارمة للغاية لمنع النموذج من نشر معلومات «سامة» أو مضللة، أو المساس بخصوصية الشخص.

وتدعي شركة (أوبن أي آي) أنها تبني «عمليات تخفيف» و«عمليات معالجة» لتوسيع قدرات النموذج بطريقة «آمنة»، مثل السماح لـ GPT-4V بوصف الوجوه والأشخاص دون تحديد هؤلاء الأشخاص بالاسم.

ولكن البحث يكشف أن GPT-4V ليس علاجًا سحريًا، وأنه لا يزال أمام (أوبن أي آي) الكثير من العمل للوصول إلى الوضع المرجو.

زر الذهاب إلى الأعلى