أعلنت شركة (OpenAI) أمس عن الجيل الرابع من نموذجها اللغوي العملاق (GPT) الذي يحمل اسم (GPT-4)، والذي من المتوقع أن يحدث طفرة كبرى في قدرات الذكاء الاصطناعي التوليدي، لأنه نموذج لغوي متعدد الوسائط (Multi-Modal LLM) أي يمكنه قبول كل من مدخلات الصور والنصوص وإنشاء مخرجات نصية.

يمثل الإصدار الأخير من (GPT-4) علامة بارزة في مجال الذكاء الاصطناعي، لا سيما في معالجة اللغة الطبيعية. لذلك سنستعرض اليوم في هذه المقالة الإمكانيات الجديدة التي يقدمها نموذج GPT-4 وكيف يختلف عن الإصدارات السابقة؟

يُعد (GPT-4) هو الإصدار الأحدث والأكثر تقدمًا من النموذج اللغوي (GPT) لتوليد النصوص الذي أطلقته شركة (OpenAI) عام 2018، ثم أطلقت الجيل الثالث منه (GPT-3) في عام 2020، ثم طورته حتى إصدار (GPT-3.5) الذي استخدمته لإنشاء روبوت الدردشة التفاعلي ChatGPT الذي أطلقته في شهر نوفمبر الماضي.

إذا كنت قد استخدمت (ChatGPT) فأنت على دراية بالإصدار السابق (GPT-3.5)، الذي يقتصر على إدخال نصي، ويولد نصوص بلغة طبيعية أو أكواد برمجية بسيطة. لكن (GPT-4) هو أحدث إصدار ويتميز أنه متعدد الوسائط لأنه يقبل مدخلات الصور والنصوص، ويولد مخرجات نصية، فهو قادر على فهم محتوى الصور وتحليلها بشكل جيد، حتى مع الصور المعقدة، مثل: صور الرسوم البيانية أو أوراق العمل، والمستندات الطويلة، وهو تحسن كبير عن النموذج السابق.

تعمل الميزات الجديدة في هذا النموذج على تطوير قدرات روبوتات الدردشة التفاعلية (Chatbots) بشكل كبير، إذ يمكن لنموذج GPT-4 أداء مهام متعددة في وقت واحد، ويزيد احتمال تقديم إجابات واقعية بنسبة 40%، مما يجعله أداة أكثر فائدة للتطبيقات التي تعتمد على المعلومات الواقعية، مثل: محركات البحث.

أشارت شركة (OpenAI) إلى أنها قضت 6 أشهر في تطوير هذا الإصدار من نموذجها اللغوي، استنادًا إلى تجربتها مع ChatGPT، وقد أثبت النموذج الجديد قدرته الفائقة على الالتزام بتقديم الحقائق والمعلومات الصحيحة، إلى جانب مواجهة محاولات المستخدمين لإخراجه عن سياق الحوار أو تقديم ردود مخالفة لمعايير الشركة.

وأشارت الشركة إلى أنه يمكن التمييز بين GPT-3.5 و GPT-4، عند وصول تعقيد المهمة إلى أقصاها، إذ إن نموذج (GPT-4) أصبح أكثر موثوقية وإبداعاً وقدرة على التعامل مع التعليمات بدقة أعلى مقارنة بالجيل السابق.

يمكنك تجربة هذا النموذج عند استخدام ChatGPT، ولكنه الآن متاح فقط لمستخدمي الإصدار المدفوع (ChatGPT Plus) الذي تبلغ قيمة اشتراكه الشهري 20 دولارًا، مع ملاحظة أنه لا يزال غير متاح في العديد من الدول. وقد أكدت شركة مايكروسوفت أيضًا أن أحدث إصدار من (Bing Chat) يستند إلى نموذج (GPT-4) في عمله.

وأعلنت شركة (OpenAI) أيضًا أن شركات مختلفة استخدمت GPT-4 في منتجاتها، ومنها: تطبيق Duolingo لتعلم اللغات، و(خان أكاديمي) Khan Academy للتعليم عبر الإنترنت، و Stripe، وغيرها.

وسيتمكن المطورون من الوصول إلى نموذج (GPT-4) من خلال واجهته البرمجية API، وقد أعلنت الشركة عن قائمة انتظار للتسجيل فيها الآن.

يمكن لنموذج (GPT-4) التعامل مع أكثر من 25000 كلمة، أي نحو 8 أضعاف ما يتعامل معه إصدار (GPT-3.5) السابق إذ كان يتعامل مع 3000 كلمة فقط، مما يتيح استخدامه في إنشاء المحتوى الطويل، والمحادثات الممتدة، والبحث في المستندات وتحليلها.

وقد طُور نموذج (GPT-4) لتحسين ميزة (Alignment) وهي القدرة على متابعة نوايا المستخدم مع جعلها أكثر وضوحًا وتوليد مخرجات أقل هجومًا أو خطورة.

كما تحسن أداء (GPT-4) عن الإصدار السابق (GPT-3.5) فيما يتعلق بصحة وواقعية الإجابات، إذ يرتكب أحدث إصدار أخطاء واقعية أو منطقية أقل، وقد تفوق GPT-4 بنسبة 40% على إصدار GPT-3.5 في معيار الأداء الواقعي الداخلي لشركة OpenAI.

النموذج الجديد GPT-4 قادر على فهم الصور بشكل جيد، حتى مع الصور المعقدة، فالنموذج بإمكانه وصف الصور بشكل دقيق، مثل التفرقة بين كابل VGA، وبين هاتف ذكي متصل بالكابل، كما هو واضح في الصورة التالية:

وللتأكد من جاهزية ميزة إدخال الصور للنموذج الجديد، تعاونت شركة OpenAI مع تطبيق (Be My Eyes) لضعاف البصر، الذي سيحصل مع التحديث الجديد على ميزة (متطوع افتراضي) Virtual Volunteer التي تستخدم قدرات النموذج الجديد لاستقراء الصور وتحليلها، ووصفها بدقة للمستخدمين، إضافة إلى ما يمكنهم إنجازه بواسطة مكونات تلك الصور.

كما أن تلك الميزة تسمح للمستخدم بإدخال أسئلة أو أمر نصي مع إرفاق صور بحيث تكون الأوامر النصية تطلب من النموذج GPT-4 أداء مهام أو إجابة تساؤلات تتعلق بمحتوى الصور.

وقد أوضح (جريج بروكمان) Greg Brockman المؤسس المشارك والرئيس لشركة OpenAI بعض حالات الاستخدام لنموذج (GPT-4) ومنها: القدرة على قراءة صورة لنموذج مرسوم يدويًا لموقع ويب، وإنشاء الكود البرمجي للموقع من خلال الصورة.

Chat GPT-4 will be able to convert a hand-drawn sketch into a fully-functioning website. The future is here! 🤯 pic.twitter.com/PYIY9BQaQq

تعتبر قدرة (التوجيه) Steerability واحدة من بين القدرات الفائقة التي يقدمها إصدار (GPT-4) الجديد، وهي القدرة على تغيير سلوكه وفقًا لطلبات المستخدم، فعلى سبيل المثال يمكن للمستخدم توجيه النموذج ووضع قائمة بالإرشادات التي لابد أن يلتزم بها، في طريقة ردوده على الطلبات، وتقديمه للمعلومات المختلفة.

وضربت الشركة مثالاً لتلك الميزة تتمثل في وضع مجموعة من التوجيهات والإرشادات للنموذج الجديد كي يتحول إلى معلم لطالب، بحيث تقوم تلك الإرشادات بشرح طريقة التعليم التي يجب أن يتبعها النموذج وعملية تبسيط المعلومات، حتى تصل إلى مستوى إدراك الطالب بشكل سهل وواضح.

وأشارت الشركة إلى أن تلك الميزة ستسمح للمطورين أيضًا بالتحكم في طريقة عمل خدماتهم التي تقدم تفاعل ذكي مع المستخدمين، من خلال وضع لائحة بضوابط وسمات شخصية النموذج التي تعتمد عليه خدماتهم وأسلوب تعاملها مع المستخدمين.

وفقًا لشركة OpenAI؛ دمج الباحثون المزيد من التعليقات البشرية، بما يشمل التعليقات المقدمة من مستخدمي ChatGPT، لتحسين أداء GPT-4، كما اعتمدت الشركة على 50 خبيرًا بشريًا لتقديم ملاحظات فيما يتعلق بسلامة الذكاء الاصطناعي.

وأكدت الشركة أنها طورت النموذج الجديد ليكون قادر على رفض نسبة 82% من محاولات وتساؤلات المستخدمين الساعية نحو الحصول على إجابات تتعلق بموضوعات خطرة، مثل: تصنيع كيماويات مضرة أو محاولة إيذاء النفس، مقارنة بالإصدار السابق GPT-3.5.

ولكنها اعترفت أيضًا أن نموذج (GPT-4) ليس معصومًا من الخطأ، على الرغم من القدرات الهائلة الجديدة، والتطور الكبير في أدائه، كما أشارت إلى أن النموذج ما زال غير قادر على تقديم معلومات بشأن تطورات الأحداث بعد سبتمبر 2021، كما أنه لا يتعلم من تجاربه السابقة مع أسئلة المستخدمين.

وأضافت الشركة بأن GPT-4 من الممكن أن يرتكب في بعض الأحيان أخطاء بسيطة وساذجة لا يبدو أنها تتماشى مع كفاءة أدائه، مثل: قبول عبارات خاطئة واضحة من المستخدم. وأحيانًا يمكن أن يفشل في المشكلات الصعبة بالطريقة نفسها التي يفشل بها البشر، مثل اكتشاف ثغرات أمنية في الأكواد البرمجية التي ينتجها بنفسه.

here is GPT-4, our most capable and aligned model yet. it is available today in our API (with a waitlist) and in ChatGPT+.https://t.co/2ZFC36xqAJ

it is still flawed, still limited, and it still seems more impressive on first use than it does after you spend more time with it.

— Sam Altman (@sama) March 14, 2023