بدأت شركة OpenAI طرح وضع الصوت المتقدم لمساعدها الذكي ChatGPT، وهو يتيح للمستخدمين إجراء دردشات صوتية واقعية مع استجابات فورية لأول مرة.

وستكون النسخة التجريبية متاحة لمجموعة صغيرة من المشتركين في خدمة ChatGPT Plus المأجورة، وتقول OpenAI إن الميزة ستتوسع تدريجيًا لتشمل كافة المشتركين بحلول خريف العام الجاري.

وتقول OpenAI إن الوضع الصوتي المتقدم يختلف عن الوضع الحالي المتاح في ChatGPT، إذ كانت تعتمد الشركة في السابق على ثلاثة نماذج منفصلة لتحويل الصوت إلى نص، ومعالجة النصوص باستخدام GPT-4، ثم تحويل النص إلى صوت، وهي عمليات كانت تستغرق وقتًا طويلًا نسبيًا.

وقدّمت الشركة نموذج GPT-4o المطوّر، وهو نموذج متعدد الوسائط قادر على التعاطي مع المهام المختلفة مما يخلق دردشات بزمن استجابة قصير للغاية، كما لو كانت تحدث في الوقت الفعلي دون تأخير.

وتزعم OpenAI أن نموذج GPT-4o يمكنه استشعار الانفعالات العاطفية في صوت المستخدم، مثل الحزن والحماس والفرح في أثناء الدردشة مع ChatGPT في الوضع الصوتي المتقدم.

وقالت OpenAI إنها ستصدر الوضع الصوتي الجديد تدريجيًا لمراقبة استخدامه من كثب، وسيحصل الأشخاص في المجموعة التجريبية على تنبيه في تطبيق ChatGPT عند توفر الميزة الجديدة، يتبعه بريد إلكتروني يحتوي على تعليمات الاستخدام.

وكانت OpenAI قد قدّمت تلك الميزة أول مرة GPT-4o في مايو الماضي. وعلى إثر إعلانها، وقع خلاف مع الممثلة الأمريكية سكارليت جوهانسون نظرًا إلى تشابه الصوت في تلك الميزة مع صوتها، وتحديدًا في الفيلم الشهير Her.

وصرّحت جوهانسون بأنها رفضت عدة طلبات من الرئيس التنفيذي للشركة، سام ألتمان، لاستخدام صوتها، كما استعانت بمحامٍ للدفاع عن حقوقها، وفقًا لما جاء في تصريحاتها.

ونفت OpenAI استخدام صوت جوهانسون، لكنها أزالت لاحقًا الصوت من الوضع الصوتي. وفي يونيو، أعلنت OpenAI تأجيل إطلاقه لتحسين إجراءات السلامة.

وخلال المدة التي تلت الإعلان، أفادت OpenAI بأنها اختبرت قدرات الصوت لنموذج GPT-4o مع أكثر من 100 مُختبِر خارجي يتحدثون 45 لغة مختلفة لتقييم الأداء وإبداء الملاحظات.

وتقدّم OpenAI في وضع الصوت المتقدم أربعة أصوات مختلفة طوّرتها بالتعاون مع معلقين صوتيين محترفين.

وأكدت المتحدثة باسم الشركة، ليندسي مكالوم، أن “ChatGPT لا يمكنه انتحال أصوات أشخاص آخرين، سواء كانوا أفرادًا أو شخصيات عامة، وستُحظر المخرجات التي تختلف عن الأصوات المحددة”.

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK

— OpenAI (@OpenAI) July 30, 2024