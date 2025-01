أطلق فريق Qwen التابع لشركة “علي بابا” الصينية مجموعة جديدة من نماذج الذكاء الاصطناعي تحمل اسم Qwen2.5-VL، وهي تتميز بقدرات متقدمة في تحليل النصوص والصور، ومنها فهم مقاطع الفيديو، وتحليل المستندات، بالإضافة إلى التحكم في الحواسيب على غرار وكيل الذكاء الاصطناعي Operator الذي أطلقته OpenAI حديثًا.

ووفقًا لاختبارات الأداء التي أجراها فريق Qwen، فإن أفضل نموذج في السلسلة الجديدة، المعروف باسم Qwen2.5-VL-72B، يتفوق على نماذج رائدة مثل GPT-4o من OpenAI، و Claude 3.5 Sonnet من أنثروبيك، و Gemini 2.0 Flash من جوجل، في مهام تتعلق بفهم مقاطع الفيديو، والعمليات الحسابية، وتحليل المستندات.

وتُتاح نماذج Qwen2.5-VL للتجربة عبر تطبيق Qwen Chat من علي بابا، كما يمكن تنزيلها من منصة Hugging Face للمطورين. وتتيح النماذج تحليل الرسوم البيانية والجداول، واستخراج البيانات من الفواتير والنماذج الممسوحة ضوئيًا، وفهم محتوى مقاطع الفيديو الطويلة. كما أنها قادرة على تعرّف شخصيات وأعمال فنية من الأفلام والمسلسلات، بالإضافة إلى مجموعة متنوعة من المنتجات، وهو ما يشير إلى احتمالية تدريبها جزئيًا على مواد محمية بحقوق الطبع والنشر، وفقًا لتقارير صحفية.

ومن المزايا المثيرة في Qwen2.5-VL قدرته على التحكم في التطبيقات والأجهزة، سواء كانت تعمل على أنظمة الحواسيب أو الهواتف المحمولة. وقد استعرض أحد الخبراء الفنيين في منصة Hugging Face فيديو يظهر فيه النموذج وهو يستخدم تطبيق حجز الفنادق والطيران “بوكينج” لحجز رحلة طيران إلى بكين. ومع ذلك، تُظهر اختبارات الأداء أن النموذج يواجه تحديات في البيئات الحاسوبية المعقدة، إذ سجّل نتائج ضعيفة في اختبارات OSWorld.

Don’t Miss @Alibaba_Qwen 2.5 VL! Despite all the Deepseek Hype, Qwen just dropped the best open Multimodal! Qwen 2.5 VL is a Vision Language Model that can control your computer, similar to the @OpenAI operator, extract structured information from charts, and more!!

— Philipp Schmid (@_philschmid) January 27, 2025