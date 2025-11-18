كشفت العالِمة الرائدة في مجال الذكاء الاصطناعي في-في لِي، أستاذة علوم الحاسب بجامعة ستانفورد ومُؤسِّسة شركة World Labs، في مقالٍ طويل عن رؤيتها للمرحلة المقبلة من تطور الذكاء الاصطناعي، مؤكدةً أن الإبداع الحقيقي لن يتحقق إلا عندما تتمكن الآلات من فهم الحركة والمسافة والعلاقات المكانية، لا الاكتفاء بتحليل اللغة.

وترى لِي، التي تُلقب بـ”أم الذكاء الاصطناعي”، أن البشرية باتت قريبة من منح الآلة القدرة نفسها التي طوّرتها الكائنات قبل نحو نصف مليار عام، حين اكتسبت أول حسّ للموقع والحيّز في العالم. وتضيف أن هذا الإدراك المكاني هو “اللبنة الأساسية” التي مكّنت الذكاء من التطور عبر العصور.

حدود النماذج اللغوية الحالية

أوضحت لِي في مقالها أن النماذج اللغوية الضخمة الحالية تجيد معالجة النصوص لكنها تكاد تكون “عمياء” أمام قوانين الفيزياء. وحتى النماذج المتعددة الوسائط، القادرة على قراءة الصور، ما زالت عاجزة عن تقدير المسافات أو الأحجام أو الاتجاهات. ويمكن إثبات ذلك بسهولة عند مطالبتها بتدوير جسمٍ ما ذهنيًا أو التنبؤ بمسار كرةٍ متحركة.

وتشير لِي إلى أن البشر، على النقيض، يدمجون الإدراك والمعنى فورًا؛ إذ لا نرى الكوب فقط، بل نستوعب وزنه وحجمه وموقعه في المكان، وهي قدرات ما زال الذكاء الاصطناعي يفتقر إليها تمامًا.

وترجع لِي جذور الذكاء إلى أبسط حلقات الإدراك والحركة عند الكائنات الأولى، وهي الحلقة التي تطورت لاحقًا إلى قدرة على التفاعل مع البيئة ثم التفكير والتخطيط، على حد قولها. وتؤكد أن معظم الأنشطة الإنسانية – من القيادة والرسم إلى التقاط الأشياء – تعتمد على ذلك الوعي المكاني، وليس على اللغة وحدها.

كيف قادت “الرؤية المكانية” أعظم الاكتشافات؟

تتوقف لِي عند أمثلة تاريخية بارزة، مثل حساب العالم إراتوستينس محيط الأرض باستخدام ظلال في مدينتين مصريتين، واكتشاف نموذج الحمض النووي على يدي العالمين واطسون وكريك بعد تجارب على مجسمات معدنية. وتؤكد أن هذه القفزات الحضارية كانت ممكنة بفضل “الذكاء المكاني” لا اللغة والكلمات.

من النماذج اللغوية إلى “نماذج العالم”

ترى لِي أن المرحلة المقبلة من الذكاء الاصطناعي ستحكمها ما تسميه “نماذج العالم World Models”، وهي أنظمة قادرة على بناء عوالم ثلاثية الأبعاد متماسكة، والتنبؤ بتغير المشاهد عند حدوث أي حركة أو فعل. ويجب بحسب لِي أن تكون هذه النماذج مولّدة للبيئات، ومتعددة الوسائط لمعالجة النصوص والصور والفيديو والعمق، وتفاعلية لفهم نتائج الأفعال داخل المشهد.

وتؤكد أن هذا التحدي “أضخم مما واجهته تقنيات الذكاء الاصطناعي من قبلُ”؛ لأن اللغة مجرد تمثيل مجرد، في حين أن العالم الحقيقي تحكمه قوانين صارمة.

خطوات نحو نماذج ثلاثية ورباعية الأبعاد

وفي الوقت الذي تطور فيه شركتها World Labs نموذجها التجريبي الجديد “Marble”، تعمل الشركة على تحديد “قيمة تدريبية” بسيطة تعادل مبدأ التنبؤ بالكلمة التالية في النماذج اللغوية، ولكن تنطبق على الحركة والفضاء والسببية. ويتطلب ذلك مجموعات ضخمة من الصور والفيديو والبيانات الثلاثية الأبعاد، إلى جانب طرق ترميز تحتفظ بالبنية المكانية بدلًا من تسطيحها في تسلسلات أحادية البعد كما يحدث اليوم.

وتشاركها شركة “Spaitial” الألمانية الرؤية نفسها من خلال تطوير نماذج الأسس المكانية القادرة على توليد عوالم ثلاثية الأبعاد واقعية أو متخيلة استنادًا إلى النص أو الصورة، مع الحفاظ على اتساق المادة والهندسة والحركة.

وكشفت لِي أن “Marble” يمنح المصممين والفنانين القدرة على إنشاء بيئات ثلاثية الأبعاد مستمرة فورًا، مع أن النموذج ما يزال يفتقر إلى الثبات الكامل في المشاهد. وتشير إلى أن التطبيقات اللاحقة قد تشمل الروبوتات، إذ يشكّل الفهم المكاني شرطًا أساسيًا للإمساك بالأشياء وتخطيط المسارات، قبل أن يصل الذكاء الاصطناعي إلى مرحلة إجراء محاكاة علمية متقدمة وتجربة الفرضيات أو استكشاف البيئات التي يتعذر على البشر الوصول إليها، من أعماق البحار إلى أسطح الأقمار.

اتفاق مع علماء آخرين

يوافق لِي الرأي علماء آخرين بارزين، مثل يان لوكون، كبير علماء الذكاء الاصطناعي في ميتا الذي غادرها حديثًا. ويرى لوكون أيضًا أن النماذج اللغوية الضخمة، مع قدرتها البلاغية، تفتقر إلى الخبرة الحسية وفهم العالم الحقيقي، ولا يمكنها وحدها الوصول إلى ذكاء يشبه التفكير البشري.

ويؤكد لوكون ولي أن المرحلة المقبلة في تطور الذكاء الاصطناعي تعتمد على “نماذج العالم” والذكاء المكاني القائم على البيانات البصرية والمكانية، وهي مقاربة تضع الفهم العميق للبيئة في صدارة البحث العلمي، وتُشكّل الطريق الأكثر واقعية نحو بناء أنظمة ذكية بحق.

