الاختبار الأخير للإنسانية: الذكاء الاصطناعي ليس لديه أي فرصة في الاختبار!
تشارك جامعة الرور في بوخوم في "الاختبار الأخير للإنسانية"، وهو معيار جديد لتقييم قدرات الذكاء الاصطناعي.

الاختبار الأخير للإنسانية: الذكاء الاصطناعي ليس لديه أي فرصة في الاختبار!
في 1 أبريل 2025، تم تقديم مجموعة البيانات المعيارية "الاختبار الأخير للإنسانية"، المصممة خصيصًا لاختبار قدرات الذكاء الاصطناعي التوليدي (AI). تحتوي مجموعة البيانات هذه على 550 سؤالًا تم اختيارها من أكثر من 70000 طلب. ساهم علماء الرياضيات من جامعة الرور في بوخوم، البروفيسور الدكتور كريستيان ستامب والأستاذ الدكتور ألكسندر إيفانوف، بنشاط في ثلاثة أسئلة لمجموعة بيانات الاختبار. وساهم في تجميع الأسئلة حوالي 1000 خبير من 50 دولة. ولضمان نزاهة الاختبار، تم اختيار الأسئلة غير المنشورة فقط حتى لا تتمكن نماذج الذكاء الاصطناعي من البحث ببساطة عن الإجابات على الإنترنت.
أحد الجوانب الملحوظة بشكل خاص في مجموعة البيانات هو أن 40 بالمائة من الأسئلة تأتي من مجال الرياضيات. يمكن استخدام هذه الأسئلة كأساس لأطروحات الدكتوراه. بالإضافة إلى ذلك، اتضح أنه كلما كانت الأسئلة أكثر تجريدًا، كان من الممكن إلقاء الضوء على سلاسل التفكير الخاصة بالذكاء الاصطناعي بشكل أفضل. وعلى الرغم من هذا الهيكل المعقد، فإن الذكاء الاصطناعي الذي تم اختباره كان قادرًا على الإجابة بشكل هادف على تسعة بالمائة فقط من الأسئلة. قدمت النماذج باستمرار إجابات غير قابلة للاستخدام على الأسئلة المتبقية. ويكشف هذا عن التحديات في اختبار الذكاء والقدرات الموجهة نحو حل المشكلات للذكاء الاصطناعي.
أهمية المعايير لتطورات الذكاء الاصطناعي
يمثل تقديم "الاختبار الأخير للإنسانية" (HLE) خطوة مهمة في تقييم نماذج اللغات الكبيرة. غالبًا ما كانت المعايير السابقة غير كافية لقياس التقدم الكبير في النماذج، حيث تم استيفاء المعايير الحالية مثل MMLU بواسطة النماذج بدقة تزيد عن 90 بالمائة. ومع ذلك، فإن هذا المستوى العالي من الدقة يحد من القدرة على تقييم القدرات الفعلية للنماذج بشكل واقعي. تهدف مجموعة بيانات "HLE" إلى أن تكون آخر تقييم أكاديمي مغلق يغطي مجموعة واسعة من المواضيع.
ويتضمن "HLE" إجمالي 3000 سؤال في مختلف التخصصات، بما في ذلك الرياضيات والعلوم الإنسانية والعلوم. تحتوي مجموعة البيانات على أسئلة متعددة الخيارات وأسئلة ذات إجابات قصيرة مناسبة للتقييم التلقائي. كل سؤال له حل واضح وقابل للتحقق ولا يمكن الإجابة عليه بسرعة من خلال بحث بسيط على الإنترنت. تظهر نماذج اللغة الحالية ضعف الدقة والمعايرة عند اختبارها باستخدام "HLE"، مما يشير إلى وجود فجوة كبيرة بين قدرات النماذج وأداء الخبراء البشريين في الأسئلة الأكاديمية المغلقة. وهذا يسلط الضوء على التحديات التي تواجه تصنيف تطور الذكاء الاصطناعي الحالي ويسلط الضوء على الحاجة الملحة إلى المراجعة المستمرة للتقدم المحرز في هذا المجال.
بالنسبة للمهتمين، فإن "HLE" متاح للعامة ويتم تشجيع المستخدمين على الاستشهاد بالعمل عند استخدام مجموعة البيانات في البحث. يمكن أن تساعد هذه المبادرة بشكل كبير في التأثير بشكل كبير على المعايير والتوقعات المستقبلية لأدوات التعليم والتقييم التي تعتمد على الذكاء الاصطناعي. من أجل الاستمرار في مراقبة التطورات في مجال الذكاء الاصطناعي وأدائه بشكل نقدي، تعد هذه المعايير ضرورية.