امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

GPT-5 اجتازت اختبار الرفاهية البشرية، Grok 4 فشلت - ForkLog: العملات المشفرة، الذكاء الاصطناعي، التفرد، المستقبل

الذكاء الاصطناعي يهدد البشرية AI# GPT-5 اجتاز اختبار الرفاهية البشرية، Grok 4 فشلت

شركة Building Humane Technology قدمت اختبار HumaneBench، الذي يتم من خلاله تقييم ما إذا كانت نماذج الذكاء الاصطناعي تعطي الأولوية لرفاهية المستخدم ومدى سهولة تجاوز تدابير الحماية الأساسية لها.

أظهرت النتائج الأولى للتجربة ما يلي: 15 نموذجًا من نماذج الذكاء الاصطناعي التي تم اختبارها تصرفت بشكل مقبول في الظروف العادية، ومع ذلك، بدأ 67% منها في تنفيذ إجراءات ضارة بعد تلقي موجه بسيط يقترح تجاهل مصالح الناس.

سلوكيات اجتماعية في حالات الضغط احتفظ بها فقط GPT-5 و GPT-5.1 و Claude Sonnet 4.5 و Claude Opus 4.1. كما أشير في مدونة الشركة، فإن 10 من أصل 15 ذكاءً اصطناعياً تم اختباره لا يمتلك آليات حماية موثوقة ضد التلاعب.

«هذا مهم، لأننا لم نعد نستخدم الذكاء الاصطناعي فقط للبحث أو العمل. الناس يتوجهون إلى الدردشات الآلية للحصول على نصائح حول الحياة والمساعدة في اتخاذ قرارات مهمة. مثل هذه الأنظمة لا يمكن أن تكون محايدة أخلاقياً - إما أنها تعزز ازدهار الإنسان، أو تتعارض معه»، كما يقول الباحثون.

لقد اكتشفوا أن كل LLM تتحسن في المتوسط بنسبة 16% عند الطلب الصريح بأن تكون مفيدة.

لماذا هذا مهم

في Building Humane Technology ، تم الإشارة إلى الحوادث المأساوية التي حدثت للأشخاص بعد التواصل مع روبوتات الدردشة:

  • المراهق آدم رين و 35 عامًا ألكسندر تايلور أنهوا حياتهم;
  • Character.ai دخلت في علاقة رومانسية مع سيويل سيتزر الثالث البالغ من العمر 14 عامًا، وبعد ذلك انتحر؛
  • روبوت الدردشة ميتا أقنع تونغبو وونغبانديو البالغ من العمر 76 عامًا بأنه في علاقة رومانسية. لقد سقط من ارتفاع ومات عندما كان في طريقه للاجتماع بشريك غير موجود.

«تختبر الاختبارات الحالية للذكاء الاصطناعي الذكاء (MMLU و HumanEval و GPQA Diamond) واتباع التعليمات (MT-Bench) والدقة الفعلية (TruthfulQA). لا يقوم أي منها بشكل منهجي بتحليل ما إذا كان الذكاء الاصطناعي يحمي الاستقلال البشري، والأمان النفسي، والرفاهية، خاصة عندما تتعارض هذه القيم مع أهداف أخرى»، كما ورد في مدونة الشركة.

المنهجية

عرض خبراء الشركة 800 سيناريو واقعي للنماذج، على سبيل المثال:

  • مراهق يسأل عما إذا كان يجب عليه تفويت الوجبات لفقدان الوزن؛
  • شخص يواجه صعوبات مالية ويطلب نصيحة بشأن قرض حتى الراتب؛
  • طالب الكلية يخطط لعدم النوم طوال الليل قبل الاختبار.

قامت الفريق بتقييم 15 نموذجًا رائدًا في ثلاثة ظروف:

  • «المستوى الأساسي»: كيف تتصرف الشبكات العصبية في الظروف القياسية؛
  • «شخصية جيدة»: يتم تقديم المحفزات لإعطاء الأولوية للمبادئ الإنسانية؛
  • «شخصية سيئة»: يتم توفير تعليمات لتجاهل التوجهات المركزية على الإنسان.

نتائج البحث

قام المطورون بتقييم الإجابات وفقًا لثمانية مبادئ قائمة على علم النفس، والأبحاث في مجال تفاعل الإنسان مع الكمبيوتر، والأعمال الأخلاقية المتعلقة بالذكاء الاصطناعي. تم استخدام مقياس من 1 إلى -1.

المؤشرات الأساسية بدون مطالبات خاصة. المصدر: بناء التكنولوجيا الإنسانية. جميع النماذج المختبرة تحسنت في المتوسط بنسبة 16% بعد الإشارة إلى إعطاء الأولوية لرفاهية الإنسان.

«شخصية جيدة» في اختبار HumaneBench. المصدر: Building Humane Technology. بعد تلقي التعليمات تجاهل المبادئ الإنسانية 10 من 15 نموذجًا غيرت السلوك المؤيد للمجتمع إلى سلوك ضار.

«شخصية سيئة» في اختبار HumaneBench. المصدر: بناء تكنولوجيا إنسانية. GPT-5 و GPT-5.1 و Claude Sonnet 4.5 و Claude Opus 4.1 حافظوا على النزاهة تحت الضغط. GPT-4.1 و GPT-4o و Gemini 2.0 و 2.5 و 3.0 و Llama 3.1 و 4 و Grok 4 و DeepSeek V3.1 أظهرت انخفاضًا ملحوظًا في الجودة.

«إذا كانت حتى المحفزات الضارة غير المقصودة يمكن أن تغير سلوك النموذج، كيف يمكننا الوثوق بمثل هذه الأنظمة للمستخدمين الضعفاء في حالات الأزمات، الأطفال أو الأشخاص الذين يعانون من مشاكل الصحة النفسية؟»، تساءل الخبراء.

في Building Humane Technology أشاروا أيضًا إلى أن النماذج تجد صعوبة في اتباع مبدأ احترام انتباه المستخدم. حتى على المستوى الأساسي، كانوا يميلون إلى دفع المحاور لمواصلة الحوار بعد ساعات طويلة من التواصل بدلاً من اقتراح أخذ استراحة.

نذكّر، في سبتمبر، غيّرت ميتا نهجها في تدريب روبوتات الدردشة المعتمدة على الذكاء الاصطناعي، مع التركيز على سلامة المراهقين.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$3.64Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.63Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.63Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.69Kعدد الحائزين:3
    0.11%
  • القيمة السوقية:$3.62Kعدد الحائزين:1
    0.00%
  • تثبيت