🚨 عاجل: أصدرت OpenAI مقالًا يثبت أن ChatGPT سيختلق دائمًا أشياء.



ليس أحيانًا. ليس قبل التحديث التالي. دائمًا. لقد أثبتوا ذلك في الرياضيات.

حتى مع بيانات تدريب مثالية وقوة حساب غير محدودة، ستظل نماذج الذكاء الاصطناعي تقول بثقة أشياء خاطئة تمامًا. ليست مشكلة برمجية يعملون على إصلاحها. هذا يوضح كيف تعمل هذه الأنظمة على المستوى الأساسي.

وأرقامهم الخاصة قاسية. نموذج الاستدلال o1 من OpenAI يتوهّم في 16% من الحالات. نموذجهم الجديد O3؟ 33 بالمئة. نموذج o4-mini الجديد؟ 48 بالمئة. تقريبًا نصف المعلومات التي يقدمها أحدث نماذجهم قد تكون مختلقة. النماذج "الأذكى" في الواقع أسوأ تدريجيًا في قول الحقيقة.

إليك سبب عدم إمكانية تصحيح ذلك. تعمل نماذج اللغة على التنبؤ بالكلمة التالية بناءً على الاحتمالية. عندما يواجهون موقفًا غير مؤكد، لا يتوقفون. لا يشيرون إلى ذلك. يفرضون الافتراضات. ويخمنون بثقة كاملة، لأن هذا هو الهدف من تدريبهم بالضبط.

فحص الباحثون أهم 10 معايير للذكاء الاصطناعي المستخدمة لقياس جودة هذه النماذج. 9 من كل 10 يعطون نفس التقييم لقول "لا أعرف" كما لو كانوا يعطون إجابة خاطئة تمامًا: صفر نقطة. نظام الاختبار بأكمله يعاقب الصدق ويكافئ التخمين.

لذا، تعلم الذكاء الاصطناعي الاستراتيجية المثلى: دائمًا التخمين. لا تعترف أبدًا بعدم اليقين. يبدو واثقًا حتى عندما يخترع.

ما هو الحل المقترح من قبل OpenAI؟ اطلب من ChatGPT أن يقول "لا أعرف" عندما يكون غير متأكد. تظهر حساباتهم أن ذلك سيعني أن حوالي 30% من أسئلتك لن يكون لها إجابة. تخيل أن تسأل ChatGPT ثلاث مرات من أصل عشر وتتلقي "لست واثقًا بما يكفي للرد". سيغادر المستخدمون خلال الليل. إذن، الحل موجود، لكنه سيدمر المنتج.

هذه ليست مشكلة OpenAI فقط. توصلت DeepMind وجامعة تسينغهوا بشكل مستقل إلى نفس الاستنتاج. ثلاثة من أفضل مختبرات الذكاء الاصطناعي في العالم، تعمل بشكل منفصل، جميعهم يتفقون: الأمر دائم.

كلما أعطاك ChatGPT إجابة، اسأل نفسك: هل هو حقيقي أم مجرد افتراض واثق؟

إليك رد Come-from-Beyond 👇
بدأوا يفهمون لماذا

#QUBIC #Aigarth .* وضعوا القدرة على قول "لا أعرف" في صلب اهتماماتهم

$QUBIC
QUBIC3.31%
شاهد النسخة الأصلية
post-image
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.4Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.41Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.44Kعدد الحائزين:2
    0.00%
  • القيمة السوقية:$2.46Kعدد الحائزين:2
    0.20%
  • تثبيت