لقد مر أكثر من نصف عام، وترتيب ChatGPT في الأسفل تقريبًا.

2023-09-09 03:11:22

المؤلف: سانيان للتكنولوجيا

اليوم صادفتني الصورة بالصدفة.

وفقًا للصورة، احتل GPT-4 من OpenAI المرتبة الأخيرة بين 11 نموذجًا كبيرًا (النموذج الأول يحمل رقم 0). وأضاف بعض مستخدمي الإنترنت عبارة "GPT4: كيف يمكنني تقديم شكوى بشأن مظالمي؟"

وهذا يثير فضول الناس، ففي بداية هذا العام، بعد أن أصبح ChatGPT شائعًا، بدأت شركات أخرى في ذكر مفهوم النماذج الكبيرة.

لقد مر أكثر من نصف عام فقط، وGPT بالفعل "في القاع"؟

ولذلك، أراد المؤلف أن يرى كيف كان ترتيب GPT.

وقت الاختبار مختلف فريق الاختبار مختلف GPT-4 يحتل المركز الحادي عشر

انطلاقا من المعلومات المعروضة في الصورة في المقالة السابقة، هذا الترتيب من قائمة C.

C-List، الاسم الكامل لقائمة اختبار الفحص الشامل للنموذج الكبير C-Global، عبارة عن مجموعة تقييم امتحانات شاملة لنموذج اللغة الصينية تم إنشاؤها بشكل مشترك من قبل جامعة تسينغهوا وجامعة شنغهاي جياو تونغ وجامعة إدنبرة.

يُذكر أن الجناح يغطي أربعة اتجاهات رئيسية هي: العلوم الإنسانية، والعلوم الاجتماعية، والعلوم والهندسة، وغيرها من التخصصات، بما في ذلك 52 موضوعًا، تغطي مجالات معرفية متعددة مثل حساب التفاضل والتكامل والجبر الخطي. يوجد إجمالي 13,948 سؤالًا حول المعرفة والاستدلال باللغة الصينية، مع صعوبة مقسمة إلى أربعة مستويات اختبار: المدرسة المتوسطة، والجامعية، والدراسات العليا، والمهنية.

لذلك قام المؤلف بفحص أحدث قائمة C.

ويتوافق الترتيب الأخير لقائمة C مع الترتيب الموضح في الصورة السابقة، ومن بين أفضل 11 طرازًا كبيرًا، يحتل GPT-4 المرتبة الأخيرة.

وفقًا لقائمة C، تمثل هذه النتائج اختبارات اللقطة الصفرية (تعلم اللقطة الصفرية) أو اختبارات اللقطة القليلة (تعلم اللقطة القليلة)، لكن اللقطة القليلة ليست بالضرورة أفضل من اللقطة الصفرية.

ج- قال أنه في اختباراته وجد أن العديد من النماذج بعد الضبط الدقيق للتعليمات كانت أفضل في ظل الصفر. حصلت العديد من النماذج التي تم اختبارها على نتائج ذات طلقة صفرية وقليلة اللقطة، ويظهر الترتيب الإعداد ذو متوسط النتيجة الإجمالية الأفضل.

تشير قائمة C أيضًا إلى أن أسماء النماذج الكبيرة التي تحتوي على "*" تشير إلى أن نتائج النموذج تم اختبارها بواسطة فريق C، بينما تم الحصول على نتائج أخرى من خلال عمليات إرسال المستخدم.

بالإضافة إلى ذلك، لاحظ المؤلف أيضًا أن وقت تقديم نتائج الاختبار لهذه النماذج الكبيرة يختلف بشكل كبير.

موعد تقديم نتيجة اختبار GPT-4 هو 15 مايو، بينما تقدم Yuntianshu، التي احتلت المرتبة الأولى، نتائجها في 31 أغسطس، وتقدم Galaxy، التي احتلت المرتبة الثانية، نتائجها في 23 أغسطس، وYaYi، التي احتلت المرتبة الثالثة، تقدم نتائجها في 31 أغسطس. ليوم 4 سبتمبر.

علاوة على ذلك، من بين أفضل 16 طرازًا كبيرًا، فقط GPT-4 تمت إضافة "*" إلى اسمه وتم اختباره بواسطة الفريق C.

لذلك قام المؤلف بفحص قائمة C الكاملة مرة أخرى.

تتضمن أحدث قائمة C ما مجموعه 66 تصنيفًا للنماذج الكبيرة.

من بينهم، هناك 11 فقط تحمل "*" في أسمائهم، والتي تم اختبارها من قبل الفريق C، وكان وقت التقديم للاختبار 15 مايو.

بالنسبة لهذه النماذج الكبيرة التي اختبرها الفريق C، احتل GPT-4 من OpenAI المرتبة 11، واحتل ChatGPT المرتبة 36، واحتل ChatGLM-6B من Tsinghua Zhipu AI المرتبة 60، واحتل MOSS من فودان المرتبة 6.44.

على الرغم من أن هذه التصنيفات يمكن أن تظهر زخم التطور السريع للنماذج الكبيرة المحلية، إلا أن المؤلف يعتقد أنه بعد كل شيء، لا يتم اختبارها من قبل نفس الفريق في نفس الوقت، وهذا لا يكفي لإثبات من هو الأقوى ومن الأضعف بين هذه النماذج الكبيرة.

هذا مثل فئة من الطلاب تختلف أوقات امتحاناتهم ويجيبون على أوراق مختلفة، كيف يمكننا الاعتماد على درجات كل طالب للمقارنة؟

ماذا يقول مطورو النماذج الكبيرة؟ قال العديد من الأشخاص إنهم تفوقوا على ChatGPT في اللغة الصينية والقدرات الأخرى

في الآونة الأخيرة، كانت دائرة النماذج الكبيرة مفعمة بالحيوية للغاية.

بالإضافة إلى ذلك، اجتازت المنتجات النموذجية الكبيرة لثماني شركات بما في ذلك Baidu وByte تسجيل "التدابير المؤقتة لإدارة خدمات الذكاء الاصطناعي التوليدي" ويمكن إطلاقها رسميًا عبر الإنترنت لتقديم الخدمات للجمهور. أصدرت شركات أخرى على التوالي منتجاتها النموذجية الكبيرة.

فكيف يقدم مطورو هذه النماذج الكبيرة منتجاتهم؟

في 7 يوليو، في منتدى المؤتمر العالمي للذكاء الاصطناعي لعام 2023 بعنوان "الفرص والمخاطر لتطوير صناعة الذكاء الاصطناعي العامة في عصر النماذج الكبيرة"، تشيو شي بينغ، الأستاذ في كلية علوم الكمبيوتر والتكنولوجيا بجامعة فودان ورئيس قسم قال نظام MOSS إن نموذج لغة المحادثة واسع النطاق من فودان MOSS بعد إصداره في فبراير من هذا العام، ظل يكرر باستمرار، "** تمكن أحدث MOSS من تجاوز ChatGPT ** في القدرات الصينية."

في نهاية شهر يوليو، أطلقت NetEase Youdao نموذجًا كبيرًا للترجمة، وقد صرح Zhou Feng، الرئيس التنفيذي لشركة NetEase Youdao، علنًا أنه في الاختبارات الداخلية، في اتجاه الترجمة الصينية-الإنجليزية، تجاوز قدرات الترجمة في ChatGPT وتجاوز مستوى الترجمة من Google. **

في أواخر أغسطس، في القمة الصيفية لمنتدى Yabuli لعام 2023، ألقى ليو تشينغ فنغ، مؤسس ورئيس iFlytek، خطابًا وقال: "** لقد تجاوزت إمكانات إنشاء التعليمات البرمجية وإكمالها لنموذج iFlytek Spark ChatGPT، وغيرها من هذه القدرة "اللحاق بالركب بسرعة. **المنطق والخوارزميات وأنظمة الأساليب وإعدادات البيانات لقدرة الكود الحالية جاهزة، وكل ما هو مطلوب هو الوقت والقدرة الحاسوبية. "

ذكرت SenseTime في بيان صحفي صدر مؤخرًا أنه في أغسطس من هذا العام، أكمل النموذج الجديد interlm-123b التدريب وزاد عدد المعلمات إلى 123 مليارًا. **من بين 51 مجموعة تقييم معروفة عالميًا تضم إجمالي 300000 سؤال، احتلت نتائج الاختبار الإجمالية المرتبة الثانية في العالم، متجاوزة نماذج مثل gpt-3.5-turbo وllama2-70b الذي تم إصداره حديثًا بواسطة شركة Meta. **

وفقًا لـ Shangtang، احتل **internlm-123 المرتبة الأولى في 12 تقييمًا رئيسيًا. من بينها، درجة agi في الاختبار الشامل لمجموعة التقييم هي 57.8، متجاوزة gpt-4 وتحتل المرتبة الأولى؛ درجة تقييم **knowledge commonsenseqa هي 88.5، المرتبة الأولى؛ درجات internlm-123b في تقييمات فهم القراءة الخمسة الكل أعلى القائمة.

بالإضافة إلى حصوله على المرتبة الأولى في التقييمات الخمسة للاستدلال.

في وقت سابق من هذا الشهر، أصدرت Zuoyebang رسميًا نموذج Galaxy الذي تم تطويره ذاتيًا.

قال Zuoyebang أن نموذج Galaxy حقق نتائج في معياري تقييم نموذج اللغة الكبيرة الرسميين وهما C- وCMMLU. تظهر البيانات أن Zuoyebang Galaxy Big Model يحتل المرتبة الأولى في C- بمتوسط درجات 73.7 نقطة، وفي الوقت نفسه، يحتل المرتبة في قائمة CMMLU لتقييمات Five-shot وZero-shot بمتوسط درجات 74.03 نقطة و73.85 نقطة على التوالي. أولاً، أصبح أول نموذج تعليمي رئيسي يحتل المرتبة الأولى في متوسط الدرجات في القائمتين الموثوقتين المذكورتين أعلاه.

بالأمس، أعلنت Baichuan Intelligent عن الإصدار الرسمي المفتوح المصدر Baichuan 2-7B، وBaichuan 2-13B، وBaichuan 2-13B-Chat ونسختها الكمية ذات 4 بت.

قال وانغ شياو تشوان، المؤسس والرئيس التنفيذي لشركة Baichuan Intelligence، إنه في المجال الصيني، تجاوز الأداء الفعلي لنموذج الدردشة المضبوط بدقة في بيئة الأسئلة والأجوبة أو البيئة الموجزة أداء النماذج مغلقة المصدر مثل ChatGPT-3.5. **

اليوم، في مؤتمر Tencent العالمي للبيئة الرقمية لعام 2023، أصدرت Tencent رسميًا نموذج Hunyuan الكبير. قال جيانغ جي، نائب رئيس مجموعة Tencent، إن قدرة اللغة الصينية للنموذج الكبير Tencent Hunyuan قد تجاوزت GPT-3.5. **

بالإضافة إلى التقديم الذاتي لهؤلاء المطورين، قامت بعض وسائل الإعلام والفرق أيضًا بتقييم نموذج كبير.

في أوائل أغسطس، أصدر فريق شين يانغ، الأستاذ والمشرف على الدكتوراه في كلية الصحافة والاتصالات بجامعة تسينغهوا، "تقرير تقييم الأداء الشامل لنماذج اللغات الكبيرة". يُظهر التقرير أن النتيجة الشاملة لـ Baidu Wenxinyiyan في 20 مؤشرًا في ثلاثة أبعاد رئيسية تتصدر البلاد، وهي أفضل من ChatGPT، ومن بينها، يحتل الفهم الدلالي الصيني مرتبة عالية، وبعض القدرات الصينية أفضل من GPT-4. **

في منتصف أغسطس، ذكرت بعض وسائل الإعلام أنه في 11 أغسطس، ظهر نموذج Xiaomi الكبير MiLM-6B في قوائم تقييم النماذج الكبيرة C- وCMMLU. اعتبارًا من الآن، تحتل MiLM-6B المرتبة العاشرة في قائمة C الشاملة، والأولى في نفس حجم المعلمة، والأولى في نماذج CMMLU الصينية الكبيرة.

في 12 أغسطس، أصدرت جامعة تيانجين "تقرير تقييم النموذج الكبير". يوضح التقرير أن الأداء الشامل لـ **GPT-4 وBaidu Wenxinyiyan يتفوق بشكل كبير على النماذج الأخرى، ولا تختلف نتائجها كثيرًا وهي على نفس المستوى. لقد تفوق Wen Xinyiyan على ChatGPT في معظم المهام الصينية وقام بتضييق الفجوة تدريجيًا مع GPT-4. **

في أواخر أغسطس، ذكرت بعض وسائل الإعلام أن نموذج اللغة الكبير الذي طوره كوايشو ذاتيًا "KwaiYii" قد بدأ الاختبار الداخلي. في أحدث تصنيفات CMMLU ذات التوجه الصيني، احتل KwaiYii-13B، الإصدار 13B من KwaiYi، المرتبة الأولى في كل من اللقطات الخمس والطلقات الصفرية، وهو قوي في العلوم الإنسانية والموضوعات الصينية المحددة وما إلى ذلك، بمتوسط درجات أكثر من 61 نقطة.

يتبين مما سبق أنه على الرغم من أن هذه النماذج الكبيرة تدعي أنها في أعلى تصنيف معين أو تتفوق على ChatGPT في جوانب معينة، إلا أن معظمها تؤدي أداءً جيدًا في بعض المجالات المحددة.

وبالإضافة إلى ذلك، فإن بعض الدرجات الشاملة تتجاوز GPT-3.5 أو GPT-4، ولكن تم إيقاف اختبار GPT في شهر مايو. فمن يستطيع أن يضمن أن GPT لم يتحسن في الأشهر الثلاثة الماضية؟

وضع OpenAI

وفقًا لتقرير صادر عن مجموعة UBS في فبراير، بعد شهرين فقط من إطلاق ChatGPT، تجاوز عدد المستخدمين النشطين شهريًا 100 مليون في نهاية يناير 2023، مما يجعله تطبيق المستهلك الأسرع نموًا في التاريخ.

لكن تطوير ChatGPT ليس بهذه السلاسة.

في يوليو من هذا العام، اشتكى العديد من مستخدمي GPT-4 من انخفاض أداء GPT-4 مقارنة بقدرات الاستدلال السابقة.

أشار بعض المستخدمين إلى مشاكل على تويتر ومنتدى مطوري OpenAI عبر الإنترنت، مع التركيز على المنطق الأضعف، والإجابات غير الصحيحة، وعدم القدرة على تتبع المعلومات المقدمة، وصعوبة اتباع التعليمات، ونسيان إضافة الأقواس في كود البرنامج الأساسي، وتذكر فقط أحدث النصائح، الخ.

وفي أغسطس، ذكر تقرير آخر أن OpenAi قد تكون في أزمة مالية محتملة وقد تفلس بحلول نهاية عام 2024.

وذكر التقرير أن OpenAI تكلف حوالي 700 ألف دولار أمريكي يوميًا فقط لتشغيل خدمة الذكاء الاصطناعي ChatGPT. حاليًا، تحاول الشركة أن تصبح مربحة باستخدام GPT-3.5 وGPT-4، لكنها لم تحقق بعد إيرادات كافية لتحقيق التعادل.

ومع ذلك، قد يكون لدى OpenAI أيضًا فرص جديدة.

أعلنت OpenAI مؤخرًا أنها ستعقد أول مؤتمر للمطورين في نوفمبر.

على الرغم من أن OpenAI ذكرت أنها لن تطلق GPT-5، إلا أن OpenAI قالت إن مئات المطورين من جميع أنحاء العالم سيعملون مع فريق OpenAI لمعاينة "الأدوات الجديدة" مسبقًا وتبادل الأفكار.

قد يعني هذا أن ChatGPT قد حقق تقدمًا جديدًا.

وفقًا لصحيفة The Paper، في 30 أغسطس، كشف شخص مطلع على الأمر أنه من المتوقع أن تحقق OpenAI إيرادات تزيد عن مليار دولار أمريكي في الأشهر الـ 12 المقبلة من خلال بيع برامج الذكاء الاصطناعي والقدرة الحاسوبية اللازمة لتشغيلها.

اليوم، ذكر تقرير إعلامي آخر أن مورجان ستانلي سيطلق روبوت دردشة ذكاء اصطناعي تم تطويره بالاشتراك مع OpenAI في وقت لاحق من هذا الشهر.

الأشخاص الذين يتعاملون مع المصرفيين في مورجان ستانلي إما أغنياء أو أثرياء. إذا كان بإمكان روبوت المحادثة المبتكر القائم على الذكاء الاصطناعي أن يقدم تجربة مختلفة لعملاء مورجان ستانلي، فقد يكون ذلك مكسبًا كبيرًا لـ OpenAI.

لقد أصبح وصول عصر الذكاء الاصطناعي أمرًا لا يمكن إيقافه. أما بالنسبة لمن هو الأفضل، فلا يمكنك أن تخبر نفسك فحسب، بل يجب عليك السماح للمستخدمين بتقييمه. نعتقد أيضًا أن النماذج المحلية الكبيرة ستلحق بالتأكيد بـ ChatGPT من حيث القدرات المحددة والقدرات الشاملة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1