Yarım yıldan fazla bir süre geçti ve ChatGPT'nin sıralaması neredeyse en altta.

Yazar: Sanyan Teknolojisi

Bugün tesadüfen bir fotoğrafa rastladım.

Resme göre OpenAI'nin GPT-4'ü 11 büyük model arasında sonuncu sırada yer aldı (ilki 0 numaradır). Bazı netizenler "GPT4: Şikayetlerim hakkında nasıl şikayette bulunabilirim?" ifadesini ekledi.

Bu da insanı meraklandırıyor.Bu yılın başında ChatGPT'nin popüler hale gelmesinin ardından diğer firmalar da büyük model konseptinden bahsetmeye başladı.

Yalnızca altı aydan fazla zaman geçti ve GPT şimdiden "en dibe" mi ulaştı?

Bu nedenle yazar GPT sıralamasının nasıl olduğunu görmek istedi.

Test süresi farklıdır Test ekibi farklıdır GPT-4 on birinci sıradadır

Önceki yazıdaki resimde gösterilen bilgilere bakılırsa bu sıralama C listesindendir.

C-Global Büyük Model Kapsamlı Sınav Test Listesinin tam adı olan C-List, Tsinghua Üniversitesi, Shanghai Jiao Tong Üniversitesi ve Edinburgh Üniversitesi tarafından ortaklaşa oluşturulan bir Çince dil modeli kapsamlı sınav değerlendirme paketidir.

Paketin dört ana alanı kapsadığı bildiriliyor: Beşeri bilimler, sosyal bilimler, fen bilimleri ve mühendislik ile matematik ve doğrusal cebir gibi birden fazla bilgi alanını kapsayan 52 konu da dahil olmak üzere diğer ana dallar. Ortaokul, lisans, yüksek lisans ve mesleki olmak üzere dört test seviyesine ayrılmış zorluk derecesine sahip toplam 13.948 Çince bilgi ve muhakeme sorusu bulunmaktadır.

Böylece yazar en son C listesini kontrol etti.

C listesinin son sıralaması önceki resimde gösterilen sıralamayla tutarlıdır.En iyi 11 büyük model arasında GPT-4 son sırada yer almaktadır.

C listesine göre, bu sonuçlar sıfır atış (sıfır atış öğrenme) veya birkaç atış (birkaç atış öğrenme) testlerini temsil eder, ancak birkaç atış mutlaka sıfır atıştan daha iyi değildir.

C-, testlerinde talimat ince ayarından sonra birçok modelin sıfır atışta daha iyi olduğunun tespit edildiğini söyledi. Test edilen modellerin çoğunda hem sıfır atış hem de az atış sonuçları var ve sıralama, daha iyi genel ortalama puana sahip ayarı gösteriyor.

C listesi ayrıca "*" işaretli büyük model adlarının, model sonuçlarının C ekibi tarafından test edildiğini, diğer sonuçların ise kullanıcı gönderimleri yoluyla elde edildiğini gösterdiğini belirtir.

Ayrıca yazar, bu büyük modeller için test sonuçlarının gönderilme süresinin büyük ölçüde değiştiğini de fark etti.

GPT-4 için test sonucu gönderim tarihi 15 Mayıs'ta, birinci sırada yer alan Yuntianshu 31 Ağustos'ta, ikinci sırada yer alan Galaxy 23 Ağustos'ta ve üçüncü sırada yer alan YaYi ise sonuçlarını 31 Ağustos'ta sunacak. 4 Eylül için.

Üstelik ilk 16 büyük model arasında yalnızca GPT-4 ismine "*" ekledi ve C ekibi tarafından test edildi.

Böylece yazar C listesinin tamamını tekrar kontrol etti.

En son C listesi toplam 66 büyük model sıralamasını içeriyor.

Bunlardan isimlerinde "*" bulunan sadece 11 tanesi C takımı tarafından test ediliyor ve test için başvuru tarihi 15 Mayıs'tı.

C ekibi tarafından test edilen bu büyük modeller arasında OpenAI'nin GPT-4'ü 11., ChatGPT 36., Tsinghua Zhipu AI'nın ChatGLM-6B'si 60. ve Fudan'ın MOSS'u 6. sırada yer aldı.

Her ne kadar bu sıralamalar yerli büyük modellerin hızlı gelişim ivmesini gösterse de yazar, sonuçta aynı ekip tarafından aynı anda test edilmediğine inanıyor; bu da aralarında kimin daha güçlü, kimin daha zayıf olduğunu tam olarak kanıtlamak için yeterli değil. bu büyük modeller.

Bu, her birinin farklı sınav süreleri olan ve farklı ödevlere cevap veren öğrencilerden oluşan bir sınıfa benzer. Karşılaştırma yapmak için her öğrencinin puanına nasıl güvenebiliriz?

**Büyük model geliştiricileri ne diyor? **Birçok kişi Çince ve diğer yeteneklerde ChatGPT'yi geride bıraktıklarını söyledi

Son zamanlarda büyük modellerin çevresi oldukça hareketli.

Ayrıca Baidu ve Byte'ın da aralarında bulunduğu sekiz şirketin büyük model ürünleri, "Üretken Yapay Zeka Hizmetlerinin Yönetimine İlişkin Geçici Tedbirler" tescilini geçti ve halka hizmet vermek üzere resmi olarak çevrimiçi olarak piyasaya sürülebilecek. Diğer firmalar da sırasıyla kendi büyük model ürünlerini piyasaya sürdüler.

Peki bu büyük modellerin geliştiricileri ürünlerini nasıl tanıtıyorlar?

7 Temmuz'da, 2023 Dünya Yapay Zeka Konferansı "Büyük Model Çağında Genel Yapay Zeka Endüstrisinin Gelişimine Yönelik Fırsatlar ve Riskler" forumunda, Fudan Üniversitesi Bilgisayar Bilimi ve Teknolojisi Fakültesi profesörü ve Yapay Zeka başkanı Qiu Xipeng, MOSS sistemi, Fudan'ın konuşmaya dayalı büyük ölçekli dil modeli MOSS'un bu yılın şubat ayında piyasaya sürülmesinden sonra sürekli olarak yinelendiğini söyledi: "En son MOSS, Çin yeteneklerinde ChatGPT'yi geçmeyi başardı."

Temmuz ayının sonunda, NetEase Youdao büyük bir çeviri modeli başlattı.NetEase Youdao CEO'su Zhou Feng, dahili testlerde Çince-İngilizce çeviri yönünde ChatGPT ve Google Çeviri seviyesinin çeviri yeteneklerini aştığını kamuoyuna açıkladı. **

Ağustos ayı sonlarında, 2023 Yabuli Forum Yaz Zirvesi'nde iFlytek'in kurucusu ve başkanı Liu Qingfeng bir konuşma yaptı ve şunları söyledi: "**iFlytek Spark modelinin kod oluşturma ve tamamlama yetenekleri ChatGPT'yi ve diğerlerini geride bıraktı. **Mevcut kod kabiliyetine yönelik mantık, algoritmalar, yöntem sistemleri ve veri hazırlıkları hazır olup, ihtiyaç duyulan tek şey zaman ve bilgi işlem gücüdür.”

SenseTime geçtiğimiz günlerde yaptığı basın açıklamasında bu yılın ağustos ayında yeni model internlm-123b'nin eğitimini tamamladığını ve parametre sayısının 123 milyara çıktığını belirtmişti. **Toplam 300.000 sorunun yer aldığı küresel 51 tanınmış değerlendirme setinde genel test sonuçları, gpt-3.5-turbo ve Meta Company tarafından yeni piyasaya sürülen llama2-70b gibi modelleri geride bırakarak dünyada ikinci sırada yer aldı. **

Shangtang'a göre **internlm-123, 12 ana değerlendirmede birinci sırada yer aldı. Bunlar arasında değerlendirme setinin kapsamlı testindeki agi puanı 57,8 olup gpt-4'ü geçerek birinci sırada yer alır; **knowledge commonsenseqa'nın değerlendirme puanı 88,5 olup birinci sıradadır; beş okuduğunu anlama değerlendirmesinde internlm-123b puanları Tümü listenin başında.

Ayrıca muhakemeyle ilgili beş değerlendirmede de birinci sırada yer aldı.

Bu ayın başlarında Zuoyebang, kendi geliştirdiği Galaxy modelini resmi olarak piyasaya sürdü.

Zuoyebang, Galaxy modelinin C- ve CMMLU'nun iki yetkili büyük dil modeli değerlendirme kriterinde sonuçlar elde ettiğini söyledi. Veriler, Zuoyebang Galaxy Big Model'in C- kategorisinde ortalama 73,7 puanla ilk sırada yer aldığını, aynı zamanda CMMLU listesinde Beş Atış ve Sıfır Atış değerlendirmelerinde sırasıyla 74,03 puan ve 73,85 puan ortalamasıyla yer aldığını gösteriyor. İlk olarak, yukarıda belirtilen iki yetkili listede ortalama puanda ilk sırada yer alan ilk büyük eğitim modeli oldu.

Dün Baichuan Intelligent, resmi açık kaynak ince ayarlı Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat ve bunların 4 bitlik nicemlenmiş versiyonunu duyurdu.

Baichuan Intelligence'ın kurucusu ve CEO'su Wang Xiaochuan, Çin alanında, Soru-Cevap ortamında veya özet ortamında ince ayarlı Chat modelinin gerçek performansının, ChatGPT-3.5 gibi kapalı kaynak modellerinkini aştığını söyledi. **

Bugün, 2023 Tencent Küresel Dijital Ekoloji Konferansı'nda Tencent, Hunyuan'ın büyük modelini resmi olarak piyasaya sürdü. Tencent Group başkan yardımcısı Jiang Jie, **Tencent Hunyuan büyük modelinin Çince dil kapasitesinin GPT-3.5'i aştığını söyledi. **

Bu geliştiricilerin kendilerini tanıtmalarının yanı sıra bazı medya ve ekipler de büyük bir modeli değerlendirdi.

Ağustos ayı başlarında, Tsinghua Üniversitesi Gazetecilik ve İletişim Fakültesi'nde profesör ve doktora danışmanı olan Shen Yang'ın ekibi, "Büyük Dil Modellerinin Kapsamlı Performans Değerlendirme Raporu"nu yayınladı. Rapor, **Baidu Wenxinyiyan'ın üç ana boyuttaki 20 göstergedeki kapsamlı puanının ülkeye liderlik ettiğini ve ChatGPT'den daha iyi olduğunu gösteriyor. Bunların arasında Çince anlamsal anlayış üst sıralarda yer alıyor ve bazı Çince yetenekler GPT-4'ten daha iyi. **

Ağustos ortasında bazı medya kuruluşları, 11 Ağustos'ta Xiaomi'nin büyük modeli MiLM-6B'nin C ve CMMLU büyük model değerlendirme listelerinde göründüğünü bildirdi. Şu an itibariyle MiLM-6B, C-genel listesinde 10'uncu, aynı parametre büyüklüğünde 1'inci ve CMMLU Çin büyük modellerinde 1'inci sırada yer alıyor.

12 Ağustos'ta Tianjin Üniversitesi "Büyük Model Değerlendirme Raporu"nu yayınladı. Rapor, **GPT-4 ve Baidu Wenxinyiyan'ın kapsamlı performansının diğer modellerden önemli ölçüde önde olduğunu, puanlarının da pek farklı olmadığını ve aynı seviyede olduğunu gösteriyor. Wen Xinyiyan, çoğu Çin görevinde ChatGPT'yi geride bıraktı ve GPT-4 ile aradaki farkı kademeli olarak daralttı. **

Ağustos ayı sonlarında bazı medya kuruluşları Kuaishou'nun kendi geliştirdiği büyük dil modeli "KwaiYii"nin dahili testlere başladığını bildirdi. En son CMMLU Çin odaklı sıralamada, KwaiYi'nin 13B versiyonu olan KwaiYii-13B, hem beş vuruşlu hem de sıfır atışta birinci sırada yer aldı. Beşeri bilimler, Çin'e özgü konular vb. alanlarda ortalamanın üzerinde puanla güçlüdür. 61 puan.

Yukarıdakilerden görülebileceği gibi, bu büyük modeller belirli bir sıralamanın en üstünde yer aldığını veya belirli açılardan ChatGPT'yi geride bıraktığını iddia etse de, çoğu belirli alanlarda iyi performans gösteriyor.

Ayrıca bazı kapsamlı puanlar GPT-3.5 veya GPT-4'ü aşıyor ancak GPT testi Mayıs ayında durduruldu.GPT'nin son üç ayda iyileşmediğini kim garanti edebilir?

OpenAI'nin durumu

UBS Group'un Şubat ayında yayınladığı bir rapora göre, ChatGPT'nin piyasaya sürülmesinden sadece iki ay sonra, aylık aktif kullanıcı sayısı Ocak 2023'ün sonunda 100 milyonu aşarak onu tarihteki en hızlı büyüyen tüketici uygulaması haline getirdi.

Ancak ChatGPT'nin gelişimi o kadar da sorunsuz değil.

Bu yılın temmuz ayında birçok GPT-4 kullanıcısı, önceki akıl yürütme yetenekleriyle karşılaştırıldığında GPT-4'ün performansının düştüğünden şikayet etti.

Bazı kullanıcılar, Twitter'da ve OpenAI çevrimiçi geliştirici forumunda, daha zayıf mantığa, daha fazla yanlış yanıta, sağlanan bilgileri takip edememe, talimatları takip etmede zorluk, temel yazılım koduna parantez eklemeyi unutma ve yalnızca gerekli bilgileri hatırlama gibi sorunlara dikkat çekti. en son ipuçları vb.

Ağustos ayında başka bir raporda OpenAi'nin potansiyel mali krizde olabileceği ve 2024 yılı sonuna kadar iflas edebileceği belirtildi.

Raporda, OpenAI'nin yalnızca yapay zeka hizmeti ChatGPT'yi çalıştırmanın günlük yaklaşık 700.000 ABD dolarına mal olduğu belirtildi. Şu anda şirket, GPT-3.5 ve GPT-4 ile kâr elde etmeye çalışıyor ancak henüz başabaş noktasına yetecek kadar gelir elde edemedi.

Ancak OpenAI'nin yeni fırsatları da olabilir.

Geçtiğimiz günlerde OpenAI, ilk geliştirici konferansını Kasım ayında düzenleyeceğini duyurdu.

OpenAI, GPT-5'i yayınlamayacağını belirtse de OpenAI, dünyanın dört bir yanından yüzlerce geliştiricinin "yeni araçları" önceden önizlemek ve fikir alışverişinde bulunmak için OpenAI ekibiyle birlikte çalışacağını söyledi.

Bu, ChatGPT'nin yeni bir ilerleme kaydettiği anlamına gelebilir.

The Paper'ın haberine göre, 30 Ağustos'ta konuya aşina bir kişi, OpenAI'nin önümüzdeki 12 ay içinde yapay zeka yazılımını ve operasyonlarını yürütecek bilgi işlem gücünü satarak 1 milyar dolardan fazla gelir elde etmesinin beklendiğini açıkladı.

Bugün başka bir medya raporunda Morgan Stanley'nin bu ayın sonlarında OpenAI ile ortaklaşa geliştirilen üretken bir yapay zeka sohbet robotunu piyasaya süreceği belirtildi.

Morgan Stanley'de bankacılarla çalışan insanlar ya zengindir ya da zengindir. Yaklaşan bu üretken yapay zeka sohbet robotu, Morgan Stanley'in müşterilerine farklı bir deneyim getirebilirse, bu OpenAI için büyük bir kazanç olabilir.

Yapay zeka çağının gelişi durdurulamaz hale geldi. Kimin daha iyi olduğunu sadece kendinize söyleyemezsiniz, kullanıcıların bunu derecelendirmesine izin vermelisiniz. Ayrıca büyük yerli modellerin belirli yetenekler ve kapsamlı yetenekler açısından kesinlikle ChatGPT'yi yakalayacağına inanıyoruz.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)