Lebih dari setengah tahun telah berlalu dan peringkat ChatGPT hampir berada di posisi terbawah.

2023-09-09 03:11:22

Penulis: Teknologi Sanyan

Hari ini, saya tidak sengaja menemukan sebuah gambar.

Berdasarkan gambar, GPT-4 OpenAI menduduki peringkat terakhir di antara 11 model besar (yang pertama diberi nomor 0). Beberapa netizen menambahkan tulisan "GPT4: Bagaimana saya bisa mengeluh tentang keluhan saya?"

Hal ini membuat penasaran, di awal tahun ini, setelah ChatGPT populer, perusahaan lain mulai menyebut konsep model besar.

Baru setengah tahun lebih, GPT sudah “di bawah”?

Maka dari itu, penulis ingin melihat seperti apa rangking GPTnya.

Waktu pengujian berbeda Tim penguji berbeda GPT-4 menempati peringkat kesebelas

Dilihat dari informasi yang ditampilkan pada gambar di artikel sebelumnya, pemeringkatan ini berasal dari C-list.

C-List, nama lengkap C-Global Large Model Comprehensive Examination Test List, adalah rangkaian evaluasi ujian komprehensif model bahasa Mandarin yang dibangun bersama oleh Universitas Tsinghua, Universitas Shanghai Jiao Tong, dan Universitas Edinburgh.

Dilaporkan bahwa rangkaian tersebut mencakup empat bidang utama: humaniora, ilmu sosial, sains dan teknik, dan jurusan lainnya, termasuk 52 mata pelajaran, yang mencakup berbagai bidang pengetahuan seperti kalkulus dan aljabar linier. Ada total 13.948 soal pengetahuan dan penalaran bahasa Mandarin, dengan tingkat kesulitan yang dibagi menjadi empat tingkatan tes: sekolah menengah, sarjana, pascasarjana, dan kejuruan.

Jadi penulis mengecek C-list terbaru.

Peringkat C-list terbaru sesuai dengan peringkat yang ditunjukkan pada gambar sebelumnya.Di antara 11 model besar teratas, GPT-4 menempati peringkat terakhir.

Menurut daftar C, hasil ini mewakili tes zero-shot (pembelajaran zero-shot) atau tes beberapa-shot (pembelajaran beberapa-shot), namun beberapa-shot belum tentu lebih baik daripada zero-shot.

C- mengatakan bahwa dalam pengujiannya ditemukan bahwa banyak model setelah instruksi fine-tuning lebih baik di bawah zero-shot. Banyak model yang diuji memiliki hasil zero-shot dan beberapa-shot, dan peringkatnya menunjukkan pengaturan dengan skor rata-rata keseluruhan yang lebih baik.

Daftar C juga menunjukkan bahwa nama model besar dengan "*" menunjukkan bahwa hasil model diuji oleh tim C, sedangkan hasil lainnya diperoleh melalui kiriman pengguna.

Selain itu, penulis juga memperhatikan bahwa waktu penyerahan hasil pengujian untuk model besar ini sangat bervariasi.

Waktu penyerahan hasil tes untuk GPT-4 adalah tanggal 15 Mei, sedangkan Yuntianshu yang menempati peringkat pertama menyerahkan hasil tesnya pada tanggal 31 Agustus; Galaxy yang menempati peringkat kedua menyerahkan hasil tesnya pada tanggal 23 Agustus; dan YaYi yang menempati peringkat ketiga menyerahkan hasilnya pada tanggal 31 Agustus. untuk tanggal 4 September.

Selain itu, di antara 16 model besar teratas, hanya GPT-4 yang memiliki tambahan "*" pada namanya dan diuji oleh tim C.

Jadi penulis mengecek kembali C-list lengkapnya.

C-list terbaru mencakup total 66 peringkat model besar.

Diantaranya, hanya 11 yang bertuliskan "*" di namanya, yang diuji oleh tim C, dan waktu penyerahan pengujian adalah 15 Mei.

Untuk model besar yang diuji oleh tim C ini, GPT-4 OpenAI berada di peringkat ke-11, ChatGPT di peringkat ke-36, ChatGLM-6B dari Tsinghua Zhipu AI di peringkat ke-60, dan MOSS Fudan di peringkat ke-6.

Meskipun pemeringkatan ini dapat menunjukkan momentum perkembangan pesat model-model besar dalam negeri, penulis percaya bahwa, bagaimanapun, mereka tidak diuji oleh tim yang sama pada waktu yang sama, yang tidak cukup untuk membuktikan sepenuhnya siapa yang lebih kuat dan siapa yang lebih lemah di antara mereka. model besar ini.

Ini seperti kelas siswa yang masing-masing memiliki waktu ujian berbeda dan menjawab tugas berbeda. Bagaimana kita bisa mengandalkan skor setiap siswa untuk membandingkan?

Apa yang dikatakan pengembang model besar? Banyak orang mengatakan mereka melampaui ChatGPT dalam bahasa Mandarin dan kemampuan lainnya

Belakangan ini, lingkaran model besar cukup ramai.

Selain itu, produk model besar dari delapan perusahaan termasuk Baidu dan Byte telah lulus pendaftaran "Tindakan Sementara untuk Pengelolaan Layanan Kecerdasan Buatan Generatif" dan dapat diluncurkan secara resmi secara online untuk memberikan layanan kepada publik. Perusahaan lain secara berturut-turut merilis produk model besar mereka sendiri.

Lalu bagaimana cara para pengembang model besar ini memperkenalkan produknya?

Pada tanggal 7 Juli, di forum Konferensi Kecerdasan Buatan Dunia 2023 "Peluang dan Risiko untuk Perkembangan Industri Kecerdasan Buatan Umum di Era Model Besar", Qiu Xipeng, profesor di Sekolah Ilmu dan Teknologi Komputer di Universitas Fudan dan kepala sistem MOSS, mengatakan bahwa model bahasa percakapan skala besar Fudan MOSS Setelah dirilis pada bulan Februari tahun ini, ia terus melakukan iterasi, "MOSS terbaru telah mampu melampaui ChatGPT dalam kemampuan Tiongkok."

Pada akhir Juli, NetEase Youdao meluncurkan model terjemahan besar.CEO NetEase Youdao Zhou Feng secara terbuka menyatakan bahwa dalam pengujian internal, dalam arah terjemahan Mandarin-Inggris, ia telah melampaui kemampuan terjemahan ChatGPT dan melampaui level Google Terjemahan. **

Pada akhir Agustus, di KTT Musim Panas Forum Yabuli 2023, Liu Qingfeng, pendiri dan ketua iFlytek, memberikan pidato dan berkata, “**Kemampuan pembuatan kode dan penyelesaian model iFlytek Spark telah melampaui ChatGPT, dan kemampuan lainnya. mengejar ketinggalan dengan cepat.**Logika, algoritma, sistem metode, dan persiapan data untuk kemampuan kode saat ini sudah siap, dan yang diperlukan hanyalah waktu dan daya komputasi.”

SenseTime menyatakan dalam siaran pers baru-baru ini bahwa pada bulan Agustus tahun ini, model baru internlm-123b menyelesaikan pelatihan dan jumlah parameter meningkat menjadi 123 miliar. **Dari 51 set evaluasi terkenal global dengan total 300.000 pertanyaan, hasil pengujian keseluruhan menempati peringkat kedua di dunia, melampaui model seperti gpt-3.5-turbo dan llama2-70b yang baru dirilis oleh Meta Company. **

Menurut Shangtang, **internlm-123 menduduki peringkat pertama dalam 12 evaluasi besar. Diantaranya, skor agi dalam tes komprehensif set evaluasi adalah 57,8, melampaui gpt-4 dan menempati peringkat pertama; skor evaluasi **pengetahuan akal sehat adalah 88,5, peringkat pertama; skor internlm-123b dalam lima evaluasi pemahaman bacaan Semua berada di urutan teratas dalam daftar.

Selain itu, ia menduduki peringkat pertama dalam lima evaluasi penalaran.

Awal bulan ini, Zuoyebang secara resmi merilis model Galaxy yang dikembangkan sendiri.

Zuoyebang mengatakan bahwa model Galaxy telah mencapai hasil pada dua tolok ukur evaluasi model bahasa besar yang otoritatif yaitu C- dan CMMLU. Data menunjukkan bahwa Zuoyebang Galaxy Big Model menempati peringkat pertama di C- dengan skor rata-rata 73,7 poin; pada saat yang sama, ia menempati peringkat dalam daftar CMMLU Evaluasi Five-shot dan Zero-shot dengan skor rata-rata masing-masing 74,03 poin dan 73,85 poin Pertama, model ini menjadi model pendidikan besar pertama yang menduduki peringkat pertama dalam nilai rata-rata pada dua daftar resmi yang disebutkan di atas.

Kemarin, Baichuan Intelligent mengumumkan open source resmi Baichuan 2-7B, Baichuan 2-13B, Baichuan 2-13B-Chat yang telah disempurnakan dan versi terkuantisasi 4-bitnya.

Wang Xiaochuan, pendiri dan CEO Baichuan Intelligence, mengatakan bahwa di wilayah Tiongkok, kinerja sebenarnya dari model Obrolan yang disempurnakan dalam lingkungan Tanya Jawab atau lingkungan ringkasan telah melampaui kinerja model sumber tertutup seperti ChatGPT-3.5. **

Hari ini, di Tencent Global Digital Ecology Conference 2023, Tencent secara resmi merilis model besar Hunyuan. Jiang Jie, wakil presiden Tencent Group, mengatakan bahwa kemampuan bahasa Mandarin model besar **Tencent Hunyuan telah melampaui GPT-3.5. **

Selain perkenalan diri para pengembang tersebut, beberapa media dan tim juga mengevaluasi model besar.

Pada awal Agustus, tim Shen Yang, seorang profesor dan pembimbing doktoral di Sekolah Jurnalisme dan Komunikasi di Universitas Tsinghua, merilis "Laporan Evaluasi Kinerja Komprehensif Model Bahasa Besar." Laporan tersebut menunjukkan bahwa **skor komprehensif Baidu Wenxinyiyan dalam 20 indikator dalam tiga dimensi utama memimpin negara, dan lebih baik daripada ChatGPT. Di antaranya, pemahaman semantik bahasa Mandarin memiliki peringkat tinggi, dan beberapa kemampuan bahasa Mandarin lebih baik daripada GPT-4. **

Pada pertengahan Agustus, beberapa media melaporkan bahwa pada 11 Agustus, model besar Xiaomi MiLM-6B muncul di daftar evaluasi model besar C- dan CMMLU. Saat ini, MiLM-6B menempati peringkat ke-10 dalam daftar C-keseluruhan, peringkat ke-1 dalam besaran parameter yang sama, dan peringkat ke-1 dalam model besar Tiongkok CMMLU.

Pada 12 Agustus, Universitas Tianjin merilis "Laporan Evaluasi Model Besar". Laporan tersebut menunjukkan bahwa kinerja komprehensif **GPT-4 dan Baidu Wenxinyiyan jauh lebih unggul dibandingkan model lainnya, dan skor keduanya tidak jauh berbeda dan berada pada level yang sama. Wen Xinyiyan telah melampaui ChatGPT dalam sebagian besar tugas di Tiongkok dan secara bertahap mempersempit kesenjangan dengan GPT-4. **

Pada akhir Agustus, beberapa media melaporkan bahwa model bahasa besar “KwaiYii” yang dikembangkan sendiri oleh Kuaishou telah memulai pengujian internal. Dalam pemeringkatan CMMLU terbaru yang berorientasi Tiongkok, KwaiYii-13B, KwaiYi versi 13B, menempati peringkat pertama di bawah five-shot dan zero-shot. Ia kuat dalam humaniora, topik khusus Tiongkok, dll., dengan skor rata-rata lebih dari 61 poin.

Terlihat dari penjelasan di atas bahwa meskipun model besar ini mengklaim berada di peringkat teratas tertentu atau mengungguli ChatGPT dalam aspek tertentu, sebagian besar model tersebut berkinerja baik di beberapa bidang tertentu.

Selain itu, beberapa skor komprehensif melebihi GPT-3.5 atau GPT-4, namun tes GPT dihentikan pada bulan Mei Siapa yang dapat menjamin bahwa GPT tidak membaik dalam tiga bulan terakhir?

Situasi OpenAI

Menurut laporan dari UBS Group pada bulan Februari, hanya dua bulan setelah ChatGPT diluncurkan, pengguna aktif bulanannya telah melampaui 100 juta pada akhir Januari 2023, menjadikannya aplikasi konsumen dengan pertumbuhan tercepat dalam sejarah.

Namun perkembangan ChatGPT tidak begitu mulus.

Pada bulan Juli tahun ini, banyak pengguna GPT-4 yang mengeluh bahwa dibandingkan dengan kemampuan penalaran sebelumnya, performa GPT-4 mengalami penurunan.

Beberapa pengguna menunjukkan masalah di Twitter dan forum pengembang online OpenAI, dengan fokus pada logika yang lebih lemah, jawaban yang lebih salah, ketidakmampuan untuk melacak informasi yang diberikan, kesulitan mengikuti instruksi, lupa menambahkan tanda kurung pada kode perangkat lunak dasar, dan hanya mengingat tips terbaru, dll.

Pada bulan Agustus, laporan lain menyatakan bahwa OpenAi mungkin berada dalam potensi krisis keuangan dan mungkin bangkrut pada akhir tahun 2024.

Laporan tersebut menyatakan bahwa OpenAI menghabiskan biaya sekitar US$700.000 per hari hanya untuk menjalankan layanan kecerdasan buatannya ChatGPT. Saat ini, perusahaan sedang berusaha meraih keuntungan dengan GPT-3.5 dan GPT-4, namun belum menghasilkan pendapatan yang cukup untuk mencapai titik impas.

Namun, OpenAI mungkin juga memiliki peluang baru.

Baru-baru ini, OpenAI mengumumkan akan mengadakan konferensi pengembang pertamanya pada bulan November.

Meskipun OpenAI menyatakan tidak akan merilis GPT-5, OpenAI mengatakan bahwa ratusan pengembang dari seluruh dunia akan bekerja dengan tim OpenAI untuk melihat pratinjau "alat baru" terlebih dahulu dan bertukar ide.

Ini mungkin berarti ChatGPT telah mencapai kemajuan baru.

Menurut The Paper, pada tanggal 30 Agustus, seseorang yang mengetahui masalah ini mengungkapkan bahwa OpenAI diperkirakan akan memperoleh pendapatan lebih dari $1 miliar dalam 12 bulan ke depan dengan menjual perangkat lunak AI dan kekuatan komputasi untuk menggerakkan operasinya.

Hari ini, laporan media lain menyatakan bahwa Morgan Stanley akan meluncurkan chatbot kecerdasan buatan generatif yang dikembangkan bersama dengan OpenAI akhir bulan ini.

Orang yang berurusan dengan bankir di Morgan Stanley adalah orang kaya atau kaya. Jika chatbot kecerdasan buatan generatif yang akan datang ini dapat memberikan pengalaman berbeda kepada klien Morgan Stanley, ini mungkin merupakan keuntungan besar bagi OpenAI.

Kedatangan era kecerdasan buatan sudah tidak bisa dibendung lagi. Mengenai siapa yang lebih baik, Anda tidak bisa mengatakannya pada diri sendiri, Anda harus membiarkan pengguna menilainya. Kami juga percaya bahwa model domestik besar pasti akan mengejar ChatGPT dalam hal kemampuan spesifik dan kemampuan komprehensif.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka