Panjang teks model besar melebihi 400.000 token, teknologi teks panjang menjadi jalur baru AI

robot
Pembuatan abstrak sedang berlangsung

Tren Baru Kompetisi Model Besar: Lonjakan Panjang Teks dari 4k hingga 400k token

Teknologi model besar sedang berkembang dengan kecepatan luar biasa, kemampuan pemrosesan teks telah meloncat dari awalnya 4k token menjadi 400k token, kemampuan teks panjang tampaknya menjadi standar baru bagi penyedia model besar.

Di luar negeri, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Pesaingnya, Anthropic, berhasil memperluas panjang konteks hingga 100.000 token. LongLLaMA bahkan memperluas panjang konteks hingga 256.000 token atau lebih.

Di dalam negeri, sebuah perusahaan rintisan telah meluncurkan produk asisten pintar yang dapat mendukung input teks sekitar 40 ribu token. Teknologi LongLoRA yang dikembangkan oleh Universitas Cina Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100 ribu token, dan model 70B hingga 32 ribu token.

Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka di dalam dan luar negeri menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang fokus. Sebagian besar perusahaan ini adalah perusahaan bintang yang sangat diminati di pasar modal, dengan jumlah pendanaan dan valuasi yang terus mencetak rekor tertinggi.

Apa arti fokus perusahaan model besar pada teknologi teks panjang? Secara permukaan, itu terlihat seperti peningkatan panjang teks input dan kemampuan membaca, dari sebuah esai pendek hingga sebuah novel panjang. Makna yang lebih dalam adalah mendorong penerapan model besar di bidang profesional seperti keuangan, peradilan, dan penelitian, untuk memenuhi kebutuhan pengolahan dokumen panjang di bidang-bidang ini.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa peningkatan dukungan model untuk input konteks yang lebih panjang tidak langsung sebanding dengan peningkatan kinerja, kuncinya terletak pada bagaimana model memanfaatkan konten konteks. Namun, saat ini industri masih belum mencapai batas eksplorasi panjang teks, 400.000 token mungkin baru permulaan.

Teknologi teks panjang mendapatkan perhatian karena dapat menyelesaikan beberapa masalah awal dari model besar, seperti melupakan informasi penting dalam skenario karakter virtual dan pembatasan dalam analisis bidang profesional. Sementara itu, teks panjang juga merupakan teknologi kunci untuk mendorong perkembangan aplikasi asli Agent dan AI di masa depan.

Teks panjang dapat membantu model memahami makna dengan lebih akurat, mengurangi ambiguitas, dan meningkatkan akurasi penalaran dengan memberikan lebih banyak konteks dan informasi rinci. Ini menandai peralihan model besar dari LLM ke Long LLM.

Teknologi teks panjang menunjukkan berbagai keunggulan dalam aplikasi praktis: dapat dengan cepat menganalisis poin-poin penting dari artikel panjang, mengekstrak informasi kunci dari laporan keuangan, dan merealisasikan tanya jawab dari seluruh buku; dalam hal kode dapat langsung mengubah makalah menjadi kode; juga dapat merealisasikan fungsi dialog panjang yang dipersonalisasi seperti peran bermain. Fitur-fitur ini mendorong robot percakapan untuk berkembang ke arah yang lebih profesional, personal, dan mendalam.

Namun, teknologi teks panjang menghadapi dilema "segitiga tak mungkin": ada saling keterbatasan antara panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk memfokuskan perhatian, sementara memproses teks panjang membutuhkan lebih banyak daya komputasi. Dilema ini berasal dari struktur Transformer yang digunakan oleh sebagian besar model, di mana jumlah perhitungan mekanisme perhatian diri meningkat secara kuadrat seiring dengan panjang konteks.

Saat ini, ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan mengoptimalkan model itu sendiri. Setiap solusi memiliki kelebihan dan kekurangan, bagaimana menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi adalah tantangan yang dihadapi oleh penyedia model besar.

Meskipun teknologi teks panjang masih memiliki ruang untuk dioptimalkan, itu mewakili tren perkembangan model besar ke tingkat yang lebih tinggi, dan diharapkan mendorong AI untuk mencapai aplikasi terobosan di lebih banyak bidang profesional.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Bagikan
Komentar
0/400
AirdropHunterWangvip
· 11jam yang lalu
token masih berwarna hijau ya teman
Lihat AsliBalas0
GasGuzzlervip
· 07-13 18:22
40w token...Daya Komputasi akan meledak, kan?
Lihat AsliBalas0
BoredRiceBallvip
· 07-13 18:22
40w... semakin dekat dengan manusia
Lihat AsliBalas0
digital_archaeologistvip
· 07-13 18:22
Daya Komputasi Peringatan!
Lihat AsliBalas0
AltcoinOraclevip
· 07-13 18:18
menarik bagaimana kompleksitas algo skala dengan 400k token... jelas breakout dari pola perhatian warisan sejujurnya
Lihat AsliBalas0
DeFiGraylingvip
· 07-13 17:56
Seberapa banyak yang bisa dilihat?!
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)