Kemampuan teks panjang model besar meningkat pesat, 400.000 token mungkin baru permulaan
Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini terlihat jelas.
Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token atau lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina di Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sementara model 70B dapat mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar teratas, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang penting. Perusahaan-perusahaan ini tanpa kecuali adalah kesayangan pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan beberapa putaran pendanaan dalam waktu enam bulan setelah didirikan, dengan valuasi lebih dari 300 juta dolar.
Apa arti pertumbuhan panjang konteks seratus kali lipat? Secara permukaan, ini memperluas jangkauan bacaan model. Dari awal yang hanya bisa membaca sebuah artikel pendek, sekarang bisa dengan mudah membaca sebuah novel panjang. Di tingkat yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, yurisprudensi, dan penelitian ilmiah.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Meskipun demikian, eksplorasi panjang teks saat ini tampaknya belum menyentuh "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.
Perkembangan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah awal dari model besar, tetapi juga membuka jalan untuk mendorong aplikasi industri lebih lanjut. Ini menandai bahwa perkembangan model besar memasuki tahap baru dari LLM ke Long LLM.
Di masa depan, asisten AI yang terlepas dari siklus percakapan sederhana akan berkembang ke arah profesionalisasi, personalisasi, dan kedalaman. Ini mungkin akan menjadi penggali baru untuk aplikasi industri dan menciptakan super APP.
Namun, teknologi teks panjang masih menghadapi dilema "segitiga tidak mungkin": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi secara bersamaan. Saat ini, terobosan dicari terutama melalui pengoptimalan mekanisme perhatian mandiri, menggunakan alat eksternal untuk membantu pemrosesan, serta pengoptimalan model.
Arah pengembangan di masa depan terletak pada mencari titik keseimbangan terbaik antara ketiga faktor tersebut, untuk menangani informasi yang cukup sambil tetap memperhatikan perhitungan perhatian dan batasan biaya komputasi. Peningkatan kemampuan teks panjang yang berkelanjutan akan membuka prospek aplikasi yang lebih luas untuk model besar.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
400 ribu token menjadi standar baru untuk model besar, kemampuan teks panjang dapat mendorong revolusi industri
Kemampuan teks panjang model besar meningkat pesat, 400.000 token mungkin baru permulaan
Kemampuan pemrosesan teks panjang dari model besar sedang meningkat dengan kecepatan yang mengagumkan. Dari awalnya 4000 token hingga kini 400.000 token, pertumbuhan kemampuan ini terlihat jelas.
Kemampuan teks panjang tampaknya telah menjadi "standar" baru bagi produsen model besar. Di tingkat internasional, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan telah memperluas panjang konteks modelnya, Claude, hingga 100.000 token. LongLLaMA bahkan telah mendorong angka ini hingga 256.000 token atau lebih.
Di dalam negeri, perusahaan rintisan model besar, Kimi Chat yang diluncurkan oleh Bulan Gelap, mendukung input 200.000 karakter Han, setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan bersama oleh Universitas Cina di Hong Kong dan MIT dapat memperluas panjang teks model 7B hingga 100.000 token, sementara model 70B dapat mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar teratas, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai arah peningkatan yang penting. Perusahaan-perusahaan ini tanpa kecuali adalah kesayangan pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar dolar, valuasi Anthropic diperkirakan mencapai 30 miliar dolar, dan Bulan Gelap telah menyelesaikan beberapa putaran pendanaan dalam waktu enam bulan setelah didirikan, dengan valuasi lebih dari 300 juta dolar.
Apa arti pertumbuhan panjang konteks seratus kali lipat? Secara permukaan, ini memperluas jangkauan bacaan model. Dari awal yang hanya bisa membaca sebuah artikel pendek, sekarang bisa dengan mudah membaca sebuah novel panjang. Di tingkat yang lebih dalam, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, yurisprudensi, dan penelitian ilmiah.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak selalu berbanding lurus dengan peningkatan kinerja. Kuncinya adalah bagaimana model dapat memanfaatkan konten konteks dengan efektif.
Meskipun demikian, eksplorasi panjang teks saat ini tampaknya belum menyentuh "titik kritis". Perusahaan model besar di dalam dan luar negeri masih terus melakukan terobosan, 400.000 token mungkin hanya merupakan awal.
Perkembangan teknologi teks panjang tidak hanya menyelesaikan beberapa masalah awal dari model besar, tetapi juga membuka jalan untuk mendorong aplikasi industri lebih lanjut. Ini menandai bahwa perkembangan model besar memasuki tahap baru dari LLM ke Long LLM.
Di masa depan, asisten AI yang terlepas dari siklus percakapan sederhana akan berkembang ke arah profesionalisasi, personalisasi, dan kedalaman. Ini mungkin akan menjadi penggali baru untuk aplikasi industri dan menciptakan super APP.
Namun, teknologi teks panjang masih menghadapi dilema "segitiga tidak mungkin": sulit untuk mengakomodasi panjang teks, perhatian, dan daya komputasi secara bersamaan. Saat ini, terobosan dicari terutama melalui pengoptimalan mekanisme perhatian mandiri, menggunakan alat eksternal untuk membantu pemrosesan, serta pengoptimalan model.
Arah pengembangan di masa depan terletak pada mencari titik keseimbangan terbaik antara ketiga faktor tersebut, untuk menangani informasi yang cukup sambil tetap memperhatikan perhitungan perhatian dan batasan biaya komputasi. Peningkatan kemampuan teks panjang yang berkelanjutan akan membuka prospek aplikasi yang lebih luas untuk model besar.