Sebuah makalah yang memukul saham penyimpanan turun.

Penulis: DeepChao TechFlow

Pada tanggal 25 Maret, saham teknologi di pasar AS mengalami kenaikan umum, indeks Nasdaq 100 menguat, tetapi ada satu jenis saham yang malah mengalami kerugian secara kontra tren:

SanDisk turun 3,50%, Micron turun 3,4%, Seagate turun 2,59%, Western Digital turun 1,63%. Seluruh sektor penyimpanan seperti tiba-tiba dipadamkan listriknya di sebuah pesta.

Pelakunya adalah sebuah makalah penelitian, atau lebih tepatnya, promosi resmi dari Google Research terhadap sebuah makalah.

Apa sebenarnya yang dilakukan makalah ini

Untuk memahami hal ini, perlu terlebih dahulu memahami sebuah konsep yang jarang mendapat perhatian di infrastruktur AI: KV Cache.

Ketika Anda berinteraksi dengan model bahasa besar, model tidak akan memahami pertanyaan Anda dari nol setiap kali. Ia akan menyimpan konteks seluruh percakapan dalam memori dengan format yang disebut “pasangan kunci-nilai” (Key-Value Pair), inilah yang disebut KV Cache, memori kerja jangka pendek dari model.

Masalahnya adalah, ukuran KV Cache tumbuh secara proporsional dengan panjang jendela konteks. Ketika jendela konteks mencapai jutaan token, konsumsi memori GPU dari KV Cache bahkan bisa melebihi bobot model itu sendiri. Untuk sebuah klaster inferensi yang melayani banyak pengguna sekaligus, ini adalah bottleneck infrastruktur nyata yang setiap hari menghabiskan biaya.

Versi asli makalah ini pertama kali muncul di arXiv pada April 2025 dan akan dipublikasikan secara resmi di ICLR 2026. Google Research menamainya TurboQuant, sebuah algoritma kuantisasi lossless yang mampu mengompresi KV Cache menjadi hanya 3 bit, mengurangi penggunaan memori setidaknya 6 kali lipat, tanpa perlu pelatihan atau fine-tuning, langsung pakai.

Langkah teknisnya terdiri dari dua tahap:

Langkah pertama, PolarQuant. Ia tidak menggunakan sistem koordinat Cartesian standar untuk merepresentasikan vektor, melainkan mengubah vektor menjadi koordinat polar—yang terdiri dari “radius” dan satu set “sudut”—yang secara fundamental menyederhanakan kompleksitas geometris ruang berdimensi tinggi, sehingga kuantisasi berikutnya dapat dilakukan dengan tingkat distorsi yang lebih rendah.

Langkah kedua, QJL (Quantized Johnson-Lindenstrauss). Setelah PolarQuant melakukan kompresi utama, TurboQuant menggunakan transformasi QJL yang hanya 1 bit untuk melakukan koreksi residual tanpa bias, memastikan keakuratan estimasi produk dalam, yang sangat penting untuk operasi perhatian (attention) pada Transformer.

Hasilnya: dalam pengujian benchmark LongBench yang mencakup tugas tanya jawab, pembuatan kode, dan ringkasan, TurboQuant mampu menyamai bahkan melampaui performa baseline terbaik saat ini, KIVI; dalam tugas pencarian “seperti mencari jarum di tumpukan jerami”, mencapai tingkat recall sempurna; di atas NVIDIA H100, TurboQuant 4-bit mempercepat operasi logika perhatian hingga 8 kali lipat.

Metode kuantisasi tradisional memiliki dosa asal: setiap kali mengompresi satu blok data, harus menyimpan “konstanta kuantisasi” tambahan untuk mendekode ulang, yang biasanya memakan biaya metadata sebesar 1 sampai 2 bit per nilai. Meskipun terlihat kecil, dalam konteks jutaan token, bit-bit ini akan menumpuk dengan kecepatan yang menyedihkan. TurboQuant menghilangkan beban ini secara total melalui rotasi geometris PolarQuant dan koreksi residual 1 bit dari QJL.

Mengapa pasar menjadi panik?

Kesimpulan yang langsung ini sulit diabaikan: sebuah model yang membutuhkan 8 GPU H100 untuk melayani konteks jutaan token, secara teori cukup hanya dengan 2 GPU. Penyedia inferensi dapat menggunakan perangkat keras yang sama untuk menangani lebih dari 6 kali permintaan konteks panjang secara bersamaan.

Ini adalah pukulan mematikan terhadap narasi inti sektor penyimpanan.

Dua tahun terakhir, Seagate, Western Digital, dan Micron diangkat ke puncak oleh gelombang modal AI, dengan satu logika dasar: model besar semakin mampu “mengingat” lebih banyak, jendela konteks panjang tidak memiliki batasan dalam konsumsi memori, dan kebutuhan penyimpanan akan terus meledak secara eksponensial. Seagate naik lebih dari 210% pada 2025, dan kapasitas produksinya pada 2026 sudah habis terjual.

Kemunculan TurboQuant secara langsung menantang asumsi dasar narasi ini.

Analis teknologi dari Wells Fargo, Andrew Rocha, memberikan komentar paling langsung: “Seiring membesarnya jendela konteks, penyimpanan data dalam KV Cache meningkat secara eksponensial, dan kebutuhan memori pun meningkat. TurboQuant secara langsung menyerang kurva biaya ini… Jika teknologi ini diadopsi secara luas, akan secara fundamental meragukan berapa besar sebenarnya kapasitas memori yang diperlukan.”

Namun Rocha juga menyertakan satu syarat kunci: IF.

Bagian yang benar-benar layak diperdebatkan

Apakah reaksi pasar terlalu berlebihan? Kemungkinan besar: ya, sedikit.

Pertama, isu judul yang berlebihan tentang percepatan 8 kali lipat. Beberapa analis menunjukkan bahwa benchmark peningkatan 8 kali ini dibandingkan dengan sistem non-kuantisasi 32-bit lama, bukan dibandingkan dengan sistem yang sudah dioptimalkan secara umum dalam implementasi saat ini. Ada peningkatan nyata, tetapi tidak sedramatis yang disiratkan judul.

Kedua, makalah ini hanya menguji model kecil. Semua evaluasi TurboQuant dilakukan pada model dengan parameter sekitar 8 miliar. Yang benar-benar membuat penyedia penyimpanan gelisah siang malam adalah model super besar dengan 700 miliar hingga 4 triliun parameter, di mana KV Cache benar-benar menjadi angka astronomis. Performa TurboQuant pada skala ini masih belum diketahui.

Ketiga, Google sendiri belum merilis kode resmi apa pun. Hingga saat ini, TurboQuant belum masuk ke dalam vLLM, llama.cpp, Ollama, maupun kerangka inferensi utama lainnya. Hanya komunitas pengembang yang mereplikasi implementasi awal dari derivasi matematis makalah ini, dan satu pengembang awal secara tegas menyatakan bahwa jika modul koreksi error QJL tidak diimplementasikan dengan benar, outputnya bisa langsung menjadi karakter acak.

Namun, ini tidak berarti kekhawatiran pasar tidak beralasan.

Ini adalah efek dari memori otot kolektif yang tertinggal dari momen DeepSeek tahun 2025. Peristiwa itu mengajarkan pasar sebuah pelajaran keras: terobosan efisiensi di tingkat algoritma bisa secara tiba-tiba mengubah narasi perangkat keras yang mahal. Sejak saat itu, setiap inovasi efisiensi dari laboratorium AI top akan memicu refleks kondisioning di sektor perangkat keras.

Selain itu, sinyal kali ini berasal dari Google Research, bukan dari laboratorium universitas yang tidak dikenal. Perusahaan ini memiliki kemampuan rekayasa yang cukup untuk mengubah makalah menjadi alat produksi, dan mereka sendiri adalah salah satu pengguna inferensi AI terbesar di dunia. Begitu TurboQuant diadopsi secara internal, logika pengadaan server untuk Waymo, Gemini, dan Google Search akan secara diam-diam berubah.

Naskah yang berulang dari kisah yang sama

Ada sebuah debat klasik yang layak dipertimbangkan secara serius: paradoks Jevons.

Ekonom abad ke-19, William Stanley Jevons, menemukan bahwa peningkatan efisiensi mesin uap tidak mengurangi konsumsi batu bara Inggris, malah meningkat secara signifikan—karena peningkatan efisiensi menurunkan biaya penggunaan, sehingga mendorong penggunaan yang lebih besar.

Pendukungnya berargumen: jika Google membuat sebuah model bisa berjalan di 16GB VRAM, pengembang tidak akan berhenti di situ. Mereka akan menggunakan sisa kapasitas komputasi untuk menjalankan model 6 kali lebih kompleks, memproses data multimodal yang lebih besar, dan mendukung konteks yang lebih panjang. Efisiensi perangkat lunak akhirnya membuka kebutuhan yang sebelumnya tidak terjangkau karena biaya tinggi.

Namun, argumen ini mengandung asumsi: pasar membutuhkan waktu untuk mencerna dan melakukan ekspansi ulang. Dalam periode saat TurboQuant dari makalah menjadi alat produksi, dan dari alat produksi menjadi standar industri, akankah ekspansi kebutuhan perangkat keras cukup cepat untuk menutup “kesenjangan” yang dihasilkan oleh efisiensi ini?

Jawaban pasti tidak diketahui. Pasar sedang memberi harga terhadap ketidakpastian ini.

Makna sebenarnya dari peristiwa ini bagi industri AI

Lebih dari sekadar kenaikan dan penurunan saham penyimpanan, yang lebih penting adalah tren yang diungkapkan TurboQuant secara mendalam.

Lomba perlombaan senjata AI sedang beralih dari “mengumpulkan kekuatan komputasi” ke “mengejar efisiensi ekstrem”.

Jika TurboQuant mampu membuktikan janji performanya pada model skala besar, ini akan membawa perubahan fundamental: inferensi konteks panjang yang sebelumnya hanya mampu dilakukan oleh laboratorium top, akan menjadi standar industri secara default.

Dan titik kunci dalam perlombaan efisiensi ini justru adalah bidang yang paling dikuasai Google: algoritma kompresi yang hampir optimal secara matematis, yang didasarkan pada batasan teori informasi Shannon, bukan sekadar rekayasa kasar. Tingkat distorsi teoritis TurboQuant hanya sekitar 2,7 kali lipat dari batas bawah teori informasi, sebuah konstanta.

Ini berarti, inovasi serupa di masa depan tidak akan hanya satu. Ia menandai bahwa seluruh jalur penelitian ini sedang matang.

Bagi industri penyimpanan, pertanyaan yang lebih jernih mungkin bukan “apakah ini akan mempengaruhi permintaan,” melainkan: ketika biaya inferensi AI terus menurun secara software, seberapa jauh lagi lapisan perlindungan hardware bisa bertahan?

Jawaban saat ini adalah: masih sangat lebar, tetapi tidak cukup lebar untuk mengabaikan sinyal seperti ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan