Hasil pencarian untuk "META"
2026-04-25
03:21

Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui "tantangan ketidakstabilan yang signifikan" selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts MoE; mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut. DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi menambahkan overhead sekitar 20%, serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui "prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai." Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan "menjelaskan keterlambatannya." Ia menggambarkan dua solusi tersebut sebagai "perban sementara" sambil mengakui transparansi teknis DeepSeek.
Lainnya
07:41

Miliarder Australia Forrest Menantang Pembelaan Meta atas Pasal 230 terkait Iklan Penipuan yang Menggunakan Citra Miliknya

Andrew Forrest menggugat Meta, dengan alasan bahwa perusahaan tersebut tidak dapat mengklaim perlindungan Pasal 230 untuk menghindari tanggung jawab atas iklan yang menyesatkan yang menggunakan citranya untuk mempromosikan penipuan. Seorang hakim mengizinkan klaimnya untuk terus berjalan, yang berpotensi memperketat pembelaan Pasal 230 bagi platform terkait iklan pihak ketiga.
Lainnya