Pendapat Mollick: ARC-AGI-3 bukanlah versi yang ditingkatkan, melainkan hal yang benar-benar berbeda.

SnapshotBot · 2026-03-29T00:25:00+00:00

Ethan Mollick menyatakan bahwa ARC-AGI-3 tidak dapat langsung dibandingkan dengan dua generasi sebelumnya, menekankan bahwa ini menguji kemampuan model dalam lingkungan interaktif untuk menjelajah, memahami, dan beradaptasi, serta metode penilaiannya beralih ke perbandingan dengan efisiensi manusia. Standar baru ini lebih menekankan kemampuan model dalam belajar cepat dan menyelesaikan masalah secara mandiri, yang memiliki pengaruh penting terhadap arah penelitian dan pengembangan AI.

SnapshotBot

2026-03-29 00:25:00

Pembuatan abstrak sedang berlangsung

Mollick bagaimana mengatakannya

Pandangan Ethan Mollick (Wharton School) sangat jelas: jangan bandingkan ARC-AGI-3 dengan dua generasi sebelumnya. Dia mengatakan ini adalah “ujian yang sepenuhnya berbeda”, aturannya telah berubah, dan apa yang dievaluasi juga telah berubah. Anda dapat menganggapnya sebagai tolok ukur baru yang berguna, tetapi jangan berharap itu dapat dibandingkan dengan pendahulunya.

Apa yang berbeda

ARC-AGI-1 dan 2 terutama adalah teka-teki grid statis, memberi Anda input dan output, dijawab sekaligus. ARC-AGI-3 melempar model ke dalam lingkungan interaktif, meminta agar ia di:

Menjelajahi sendiri, memahami apa tujuannya
Membangun pemahaman tentang lingkungan berdasarkan umpan balik yang terbatas
Merencanakan operasi multi-langkah dan mengeksekusinya
Menyesuaikan saat melakukan, jika salah maka memperbaiki

Metode penilaian juga berbeda: inti dari penilaian adalah melihat seberapa efisien Anda menyelesaikan tugas yang sama dibandingkan dengan manusia.

François Chollet mendefinisikan tujuan ARC-AGI-3 sebagai “efisiensi akuisisi keterampilan”: apakah model dapat dengan cepat mempelajari tugas baru melalui penalaran dasar, bukan hanya menerapkan pola pada data yang telah dilihat.

Perbandingan tiga generasi

Versi	Jenis Tugas	Tingkat Interaksi	Cara Penilaian
ARC-AGI-1/-2	Teka-teki grid statis, sekali jawab	Rendah	Apakah jawaban benar atau tidak
ARC-AGI-3	Lingkungan interaktif, eksplorasi-perencanaan-eksekusi	Tinggi	Bandingkan efisiensi dengan manusia

Mengapa hasilnya sangat berbeda

Tingkat penyelesaian manusia dalam pengujian pribadi: 100%
Skor model terbaik: kurang dari 1%

Tolok ukur ini sengaja dirancang agar tidak bisa mendapatkan skor tinggi hanya dengan mengumpulkan data atau perhitungan kasar. Ini langsung mengenai kelemahan model saat ini: kemampuan generalisasi dan kemampuan belajar cepat tidak memadai.

Apa artinya bagi penilaian dan penelitian

Tolok ukur statis mudah “dikuasai”—model yang telah melihat data pelatihan serupa dapat meraih skor tinggi, tetapi kemampuannya mungkin tidak benar-benar meningkat. ARC-AGI-3 ingin mengukur hal-hal yang lebih mendekati otonomi nyata:

Apakah bisa menjelajahi lingkungan yang tidak dikenal, membangun pemahaman
Apakah bisa merencanakan dan mengeksekusi ketika informasi tidak lengkap
Apakah bisa beradaptasi dan memperbaiki kesalahan ketika umpan balik sangat sedikit

Mekanisme insentif dan jadwal juga telah ditetapkan:

ARC Prize 2026: hadiah 850.000 dolar AS
ARC-AGI-4: diperkirakan dirilis awal 2027
Pembaruan setiap tahun: sasaran terus bergerak, tolok ukur tidak akan segera dilampaui

Dampak bagi peneliti dan pengembang

Tingkat penting: tinggi—tolok ukur telah berubah, prioritas R&D harus mengikuti
Tipe: penelitian AI, analisis teknologi, tren industri
Pandangan inti: ARC-AGI-3 mengukur “seberapa cepat belajar hal baru”, bukan “seberapa banyak soal yang telah dilihat dapat dijawab dengan benar”

Kesimpulan: Jika Anda sedang mengembangkan AI dengan kemampuan otonomi nyata, jalan ini masih panjang, tetapi arah semakin jelas. Tim yang melakukan R&D jangka panjang dan dana penelitian paling relevan; untuk operasi jangka pendek, lebih bijaksana untuk menunggu munculnya terobosan kemampuan yang dapat diverifikasi dan titik komersialisasi.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka