Pendapat Mollick: ARC-AGI-3 bukanlah versi yang ditingkatkan, melainkan hal yang benar-benar berbeda.

robot
Pembuatan abstrak sedang berlangsung

Mollick bagaimana mengatakannya

Pandangan Ethan Mollick (Wharton School) sangat jelas: jangan bandingkan ARC-AGI-3 dengan dua generasi sebelumnya. Dia mengatakan ini adalah “ujian yang sepenuhnya berbeda”, aturannya telah berubah, dan apa yang dievaluasi juga telah berubah. Anda dapat menganggapnya sebagai tolok ukur baru yang berguna, tetapi jangan berharap itu dapat dibandingkan dengan pendahulunya.

Apa yang berbeda

ARC-AGI-1 dan 2 terutama adalah teka-teki grid statis, memberi Anda input dan output, dijawab sekaligus. ARC-AGI-3 melempar model ke dalam lingkungan interaktif, meminta agar ia di:

  • Menjelajahi sendiri, memahami apa tujuannya
  • Membangun pemahaman tentang lingkungan berdasarkan umpan balik yang terbatas
  • Merencanakan operasi multi-langkah dan mengeksekusinya
  • Menyesuaikan saat melakukan, jika salah maka memperbaiki

Metode penilaian juga berbeda: inti dari penilaian adalah melihat seberapa efisien Anda menyelesaikan tugas yang sama dibandingkan dengan manusia.

François Chollet mendefinisikan tujuan ARC-AGI-3 sebagai “efisiensi akuisisi keterampilan”: apakah model dapat dengan cepat mempelajari tugas baru melalui penalaran dasar, bukan hanya menerapkan pola pada data yang telah dilihat.

Perbandingan tiga generasi

Versi Jenis Tugas Tingkat Interaksi Cara Penilaian
ARC-AGI-1/-2 Teka-teki grid statis, sekali jawab Rendah Apakah jawaban benar atau tidak
ARC-AGI-3 Lingkungan interaktif, eksplorasi-perencanaan-eksekusi Tinggi Bandingkan efisiensi dengan manusia

Mengapa hasilnya sangat berbeda

  • Tingkat penyelesaian manusia dalam pengujian pribadi: 100%
  • Skor model terbaik: kurang dari 1%

Tolok ukur ini sengaja dirancang agar tidak bisa mendapatkan skor tinggi hanya dengan mengumpulkan data atau perhitungan kasar. Ini langsung mengenai kelemahan model saat ini: kemampuan generalisasi dan kemampuan belajar cepat tidak memadai.

Apa artinya bagi penilaian dan penelitian

Tolok ukur statis mudah “dikuasai”—model yang telah melihat data pelatihan serupa dapat meraih skor tinggi, tetapi kemampuannya mungkin tidak benar-benar meningkat. ARC-AGI-3 ingin mengukur hal-hal yang lebih mendekati otonomi nyata:

  • Apakah bisa menjelajahi lingkungan yang tidak dikenal, membangun pemahaman
  • Apakah bisa merencanakan dan mengeksekusi ketika informasi tidak lengkap
  • Apakah bisa beradaptasi dan memperbaiki kesalahan ketika umpan balik sangat sedikit

Mekanisme insentif dan jadwal juga telah ditetapkan:

  • ARC Prize 2026: hadiah 850.000 dolar AS
  • ARC-AGI-4: diperkirakan dirilis awal 2027
  • Pembaruan setiap tahun: sasaran terus bergerak, tolok ukur tidak akan segera dilampaui

Dampak bagi peneliti dan pengembang

  • Tingkat penting: tinggi—tolok ukur telah berubah, prioritas R&D harus mengikuti
  • Tipe: penelitian AI, analisis teknologi, tren industri
  • Pandangan inti: ARC-AGI-3 mengukur “seberapa cepat belajar hal baru”, bukan “seberapa banyak soal yang telah dilihat dapat dijawab dengan benar”

Kesimpulan: Jika Anda sedang mengembangkan AI dengan kemampuan otonomi nyata, jalan ini masih panjang, tetapi arah semakin jelas. Tim yang melakukan R&D jangka panjang dan dana penelitian paling relevan; untuk operasi jangka pendek, lebih bijaksana untuk menunggu munculnya terobosan kemampuan yang dapat diverifikasi dan titik komersialisasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan