Yang Likun: Mengandalkan LLM untuk mencapai AGI adalah omong kosong, masa depan AI memerlukan model dunia JEPA (wawancara sepuluh ribu kata di konferensi GTC)

2025-04-19 06:02:58

Artikel ini menyusun transkrip kata demi kata dari percakapan publik antara Yann LeCun, kepala ilmuwan AI Meta dan pemenang Turing Award, dan kepala ilmuwan NVIDIA Bill Dally. LeCun menjelaskan mengapa menurutnya model bahasa besar (LLM) tidak pernah bisa benar-benar menerapkan AGI. (Sinopsis: OpenAI merilis o3 dan o4-mini Model inferensi terkuat: dapat memikirkan gambar, secara otomatis memilih alat, dan membuat terobosan dalam matematika dan kinerja pengkodean) (Suplemen latar belakang: OpenAI diam-diam menciptakan "platform komunitasnya sendiri" sendiri, menunjuk ke X Musk) Ketika model bahasa besar (LLM) mempercepat pelukan AI dunia, Yann LeCun, yang dikenal sebagai bapak jaringan saraf konvolusional dan sekarang kepala ilmuwan AI di Meta, baru-baru ini mengatakan secara mengejutkan bahwa minatnya pada LLM telah berkurang, dan dia bahkan percaya bahwa itu dekat dengan hambatan pengembangan LLM. Dalam percakapan mendalam dengan Kepala Ilmuwan NVIDIA Bill Dally bulan lalu, LeCun merinci wawasan uniknya ke arah masa depan AI, menekankan bahwa memahami dunia fisik, memori abadi, kemampuan penalaran dan perencanaan, dan pentingnya ekosistem open source adalah kunci untuk memimpin gelombang revolusi AI berikutnya. Bill Dally: Yann, banyak hal menarik telah terjadi di ruang AI selama setahun terakhir. Menurut Anda, apa perkembangan paling menarik tahun lalu? Yann LeCun: Terlalu banyak untuk dihitung, tapi izinkan saya memberi tahu Anda satu hal yang mungkin mengejutkan sebagian dari Anda. Saya tidak begitu tertarik dengan model bahasa besar (LLM) lagi. LLM sudah berada di ujung ekor, mereka berada di tangan orang-orang produk di industri, tetapi mereka meningkat di tingkat marjinal, mencoba untuk mendapatkan lebih banyak data, lebih banyak daya komputasi, menghasilkan data sintetis. Saya pikir ada masalah yang lebih menarik di empat bidang: bagaimana membuat mesin memahami dunia fisik, bagaimana membuat mereka memiliki memori abadi, yang tidak banyak dibicarakan, dan dua yang terakhir adalah bagaimana membuat mereka bernalar dan merencanakan. Tentu saja, ada beberapa upaya untuk membuat LLM melakukan penalaran, tetapi menurut saya ini adalah cara yang sangat sederhana dalam memandang penalaran. Saya pikir mungkin ada cara yang lebih baik untuk melakukan ini. Jadi, saya senang dengan hal-hal yang mungkin tidak disukai banyak orang di komunitas teknologi sampai lima tahun dari sekarang. Tapi sekarang, mereka terlihat kurang menarik karena mereka adalah beberapa makalah akademis yang tidak jelas. Memahami Model Dunia dan Dunia Fisik Bill Dally: Tapi apa jadinya jika LLM tidak bernalar tentang dunia fisik, memiliki ingatan yang terus-menerus, dan perencanaan? Apa yang akan menjadi model yang mendasarinya? Yann LeCun: Jadi, banyak orang yang mengerjakan model dunia. Apa itu model dunia? Kita semua memiliki model dunia di kepala kita. Ini pada dasarnya adalah sesuatu yang memungkinkan kita untuk memanipulasi pikiran kita. Kami memiliki model dunia saat ini. Anda tahu jika saya mendorong botol ini dari atas, kemungkinan akan terbalik, tetapi jika saya mendorongnya dari bawah, itu meluncur. Jika saya menekan terlalu keras, itu bisa meledak. Tangkapan layar wawancara Yann LeCun Kami memiliki model dunia fisik, yang kami peroleh di bulan-bulan pertama kehidupan kami, yang memungkinkan kami untuk mengatasi dunia nyata. Mengatasi dunia nyata jauh lebih sulit daripada mengatasi bahasa. Kami membutuhkan arsitektur sistem yang benar-benar dapat menangani sistem dunia nyata yang sama sekali berbeda dari apa yang saat ini kami tangani. LLM memprediksi token, tetapi token bisa apa saja. Model mobil self-driving kami menggunakan token dari sensor dan menghasilkan token yang menggerakkan kendaraan. Dalam arti tertentu, ini adalah penalaran tentang dunia fisik, setidaknya tentang di mana aman untuk dikendarai dan di mana Anda tidak menabrak pilar. Bill Dally: Mengapa token bukan cara yang tepat untuk mewakili dunia fisik? Yann LeCun: Token bersifat diskrit. Ketika kita berbicara tentang token, kita biasanya berarti serangkaian kemungkinan yang terbatas. Dalam LLM yang khas, jumlah token yang mungkin adalah sekitar 100.000. Ketika Anda melatih sistem untuk memprediksi token, Anda tidak akan pernah bisa melatihnya untuk memprediksi dengan tepat mengikuti token dalam urutan teks. Anda dapat menghasilkan distribusi probabilitas tentang semua token yang mungkin dalam kamus Anda, yang hanya merupakan vektor panjang 100.000 angka antara nol dan satu dengan jumlah satu. Kami tahu bagaimana melakukan itu, tetapi kami tidak tahu apa yang harus dilakukan dengan film, dengan data organik berdimensi tinggi dan berkelanjutan itu. Setiap upaya untuk mendapatkan sistem untuk memahami dunia atau membangun model mental dunia, dengan melatihnya untuk memprediksi film tingkat piksel, sebagian besar telah gagal. Bahkan melatih sistem yang menyerupai semacam jaringan saraf untuk mempelajari representasi gambar yang baik gagal dengan merekonstruksi gambar dari versi yang rusak atau dikonversi. Mereka bekerja sedikit, tetapi tidak sebaik arsitektur alternatif yang kita sebut penyematan bersama, yang pada dasarnya tidak mencoba membangun kembali pada tingkat piksel. Mereka mencoba mempelajari representasi abstrak dari gambar, film, atau sinyal alami yang sedang dilatih sehingga Anda dapat membuat prediksi di ruang representasi abstrak itu. Yann LeCun: Contoh yang sering saya gunakan adalah jika saya merekam video ruangan ini, menggerakkan kamera dan berhenti di sini, dan kemudian meminta sistem untuk memprediksi apa yang menindaklanjuti film itu, mungkin memprediksi bahwa ini adalah ruangan dengan orang-orang yang duduk di dalamnya dan seterusnya. Itu tidak dapat memprediksi seperti apa penampilan Anda masing-masing. Ini benar-benar tidak dapat diprediksi dari cuplikan awal film. Ada banyak hal di dunia yang tidak dapat diprediksi. Jika Anda melatih sistem untuk membuat prediksi pada tingkat piksel, ia akan menghabiskan semua sumber dayanya untuk mencari tahu detail yang tidak dapat ditemukannya. Ini adalah pemborosan sumber daya. Setiap kali kami mencoba, dan saya telah mengerjakan ini selama 20 tahun, menggunakan sistem pelatihan pembelajaran yang diawasi sendiri dengan memprediksi video tidak berfungsi. Ini hanya berlaku jika dilakukan pada tingkat presentasi. Ini berarti bahwa skema tersebut tidak generatif. Bill Dally: Jika pada dasarnya Anda mengatakan transformer tidak memiliki kemampuan itu, tetapi orang-orang memiliki transformator visi dan mendapatkan hasil yang bagus. Yann LeCun: Saya tidak bermaksud begitu, karena Anda dapat menggunakan transformator untuk itu. Anda dapat menempatkan transformator di arsitektur tersebut. Hanya saja jenis arsitektur yang saya bicarakan disebut arsitektur prediktif embedding bersama. Jadi, ambil film atau gambar atau apa pun, jalankan melalui encoder, Anda mendapatkan representasi, dan kemudian ambil bagian selanjutnya dari versi teks, film, atau gambar yang dikonversi itu, dan juga jalankan melalui encoder, dan sekarang cobalah untuk membuat prediksi di ruang representasi itu, bukan di ruang input. Anda dapat menggunakan metode pelatihan yang sama, yaitu mengisi bagian yang kosong, tetapi Anda melakukannya di ruang laten ini daripada di representasi aslinya. Yann LeCun: Bagian yang sulit adalah jika Anda tidak berhati-hati dan tidak menggunakan teknologi pintar, sistem akan mogok. Ini mengabaikan input sepenuhnya, hanya menghasilkan jumlah informasi input yang konstan dan tidak ada.

AGI2.44%

GTC6.15%

O3-2.8%

Lihat Asli

Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.

1 Suka