IOSG: Dari Silikon ke Kecerdasan, Tumpukan Teknologi Pelatihan dan Inferensi Kecerdasan Buatan

2024-08-06 10:11:20

IOSG：从硅到智能，人工智能训练与推理技术栈

Perkembangan pesat kecerdasan buatan didasarkan pada infrastruktur yang kompleks. Tumpukan teknologi AI adalah arsitektur bertingkat yang terdiri dari perangkat keras dan perangkat lunak, dan merupakan tulang punggung revolusi AI saat ini. Di sini, kami akan menganalisis secara mendalam tingkat utama tumpukan teknologi, dan menjelaskan kontribusi setiap tingkat terhadap pengembangan dan implementasi AI. Terakhir, kami akan merenungkan pentingnya menguasai pengetahuan dasar ini, terutama dalam mengevaluasi peluang di bidang Mata Uang Kripto dan AI yang saling terkait, seperti proyek DePIN (Desentralisasi Infrastruktur Fisik), misalnya jaringan GPU.

IOSG：从硅到智能，人工智能训练与推理技术栈

1. Lapisan Perangkat Keras: Dasar Silikon

Pada tingkat paling dasar adalah perangkat keras, yang menyediakan kemampuan komputasi fisik untuk kecerdasan buatan.

CPU（Central Processing Unit）：adalah pemprosesan dasar komputasi. Mereka ahli dalam menangani tugas-tugas berurutan, sangat penting untuk komputasi umum, termasuk pra-pemrosesan data, tugas kecerdasan buatan dalam skala kecil, dan koordinasi komponen lainnya.

GPU (Unit Pengolah Grafis): Awalnya dirancang untuk merender grafis, tetapi karena kemampuannya untuk melakukan komputasi sederhana secara bersamaan, menjadi bagian penting dari kecerdasan buatan. Kemampuan pemrosesan paralel ini membuat GPU sangat cocok untuk melatih model pembelajaran Kedalaman, tanpa perkembangan GPU, model GPT modern tidak dapat diimplementasikan.

AI accelerator: chip yang dirancang khusus untuk beban kerja kecerdasan buatan, mereka dioptimalkan untuk operasi kecerdasan buatan yang umum, memberikan kinerja tinggi dan efisiensi tinggi untuk tugas pelatihan dan penalaran.

FPGA (Field-Programmable Gate Array): Dengan fleksibilitasnya yang dapat diprogram ulang. Mereka dapat dioptimalkan untuk tugas kecerdasan buatan tertentu, terutama dalam skenario inferensi yang memerlukan latensi rendah.

IOSG：从硅到智能，人工智能训练与推理技术栈

2. Perangkat Lunak Dasar: Middleware

Lapisan ini sangat penting dalam tumpukan teknologi AI karena membangun jembatan antara kerangka AI tingkat lanjut dan perangkat keras dasar. Teknologi seperti CUDA, ROCm, OneAPI, dan SNPE memperkuat hubungan antara kerangka tingkat lanjut dan arsitektur perangkat keras tertentu, sehingga mencapai optimasi kinerja.

Sebagai lapisan perangkat lunak properti NVIDIA, CUDA adalah pondasi kebangkitan perusahaan tersebut di pasar perangkat keras kecerdasan buatan. Posisi unggul NVIDIA tidak hanya berasal dari keunggulan perangkat kerasnya, tetapi juga mencerminkan efek jaringan kuat dari integrasi perangkat lunak dan ekosistemnya.

Alasan CUDA begitu berpengaruh adalah karena ia menyatu dengan tumpukan teknologi AI dan menyediakan seperangkat perpustakaan optimasi yang telah menjadi standar de facto di bidang tersebut. Ekosistem perangkat lunak ini membangun efek jaringan yang kuat: para peneliti dan pengembang AI yang terampil dalam CUDA akan menyebarkannya ke dunia akademik dan industri selama proses pelatihan.

Siklus positif yang dihasilkan ini memperkuat posisi kepemimpinan pasar NVIDIA, karena ekosistem alat dan perpustakaan berbasis CUDA semakin menjadi kebutuhan yang tidak dapat diabaikan bagi para praktisi AI.

Simbiosis perangkat lunak dan perangkat keras ini tidak hanya memperkuat posisi NVIDIA di garis depan komputasi AI, tetapi juga memberikan perusahaan kemampuan penetapan harga yang signifikan, yang jarang terjadi di pasar perangkat keras yang umumnya dikomersialkan.

Kepemimpinan CUDA dan keheningan relatif dari pesaingnya dapat dikaitkan dengan sejumlah faktor yang menciptakan hambatan masuk yang signifikan. Keunggulan awal NVIDIA dalam komputasi akselerasi GPU memungkinkan CUDA untuk membangun ekosistem yang kuat sebelum pesaingnya mengambil pijakan. Meskipun pesaing seperti AMD dan Intel memiliki hardware yang luar biasa, layer perangkat lunak mereka kekurangan perpustakaan dan alat yang diperlukan, dan tidak dapat terintegrasi dengan sempurna dengan tumpukan teknologi yang ada. Ini adalah alasan mengapa terdapat kesenjangan besar antara NVIDIA/CUDA dengan pesaing lainnya.

IOSG：从硅到智能，人工智能训练与推理技术栈

3. Compiler: Penerjemah

TVM(张量虚拟机)、MLIR(多层中间表示)和PlaidML menyediakan solusi yang berbeda untuk menantang optimisasi beban kerja AI lintas arsitektur hardware.

TVM berasal dari penelitian Universitas Washington dan telah cepat mendapatkan perhatian karena kemampuannya untuk mengoptimalkan model pembelajaran Kedalaman pada berbagai perangkat, mulai dari GPU dengan performa tinggi hingga perangkat tepi yang memiliki keterbatasan sumber daya. Keunggulannya terletak pada alur optimasi end-to-end yang sangat efektif dalam skenario inferensi. TVM sepenuhnya mengabstraksikan perbedaan vendor dan perangkat keras di tingkat dasar, sehingga memungkinkan beban kerja inferensi berjalan mulus di berbagai perangkat keras, baik itu perangkat NVIDIA maupun AMD, Intel, dan sebagainya.

Namun, di luar deduksi, situasinya menjadi lebih kompleks. Tujuan akhir mengganti hardware pelatihan AI dalam perhitungan masih belum terpecahkan. Namun, ada beberapa inisiatif yang patut disebutkan dalam hal ini.

MLIR, proyek Google, mengadopsi metode yang lebih mendasar. Dengan menyediakan representasi tengah yang seragam untuk beberapa tingkat abstraksi, tujuannya adalah untuk menyederhanakan infrastruktur kompiler secara keseluruhan, untuk kasus pengambilan kesimpulan dan pelatihan.

PlaidML, sekarang dipimpin oleh Intel, menempatkan dirinya sebagai kuda hitam dalam persaingan ini. Ini fokus pada portabilitas lintas berbagai arsitektur perangkat keras (termasuk di luar akselerator AI tradisional) dan meramalkan masa depan beban kerja AI yang berjalan mulus di berbagai platform komputasi.

Jika salah satu dari kompilator ini dapat terintegrasi dengan baik ke dalam tumpukan teknologi, tanpa mempengaruhi kinerja model, dan tanpa perlu modifikasi tambahan oleh pengembang, ini mungkin mengancam dominasi CUDA. Namun, saat ini MLIR dan PlaidML masih belum cukup matang dan belum terintegrasi dengan baik ke dalam tumpukan teknologi kecerdasan buatan, sehingga saat ini mereka tidak mengancam posisi terdepan CUDA.

IOSG：从硅到智能，人工智能训练与推理技术栈

4. Komputasi Terdistribusi: Koordinator

Ray dan Horovod mewakili dua metode komputasi terdistribusi dalam bidang AI yang berbeda, di mana setiap metode menyelesaikan kebutuhan krusial untuk pemrosesan yang dapat diskalakan dalam aplikasi AI berskala besar.

Ray yang dikembangkan oleh RISELab UC Berkeley adalah kerangka komputasi terdistribusi umum. Ia menunjukkan fleksibilitas yang luar biasa, memungkinkan alokasi beban kerja berbagai jenis di luar pembelajaran mesin. Model berbasis aktor dalam Ray sangat menyederhanakan proses paralelisme kode Python, sehingga sangat cocok untuk pembelajaran penguatan dan tugas kecerdasan buatan lainnya dengan alur kerja yang kompleks dan beragam.

Horovod, awalnya dirancang oleh Uber, adalah implementasi terdistribusi untuk pembelajaran kedalaman. Ini menyediakan solusi yang ringkas dan efisien untuk melatih pembelajaran kedalaman pada beberapa GPU dan Node server. Horovod menonjol karena kemudahan penggunaannya dan optimasi untuk pelatihan data paralel pada jaringan saraf, sehingga dapat terintegrasi dengan sempurna pada kerangka pembelajaran kedalaman utama seperti TensorFlow, PyTorch, dan lainnya. Ini memungkinkan pengembang untuk dengan mudah memperluas kode pelatihan yang ada tanpa perlu melakukan banyak perubahan kode.

IOSG：从硅到智能，人工智能训练与推理技术栈

5.结束语:从Mata Uang Kripto角度

Integrasi dengan tumpukan AI yang ada sangat penting bagi proyek DePin yang bertujuan membangun sistem komputasi terdistribusi. Integrasi ini memastikan kompatibilitas dengan alur kerja dan alat AI yang saat ini ada, mengurangi hambatan yang dihadapi.

Di bidang Kripto, jaringan GPU saat ini pada dasarnya adalah platform sewa GPU yang terdesentralisasi, ini merupakan langkah awal menuju infrastruktur AI terdistribusi yang lebih kompleks. Platform-platform ini lebih mirip pasar ala Airbnb daripada beroperasi sebagai cloud terdistribusi. Meskipun mereka berguna untuk beberapa aplikasi, platform-platform ini masih belum cukup untuk mendukung pelatihan terdistribusi yang sebenarnya, yang merupakan kebutuhan kunci dalam pengembangan AI massal.

Standar komputasi terdistribusi saat ini seperti Ray dan Horovod tidak dirancang untuk jaringan terdistribusi global. Untuk jaringan Desentralisasi yang benar-benar berfungsi, kita perlu mengembangkan kerangka kerja lain di lapisan ini. Beberapa skeptis bahkan berpendapat bahwa model Transformer tidak kompatibel dengan metode pelatihan terdistribusi karena membutuhkan komunikasi yang padat dan optimasi fungsi global selama proses pembelajaran. Di sisi lain, para optimis sedang mencoba mengusulkan kerangka kerja komputasi terdistribusi baru yang dapat berfungsi dengan baik dengan perangkat keras yang tersebar di seluruh dunia. Yotta adalah salah satu perusahaan startup yang berusaha mengatasi masalah ini.

NeuroMesh melangkah lebih jauh. Ini secara inovatif mendesain ulang proses pembelajaran mesin dengan cara yang khusus. Dengan menggunakan Jaringan Kode Prediksi (PCN) untuk mencari konvergensi minimasi kesalahan lokal daripada langsung mencari solusi optimal fungsi kerugian global, NeuroMesh mengatasi hambatan mendasar dalam pelatihan AI terdistribusi.

Metode ini tidak hanya mewujudkan paralelisme yang belum pernah terjadi sebelumnya, tetapi juga membuat pelatihan model pada perangkat keras GPU konsumen (seperti RTX 4090) menjadi mungkin, sehingga memungkinkan demokratisasi pelatihan AI. Secara khusus, kemampuan komputasi GPU 4090 mirip dengan H100, tetapi karena keterbatasan bandwidth, mereka tidak sepenuhnya dimanfaatkan selama proses pelatihan model. Dengan menurunkan pentingnya bandwidth, memungkinkan penggunaan GPU-gpu rendah ini, yang mungkin menghasilkan penghematan biaya yang signifikan dan peningkatan efisiensi.

GenSyn, perusahaan startup AI yang ambisius, memiliki tujuan untuk membangun sebuah compiler enkripsi. Compiler GenSyn memungkinkan perangkat keras komputasi apa pun digunakan secara mulus untuk beban kerja AI. Misalnya, seperti peran TVM dalam inferensi, GenSyn mencoba membangun alat serupa untuk pelatihan model.

Jika berhasil, itu dapat signifikan memperluas kemampuan jaringan komputasi AI desentralisasi, dengan efisien memanfaatkan berbagai perangkat keras untuk menangani tugas AI yang lebih kompleks dan beragam. Meskipun memiliki tantangan karena kompleksitas optimasi arsitektur perangkat keras yang beragam dan risiko teknis tinggi, visi yang ambisius ini bisa melemahkan benteng CUDA dan NVIDIA jika mereka dapat mewujudkannya serta mengatasi hambatan seperti mempertahankan kinerja sistem heterogen.

Tentang penalaran: Pendekatan Hyperbolic menggabungkan penalaran yang dapat diverifikasi dengan sumber daya komputasi heterogen dalam jaringan Desentralisasi, mencerminkan strategi yang relatif praktis. Dengan memanfaatkan standar kompilator seperti TVM, Hyperbolic dapat memanfaatkan berbagai konfigurasi perangkat keras sambil tetap mempertahankan kinerja dan keandalan. Ini dapat menggabungkan chip dari beberapa vendor (dari NVIDIA hingga AMD, Intel, dll.), termasuk perangkat keras konsumen dan perangkat keras kinerja tinggi.

Perkembangan dalam enkripsi di bidang AI ini menunjukkan masa depan di mana komputasi AI dapat menjadi lebih terdistribusi, efisien, dan dapat diakses. Keberhasilan proyek-proyek ini tidak hanya bergantung pada keunggulan teknologi mereka, tetapi juga pada kemampuan mereka untuk terintegrasi secara mulus dengan alur kerja AI yang ada, serta kemampuan mereka untuk menangani kekhawatiran praktisi AI dan perusahaan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.