IOSG Venturesによるオリジナル記事
人工知能の急速な発展は、複雑なインフラストラクチャに基づいています。AIテクノロジースタックは、ハードウェアとソフトウェアから構成される階層構造であり、現在のAI革命の支柱です。ここでは、テクノロジースタックの主要なレイヤーについて詳しく分析し、それぞれのレイヤーがAIの開発と実装にどのように貢献するかを説明します。最後に、これらの基本的な知識を理解することの重要性、特に暗号資産とAIの交差領域での機会を評価する際に、例えばGPUネットワークなどのDePIN(分散化物理基盤)プロジェクトで、考察します。
最も基本的なレベルでは、ハードウェアがあり、それは人工知能に物理的な計算能力を提供しています。
AIの技術スタックでは、このレイヤーが非常に重要です。なぜなら、それは高度なAIフレームワークと低レベルのハードウェアの橋渡しを構築するからです。CUDA、ROCm、OneAPI、SNPEなどのテクノロジーは、高度なフレームワークと特定のハードウェアアーキテクチャの関係を強化し、パフォーマンスの最適化を実現しています。
NVIDIAの独自ソフトウェアレイヤーであるCUDAは、同社がAIハードウェア市場で台頭する基盤となっています。NVIDIAのリーダーシップの源泉は、ハードウェアの優位性だけでなく、ソフトウェアとエコシステムの統合による強力なネットワーク効果も体現しています。
CUDAの影響力が非常に大きいのは、AI技術スタックにデプス統合され、この領域の事実上の標準となっている最適化ライブラリの一連を提供しているためです。このソフトウェアエコシステムは、CUDAを熟知しているAI研究者や開発者がトレーニングプロセスで使用し、学術界や産業界に広まっています。
これにより生まれた好循環は、CUDAベースのツールやライブラリのエコシステムがAI開発者にとってますます不可欠となるため、NVIDIAの市場リーダーシップを強化しています。
このソフトウェアとハードウェアの共存は、NVIDIAのAIコンピューティングの先駆的地位を強化するだけでなく、会社に著しい価格設定能力を与え、通常の商品化されたハードウェア市場ではめったに見られないものです。
CUDAの主導的な地位と競合他社の比較的静かな存在は、いくつかの要因に帰因することができ、それらの要因が重要な進入障壁を作り出しました。NVIDIAのGPUアクセラレーション計算分野での先行優位性により、競合他社が足場を固める前にCUDAは強力なエコシステムを築くことができました。AMDやIntelなどの競合他社は優れたハードウェアを持っているものの、彼らのソフトウェア層には必要なライブラリやツールが欠けており、既存の技術スタックとシームレスに統合できないため、これがNVIDIA/CUDAと他の競合他社の間に大きな差がある理由です。
TVM( 张量仮想マシン )、MLIR( 多層中間表現 ) および PlaidML は、さまざまなハードウェアアーキテクチャに対して AI ワークロードを最適化するための異なるソリューションを提供しています。
TVMは、ワシントン大学の研究に基づいており、高性能なGPUからリソース制約のあるエッジデバイスまで、様々なデバイスにおいてデプス学習モデルを最適化することで注目を集めています。その利点はエンドツーエンドの最適化プロセスであり、特に推論シナリオにおいて効果的です。TVMは、ベンダーやハードウェアの差異を完全に抽象化し、NVIDIAデバイスからAMD、Intelなどの他のデバイスまで、異なるハードウェア上での推論ワークロードをシームレスに実行できるようにしています。
しかしながら、推論の範疇を超えると、状況はより複雑になります。AIのトレーニングに使われるハードウェアの計算能力を代替することはまだ解決されていません。しかし、いくつかの注目すべき提唱があります。
MLIRは、Googleのプロジェクトで、より基本的なアプローチを採用しています。複数の抽象レベルに統一された中間表現を提供することで、推論やトレーニングのユースケースに対して、コンパイラのインフラストラクチャ全体を簡素化することを目指しています。
PlaidMLは、現在Intelがリードしており、この競争においてダークホースと位置付けています。それは、従来のAIアクセラレータ以外の多様なハードウェアアーキテクチャを横断する可搬性に重点を置き、AIワークロードがさまざまな計算プラットフォームでシームレスに実行される未来を展望しています。
これらのコンパイラのいずれかが技術スタックにうまく統合され、モデルのパフォーマンスに影響を与えず、開発者が追加の修正を行う必要がない場合、CUDAの防御壁に脅威を与える可能性が非常に高いです。ただし、現時点では、MLIRとPlaidMLはまだ十分に成熟しておらず、人工知能スタックにうまく統合されていませんので、それらは現時点ではCUDAのリーダーシップに明確な脅威を与えるものではありません。
Ray と Horovod は、AI 領域の分散コンピューティングの2つの異なる手法を代表しており、それぞれが大規模なAIアプリケーションのスケーラブルな処理ニーズを解決しています。
UC BerkeleyのRISELabが開発したRayは汎用分散計算フレームワークです。柔軟性に優れ、機械学習以外のさまざまなタイプのワークロードを処理できます。RayのアクターベースのモデルはPythonコードの並列化プロセスを大幅に簡略化し、特に強化学習やその他多様なAIタスクに適しています。
Horovodは元々Uberによって設計され、デプス学習に特化した分散実装です。複数のGPUやサーバーノード上でデプス学習のトレーニングプロセスを拡張するための、簡潔で効率的なソリューションを提供します。Horovodのハイライトは、ユーザーフレンドリーさとニューラルネットワークデータ並列トレーニングの最適化にあり、これにより、TensorFlow、PyTorchなどの主要なデプス学習フレームワークと完璧に統合できます。これにより、開発者は大量のコード変更を行う必要なく、既存のトレーニングコードを簡単に拡張できます。
分散型計算システムを構築するためには、既存のAIスタックとの統合はDePinプロジェクトにとって重要です。この統合により、現在のAIワークフローとツールとの互換性が確保され、採用の障壁がドロップされます。
暗号資産の領域では、現在のGPUネットワークは本質的に分散型のGPUレンタルプラットフォームであり、これはより複雑な分散型AIインフラストラクチャに向けた初歩的な一歩となっています。これらのプラットフォームは、分散型クラウドとしてではなく、Airbnbのようなマーケットのように機能します。特定のアプリケーションには役立ちますが、これらのプラットフォームはまだ本格的な分散型トレーニングをサポートするには至っていません。これは大規模なAI開発を推進する上での重要な要求です。
現在の分散コンピューティングの標準であるRayとHorovodは、グローバルな分散ネットワークのために設計されていません。本当に動作する分散ネットワークには、このレベルで別のフレームワークを開発する必要があります。いくつかの懐疑論者は、トランスフォーマーモデルが学習プロセスで密な通信とグローバル関数の最適化を必要とするため、それらが分散トレーニングの方法と互換性がないと考えています。一方、楽観主義者は、グローバルに分散したハードウェアと良好に連携する新しい分散コンピューティングフレームワークを提案しようとしています。Yottaは、この問題を解決しようとするスタートアップ企業の一つです。
NeuroMeshはさらに進化しています。それは機械学習プロセスを特に革新的な方法で再設計しています。グローバルな損失関数の最適解を直接探すのではなく、予測エンコーディングネットワーク(PCN)を使用して局所的な誤差最小化の収束を見つけることにより、NeuroMeshは分散型AIトレーニングの根本的な制約を解決しています。
この方法は、前例のない並列化を実現するだけでなく、消費者向けのGPUハードウェア(例:RTX 4090)でのモデルトレーニングを可能にし、AIトレーニングを民主化します。具体的には、4090 GPUの計算能力はH 100と類似していますが、帯域幅の不足のため、モデルトレーニング中に十分に活用されていません。PCNが帯域幅の重要性を下げたため、これらの低価格なGPUを活用することが可能になり、著しいコスト削減と効率向上がもたらされる可能性があります。
GenSynは、野心的な暗号化AIスタートアップで、トラップコンパイラの構築を目指しています。GenSynのコンパイラは、AIワークロードにおいて、あらゆる種類の計算ハードウェアをシームレスに利用することができます。例えば、TVMが推論に対する役割を果たしているように、GenSynはモデルトレーニングに対する同様のツールの構築を試みています。
成功すれば、それは分散型AI計算ネットワークの能力を大幅に拡張し、さまざまなハードウェアを効率的に活用してより複雑で多様なAIタスクを処理することができます。この野心的なビジョンは、異種構成のハードウェアを最適化することの複雑さと高い技術リスクのために挑戦的であるが、異種システムのパフォーマンスを維持するなどの障壁を克服できれば、この技術はCUDAとNVIDIAの要塞を弱体化させる可能性があります。
推論に関して:Hyperbolicの手法は、検証可能な推論と異種計算リソースの分散化ネットワークを組み合わせ、比較的実用的な戦略を示しています。TVMなどのコンパイラスタンダードを活用することで、Hyperbolicは広範なハードウェア構成を利用でき、性能と信頼性を維持できます。NVIDIAからAMD、Intelなどの多数の供給業者からのチップ(消費者向けハードウェアから高性能ハードウェアまで)を集約することができます。
これらの暗号化AIの交差領域の発展は、AI計算がより分散化、効率化、アクセス可能になる未来を予示しています。これらのプロジェクトの成功は、技術的な優位性だけでなく、既存のAIワークフローとシームレスに統合する能力、AIプラクティショナーと企業の実際の懸念を解決する能力にも依存しています。