人工知能の急速な発展は、複雑なインフラストラクチャに基づいています。AIテクノロジースタックは、ハードウェアとソフトウェアから構成される階層構造であり、現在のAI革命の支柱です。ここでは、テクノロジースタックの主要なレイヤーについて詳しく分析し、それぞれのレイヤーがAIの開発と実装にどのように貢献するかを説明します。最後に、これらの基本的な知識を理解することの重要性、特に暗号資産とAIの交差領域での機会を評価する際に、例えばGPUネットワークなどのDePIN（分散化物理基盤）プロジェクトで、考察します。

1. ハードウェア層：シリコンベース

最も基本的なレベルでは、ハードウェアがあり、それは人工知能に物理的な計算能力を提供しています。

CPU（中央処理装置）：計算の基本的な処理装置です。順次処理タスクを処理するのが得意であり、データの前処理、小規模なAIタスク、および他のコンポーネントの調整などの一般的な計算に重要です。
GPU（グラフィックス・プロセッシング・ユニット）：元々はグラフィックスの描画に使用されるように設計されたが、大量の単純な計算を同時に実行できるため、人工知能の重要な構成要素になった。この並列処理能力により、GPUは深層学習モデルのトレーニングに非常に適しており、GPUがなければ現代のGPTモデルは実現できない。
AIアクセラレータ：人工知能のワークロードに特化したチップで、一般的な人工知能操作に最適化され、トレーニングおよび推論タスクに高性能で効率的なソリューションを提供します。
FPGA(プログラム可能性阵列ロジック)：その再プログラム可能性により、柔軟性を提供します。特に、低レイテンシーの推論シナリオが必要な場合には、特定の人工知能タスクに最適化することができます。

IOSG Ventures：从硅到智能，详解人工智能训练与推理技术栈

2. 底层ソフトウェア：ミドルウェア

AIの技術スタックでは、このレイヤーが非常に重要です。なぜなら、それは高度なAIフレームワークと低レベルのハードウェアの橋渡しを構築するからです。CUDA、ROCm、OneAPI、SNPEなどのテクノロジーは、高度なフレームワークと特定のハードウェアアーキテクチャの関係を強化し、パフォーマンスの最適化を実現しています。

NVIDIAの独自ソフトウェアレイヤーであるCUDAは、同社がAIハードウェア市場で台頭する基盤となっています。NVIDIAのリーダーシップの源泉は、ハードウェアの優位性だけでなく、ソフトウェアとエコシステムの統合による強力なネットワーク効果も体現しています。

CUDAの影響力が非常に大きいのは、AI技術スタックにデプス統合され、この領域の事実上の標準となっている最適化ライブラリの一連を提供しているためです。このソフトウェアエコシステムは、CUDAを熟知しているAI研究者や開発者がトレーニングプロセスで使用し、学術界や産業界に広まっています。

これにより生まれた好循環は、CUDAベースのツールやライブラリのエコシステムがAI開発者にとってますます不可欠となるため、NVIDIAの市場リーダーシップを強化しています。

このソフトウェアとハードウェアの共存は、NVIDIAのAIコンピューティングの先駆的地位を強化するだけでなく、会社に著しい価格設定能力を与え、通常の商品化されたハードウェア市場ではめったに見られないものです。

CUDAの主導的な地位と競合他社の比較的静かな存在は、いくつかの要因に帰因することができ、それらの要因が重要な進入障壁を作り出しました。NVIDIAのGPUアクセラレーション計算分野での先行優位性により、競合他社が足場を固める前にCUDAは強力なエコシステムを築くことができました。AMDやIntelなどの競合他社は優れたハードウェアを持っているものの、彼らのソフトウェア層には必要なライブラリやツールが欠けており、既存の技術スタックとシームレスに統合できないため、これがNVIDIA/CUDAと他の競合他社の間に大きな差がある理由です。

3. コンパイラ: 翻訳者

TVM( 张量仮想マシン )、MLIR( 多層中間表現 ) および PlaidML は、さまざまなハードウェアアーキテクチャに対して AI ワークロードを最適化するための異なるソリューションを提供しています。

TVMは、ワシントン大学の研究に基づいており、高性能なGPUからリソース制約のあるエッジデバイスまで、様々なデバイスにおいてデプス学習モデルを最適化することで注目を集めています。その利点はエンドツーエンドの最適化プロセスであり、特に推論シナリオにおいて効果的です。TVMは、ベンダーやハードウェアの差異を完全に抽象化し、NVIDIAデバイスからAMD、Intelなどの他のデバイスまで、異なるハードウェア上での推論ワークロードをシームレスに実行できるようにしています。

しかしながら、推論の範疇を超えると、状況はより複雑になります。AIのトレーニングに使われるハードウェアの計算能力を代替することはまだ解決されていません。しかし、いくつかの注目すべき提唱があります。

MLIRは、Googleのプロジェクトで、より基本的なアプローチを採用しています。複数の抽象レベルに統一された中間表現を提供することで、推論やトレーニングのユースケースに対して、コンパイラのインフラストラクチャ全体を簡素化することを目指しています。

PlaidMLは、現在Intelがリードしており、この競争においてダークホースと位置付けています。それは、従来のAIアクセラレータ以外の多様なハードウェアアーキテクチャを横断する可搬性に重点を置き、AIワークロードがさまざまな計算プラットフォームでシームレスに実行される未来を展望しています。

これらのコンパイラのいずれかが技術スタックにうまく統合され、モデルのパフォーマンスに影響を与えず、開発者が追加の修正を行う必要がない場合、CUDAの防御壁に脅威を与える可能性が非常に高いです。ただし、現時点では、MLIRとPlaidMLはまだ十分に成熟しておらず、人工知能スタックにうまく統合されていませんので、それらは現時点ではCUDAのリーダーシップに明確な脅威を与えるものではありません。

IOSG Ventures：从硅到智能，详解人工智能训练与推理技术栈

4. 分散コンピューティング: コーディネーター

Ray と Horovod は、AI 領域の分散コンピューティングの2つの異なる手法を代表しており、それぞれが大規模なAIアプリケーションのスケーラブルな処理ニーズを解決しています。

UC BerkeleyのRISELabが開発したRayは汎用分散計算フレームワークです。柔軟性に優れ、機械学習以外のさまざまなタイプのワークロードを処理できます。RayのアクターベースのモデルはPythonコードの並列化プロセスを大幅に簡略化し、特に強化学習やその他多様なAIタスクに適しています。

Horovodは元々Uberによって設計され、デプス学習に特化した分散実装です。複数のGPUやサーバーノード上でデプス学習のトレーニングプロセスを拡張するための、簡潔で効率的なソリューションを提供します。Horovodのハイライトは、ユーザーフレンドリーさとニューラルネットワークデータ並列トレーニングの最適化にあり、これにより、TensorFlow、PyTorchなどの主要なデプス学習フレームワークと完璧に統合できます。これにより、開発者は大量のコード変更を行う必要なく、既存のトレーニングコードを簡単に拡張できます。

5. 閉会挨拶:暗号通貨の観点から

分散型計算システムを構築するためには、既存のAIスタックとの統合はDePinプロジェクトにとって重要です。この統合により、現在のAIワークフローとツールとの互換性が確保され、採用の障壁がドロップされます。

暗号資産の領域では、現在のGPUネットワークは本質的に分散型のGPUレンタルプラットフォームであり、これはより複雑な分散型AIインフラストラクチャに向けた初歩的な一歩となっています。これらのプラットフォームは、分散型クラウドとしてではなく、Airbnbのようなマーケットのように機能します。特定のアプリケーションには役立ちますが、これらのプラットフォームはまだ本格的な分散型トレーニングをサポートするには至っていません。これは大規模なAI開発を推進する上での重要な要求です。

現在の分散コンピューティングの標準であるRayとHorovodは、グローバルな分散ネットワークのために設計されていません。本当に動作する分散ネットワークには、このレベルで別のフレームワークを開発する必要があります。いくつかの懐疑論者は、トランスフォーマーモデルが学習プロセスで密な通信とグローバル関数の最適化を必要とするため、それらが分散トレーニングの方法と互換性がないと考えています。一方、楽観主義者は、グローバルに分散したハードウェアと良好に連携する新しい分散コンピューティングフレームワークを提案しようとしています。Yottaは、この問題を解決しようとするスタートアップ企業の一つです。

NeuroMeshはさらに進化しています。それは機械学習プロセスを特に革新的な方法で再設計しています。グローバルな損失関数の最適解を直接探すのではなく、予測エンコーディングネットワーク（PCN）を使用して局所的な誤差最小化の収束を見つけることにより、NeuroMeshは分散型AIトレーニングの根本的な制約を解決しています。

この方法は、前例のない並列化を実現するだけでなく、消費者向けのGPUハードウェア（例：RTX 4090）でのモデルトレーニングを可能にし、AIトレーニングを民主化します。具体的には、4090 GPUの計算能力はH 100と類似していますが、帯域幅の不足のため、モデルトレーニング中に十分に活用されていません。PCNが帯域幅の重要性を下げたため、これらの低価格なGPUを活用することが可能になり、著しいコスト削減と効率向上がもたらされる可能性があります。

GenSynは、野心的な暗号化AIスタートアップで、トラップコンパイラの構築を目指しています。GenSynのコンパイラは、AIワークロードにおいて、あらゆる種類の計算ハードウェアをシームレスに利用することができます。例えば、TVMが推論に対する役割を果たしているように、GenSynはモデルトレーニングに対する同様のツールの構築を試みています。

成功すれば、それは分散型AI計算ネットワークの能力を大幅に拡張し、さまざまなハードウェアを効率的に活用してより複雑で多様なAIタスクを処理することができます。この野心的なビジョンは、異種構成のハードウェアを最適化することの複雑さと高い技術リスクのために挑戦的であるが、異種システムのパフォーマンスを維持するなどの障壁を克服できれば、この技術はCUDAとNVIDIAの要塞を弱体化させる可能性があります。

推論に関して：Hyperbolicの手法は、検証可能な推論と異種計算リソースの分散化ネットワークを組み合わせ、比較的実用的な戦略を示しています。TVMなどのコンパイラスタンダードを活用することで、Hyperbolicは広範なハードウェア構成を利用でき、性能と信頼性を維持できます。NVIDIAからAMD、Intelなどの多数の供給業者からのチップ（消費者向けハードウェアから高性能ハードウェアまで）を集約することができます。

これらの暗号化AIの交差領域の発展は、AI計算がより分散化、効率化、アクセス可能になる未来を予示しています。これらのプロジェクトの成功は、技術的な優位性だけでなく、既存のAIワークフローとシームレスに統合する能力、AIプラクティショナーと企業の実際の懸念を解決する能力にも依存しています。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし