2022年11月にChatGPTが開始され、様々な産業関係者の目をAI大規模言語モデルに開かせました。この狂乱のようなダイナミクスは暗号資産空間に浸透し、本記事はAIの発展、現状、そしてAI+暗号資産の組み合わせから生まれた産業について紹介することを目的としています。
機械学習(ML)は経験的学習能力を持つ技術であり、大規模なデータセットから学習して動物、言語翻訳、およびその他の特定のタスクを区別する方法を学習します。現在、機械学習は人工知能を実現する最も実用的な方法の1つとされており、学習データがラベル付けされているかどうかによって監督学習と非監督学習に分けられます。
教師あり学習を達成できるモデルの種類は多岐にわたります。木構造ベースのモデル、グラフモデル、そして最近登場したニューラルネットワークなどがあります。計算能力とデータの急速な発展により、ディープラーニングはニューラルネットワークのアーキテクチャに基づいてさらに発展してきました。現在のディープラーニングアーキテクチャには、CNN、RNN、アテンションメカニズムなどが一般的に含まれていますが、これに限定されるものではありません。
機械学習の分類、出典: HashKey Capital
異なる深層学習ネットワークは、基本的な構造として、入力層、隠れ層、および出力層を持っており、入力層は通常、テキスト、ビデオ、音声、およびその他のデータが「トークン化/埋め込み」された後のものです。隠れ層は、データセットやタスクの目的に応じて異なる設計(モデル形状)を持っており、表に示されています。
ニューラルネットワークの種類、出典: ハッシュキャピタルによる整理
30年間のニューラルネットワークの開発、出典: HashKey Capital による整理
ニューラルネットワークのトレーニングは、ジョーダンが1986年の論文でシーケンシャルパターンを学習するためにニューラルネットワークをトレーニングしたとき、1980年代半ばに初めて起源しました。シリアルオーダー:並列分散処理アプローチ. その小さなネットワークにはわずか数個のニューロンしかありませんでした。
1990年代、ジェフリー・アーマンは、ネットワークを50ニューロンのネットワークに拡張し、ネットワークが意味に基づいて単語を空間的にクラスタリングすることを発見しました。例えば、無生物と有機物の名詞を分離し、これらの2つのカテゴリー内で有機物は人間と非人間のカテゴリーに細分化され、無生物は壊れやすいものと食べられるものに分類されました。これは、ネットワークが階層的な説明を学習する能力を持っていることを示しています。
彼はさらに、単語が高次元空間の点として表現され、単語や文章のシーケンスがパスとして見ることができると述べた。この重大な進展により、テキストデータセットをデジタル化し、ベクトル化し、コンピュータで処理することが可能となりました。
ソース: http://3b1b.co/neural-networks
2011年、Confluenceの研究者は数千のニューロンと数百万の接続を持つ大規模なネットワークを訓練し、ネットワークが長いシーケンスを通じて一貫したコンテキストを維持する能力において課題があることが明らかになりました。
2017年、OpenAIは、感情ニューロンが発見された82百万件のAmazonレビューでトレーニングを行うことにより、Kathyの研究を発展させました。そのようなニューロンは、テキストの感情を完璧に分類しました。
ソース:レビューを生成する方法を学び、感情を見つける
コンテキストサイズの制限に関して、この論文2017 Attention Is All You Needは解決策を提案しています。 この論文は、ネットワークのコンテキストに基づいて接続重みを適応させるダイナミックレイヤーネットワークを作成しています。 入力内の単語が他の単語を表示して比較し、最も関連性の高い単語を見つけることができます。 これらの単語がコンセプト上で近いほど、空間上でも近く、より高い接続重みを持つことができます。 ただし、この論文は翻訳の問題にのみ焦点を当てていました。
そのため、OpenAIの研究者はより強力なトランスフォーマーアーキテクチャを試し、2020年にGPT-3を発表しました。これにより、世界中の産業から広範な注目を集め、今回はネットワークが175Bのパラメータ、96層、1,000語のコンテキストウィンドウに達しました。
次の28x28ピクセルのデジタル画像を例に取ると、ニューロンは28x28の入力画像の各ピクセルに対応しており、合計784個のニューロンがあります。ニューロン内の数値は、0から1までの活性化値です。
28x28ピクセルのデジタル画像、ソース:http://3b1b.co/neural-networks
これらの784個のニューロンは、ネットワークの入力層を形成しています。最終層は出力層で、0〜9を表す10個のニューロンが含まれており、再び0〜1の活性化値があります。中間層は隠れ層で、前の層の活性化値が、ニューラルネットワークが操作されるときに次の層の活性化値を決定します。
深層学習の深さは、モデルが多くの「層」の変換を学習するという点にあります。たとえば、図9に示すように、異なる層では異なる特徴を認識することができます。入力層がデータの詳細の低いレベルに近いほど、出力層はより具体的な概念に近づき、それらを区別するために使用できます。
Source: http://3b1b.co/neural-networks
モデルが大きくなるにつれて、中間の隠れた層には、1層あたり数百億の重みが関与しており、実際にネットワークが行っていることを決定するのは、これらの重みとバイアスです。機械学習のプロセスは、重みとバイアスである正しいパラメータを見つけるプロセスです。
GPT、大規模言語モデルで使用されているトランスフォーマーアーキテクチャには、96層のデコーダモジュールからなる中間隠れ層があります。GPT1、GPT2、GPT3はそれぞれ12、48、96層のデコーダを持っています。デコーダは、さらに注意と前向きフィードバックニューラルネットワークコンポーネントを含んでいます。
計算または学習プロセスには、ネットワークの計算された出力予測と実際の値との差の 2 乗を合計するコスト関数 (または損失関数) の定義が含まれ、合計が小さい場合、モデルは許容範囲内で実行されます。
トレーニングは、ネットワークをランダムにパラメータ化して開始し、コスト関数を最小化するパラメータを見つけることでネットワークのモデルパラメータを最終的に決定します。コスト関数を収束させる方法は、各パラメータの変更がコスト/損失に与える影響の度合いを勾配降下法によって調べ、その影響の度合いに応じてパラメータを調整することです。
パラメータ勾配を計算する過程では、連鎖律に従って、逆伝播またはバックプロパゲーションが導入されます。このアルゴリズムは、勾配を計算するために必要な中間変数(偏微分)の保存も必要とします。この過程では、出力層から入力層に逆順にネットワークを逆伝播します。
AI大規模言語モデルのトレーニング中のパフォーマンスに影響を与える主な要因は、モデルパラメータの数、データセットのサイズ、コンピューティング量の3つです。
ソース:OpenAIレポート、ニューラル言語モデルのスケーリング則
これは現実のデータセットやコンピュータ(計算能力)の開発と一致していますが、利用可能なデータよりも計算能力の方が急速に成長していることが下の表からも分かりますが、メモリは最も遅く発展しています。
データセット、メモリ、およびコンピューティングパワーの開発、出典: https://github.com/d2l-ai
大規模なモデルに直面すると、訓練データがあまりにも少ないと過学習が起こりやすく、一般的には、より複雑なモデルの精度はデータ量が増加するにつれて改善されます。大規模なモデルに必要なデータ要件に関しては、データ量はパラメータの10倍であるべきだとする10の法則に基づいて決定されますが、一部のディープラーニングアルゴリズムは1対1を適用しています。
監督学習には、有効な結果に到達するためにラベル付き+特徴付きデータセットを使用する必要があります。
ソース:ファッション-MNIST衣類カテゴリ分類データセット
過去10年から20年間のデータの急速な増加と、Kaggle、Azure、AWS、Googleデータベースなどの現在利用可能なオープンソースのデータセットにもかかわらず、プライバシーの問題、モデルパラメータの増加、データの再現性の問題により、限られた、乏しい、高額なデータがAIの開発のボトルネックとなりつつある。この問題を緩和するためにさまざまなデータソリューションが提案されている。
データ拡張技術は、スケーリング、回転、反射、切り取り、翻訳、ガウスノイズの追加、ミックスアップなど、新しいサンプルを取得せずにモデルに不十分なデータを提供することで、効果的な解決策となる場合があります。
合成データはもう一つの選択肢です。合成データとは、コンピュータシミュレーションやアルゴリズムによって人工的に生成されるデータであり、以前の参照データセットの有無にかかわらず生成されます。合成データの生成ツールの開発に関して、Ian J. Goodfellowは、深層学習アーキテクチャである生成的対抗ネットワーク(GAN)を発明しました。
それは互いに競争する2つのニューラルネットワークを訓練し、与えられたトレーニングデータセットから新しい、より現実的なデータを生成することができます。このアーキテクチャは、画像の生成、欠落している情報の補完、他のモデルのためのトレーニングデータの生成、2Dデータに基づいた3Dモデルの生成などをサポートしています。
これはまだ分野の開発が始まったばかりで、2021年または2022年に設立された企業がほとんどですが、2023年にはわずかな数の企業も存在します。
合成データ企業の資金調達状況。ソース:https://frontline.vc/blog/synthetic-data/
AIトレーニングプロセスには、ワード埋め込み、トランスフォーマーQKV行列、ソフトマックス演算など、多くの行列演算が関与しており、これらの行列演算を通じて、全体的なモデルパラメータも行列に格納されています。
ベクトルデータベースの例、ソース:https://x.com/ProfTomYeh/status/1795076707386360227
大きなモデルは主にトレーニングと推論に分類され、大量のコンピュータハードウェア需要をもたらします。
事前トレーニングと微調整はトレーニングの下にさらに細分化されることができます。前述のように、ネットワークモデルを構築するには、まずパラメータをランダムに初期化し、その後ネットワークをトレーニングし、ネットワークの損失が許容範囲に達するまでパラメータを継続的に調整します。事前トレーニングと微調整の違いは、
事前トレーニングは、各レイヤーのパラメータをランダムに初期化して開始します。一方、ファインチューニングのいくつかのレイヤーは、以前にトレーニングされたモデルのパラメータをこのタスクの初期化パラメータとして直接使用できます(前のレイヤーのパラメータを凍結して、特定のデータセットに対して操作します)。
ソース:https://d2l.ai/chapter_computer-vision/fine-tuning.html
事前トレーニングと微調整は、いずれもモデルパラメータの変更を伴い、最終的にはモデルまたはパラメータの最適化となります。一方、推論はユーザーの入力後にモデルを読み込んで推論を行い、最終的にフィードバックと出力結果を得る計算です。
事前トレーニング、微調整、推論のコンピューター要件は、コンピューター要件に関して最大から最小までランク付けされています。次の表は、トレーニングと推論のコンピューターハードウェア要件を比較しています。トレーニングと推論のコンピューターハードウェア要件は、計算プロセスと精度要件の違いによる計算能力、メモリ、通信/帯域幅の観点から著しく異なり、同時に、計算能力、メモリ、通信/帯域幅における不可能なトリレンマがあります。
この表の統計的な測定値は、単一のモデルが単一のトークン、単一のパラメータを処理することに基づいています。FLOPs: floating-point operations per second、行列演算の数。 \
*DP、TP、PP: データ並列、テンソル並列、パイプライン並列。
トレーニングと推論の間のコンピューターハードウェア比較、出典:HashKey Capitalによって編成
ニューラルネットワークのトレーニングプロセスでは、モデルパラメータを更新するために、前方伝播と逆伝播を交互に行う必要があります。一方、推論では前方伝播のみが必要です。この違いは、トレーニングと推論のためのコンピュータハードウェアリソース要件を主に分ける影響因子となります。
計算能力の観点から、表に示されているように、モデルパラメータの数と計算消費量との間には単純な乗算関係があり、トレーニングには6〜8の浮動小数点演算が必要であり、推論には2が必要です。これは、トレーニングに関与する逆伝播に起因しています。逆伝播には順伝播の2倍の計算能力が必要であり、そのためトレーニングの計算消費量は推論よりもはるかに高くなります。
トレーニングに使用される逆伝播において、計算を繰り返さないように、順伝播で使用された中間値を再利用します。そのため、逆伝播が完了するまで、途中値を保持する必要があります。トレーニング中のメモリ消費量は、主にモデルパラメータ、順伝播計算中に生成された中間活性化値、逆伝播計算によって生成された勾配、およびオプティマイザの状態を含みます。推論段階では逆伝播やオプティマイザの状態や勾配などは不要であり、そのメモリ消費量はトレーニングよりもはるかに小さいです。
通信/帯埯に関して、AIトレーニングの性能を向上させるために、主流のモデルトレーニングでは通常、データ並列、テンソル並列、およびパイプライン並列の3つの並行戦略を使用します。
ソース:OpenAI、https://openai.com/index/techniques-for-training-large-neural-networks/
これらの3つの戦略について、TP通信頻度が最も大きく、通信量が最も多く、トークンの数、モデルの幅、および層の数に関連していると予測されています。PPの通信量と頻度はTPよりも小さく、トークンの数とモデルの幅に関連しています。DPの通信量と頻度は最も小さく、入力トークンとは独立しています。
大規模モデルのコンピューターハードウェアリソースのボトルネックは、主に計算能力、帯域幅/通信、メモリによって制限されており、この3つの間にはチェックとバランスが取られており、不可能なトリレンマの問題が生じています。例えば、通信のボトルネックのため、単一のコンピューターの計算能力を単純に最適化するだけでは、クラスターのパフォーマンスを改善することができません。
したがって、クラスタの性能を向上させるために並列アーキテクチャが使用されていますが、ほとんどの並列アーキテクチャは実際には通信やストレージを計算能力のために犠牲にしています。
通信とストレージを犠牲にする代わりに計算能力を向上させること:
PPでは、transformerの各層にGPUが割り当てられている場合、時間単位での計算能力の増加にもかかわらず、層間の通信要件も増加し、データ量と待ち時間が増加します。また、順伝搬の中間状態の保持要件も非常に速く増加します。
通信を犠牲にして計算能力を向上させる:
TPでは、各トランスフォーマーは並列計算のために分解されます。トランスフォーマーは2つのコンポーネント(Attention headとfeed-forward network)で構成されているため、タスクはレイヤー内でAttention headまたはfeed-forward neural networkのいずれかに分割することができます。このTPアプローチは、GPUがモデルを適合させることができないために生じる過剰なPP階層の問題を緩和することができます。ただし、このアプローチにはまだ深刻な通信オーバーヘッドがあります。
本稿では、現在、暗号資産分野において以下の主要なAIカテゴリが存在すると考えています:
ソース: HashKey Capital によって編成
先に述べたように、AIの中で最も重要な3つの要素は、データ、モデル、および計算能力であり、これらは暗号資産AIを支えるインフラストラクチャとして機能します。
その組み合わせは実際にはコンピューティングネットワークを形成し、計算プロセスにおいて効率的であり、暗号資産の精神により準拠した大量のミドルウェアが現れます。その下流には、これらの検証可能な結果に基づくエージェントがあり、これらはさまざまなユーザーオーディエンスに対して異なる役割を果たすことができます。
別のフローチャートを使用して、暗号資産AIの基本的なエコロジーを次のように表現することができます:
エコロジカルフローチャート、ソース:HashKey Capitalによって編成
もちろん、さまざまなプレーヤーの参加を調整するために、暗号資産空間にはトークン経済メカニズムが必要です。
データセットについては、一般のデータソースと特定の個人用データソースのいずれかを選択することができます。
データソース:
合成データプラットフォーム:
その他:
データラベリングサービスプラットフォームは、異なるワーカーにラベリングオーダータスクを割り当てることにより、これらのワーカーはCropo、Public AIなどのタスクを完了した後に対応するトークンインセンティブを得ることができます。ただし、現在の問題は、データラベリングを行う人がデータよりも多いということです。一方、AI企業は安定したデータラベリングサプライヤーを持っており、分散型プラットフォームへの切り替え意欲が弱くなっています。これらのプラットフォームは、データラベリングサプライヤーからの注文の残りの部分の配分しか得ることができないかもしれません。
一般化されたコンピューティングネットワークは、GPUやCPUなどのリソースを集約し、トレーニングと推論の区別がない一般化されたコンピューティングサービスを提供できるネットワークを指します。
暗号資産スペースでは、a16zが投資したGensynは、分散型トレーニングコンピューティングネットワークを提案しています。
ユーザーがトレーニング要件タスクを提出した後、プラットフォームはそれを分析し、必要な計算能力を評価し、最小限のML作業に分割します。その後、検証者は定期的に分析されたタスクを取得し、下流学習証明の比較のための閾値を生成します。
タスクがトレーニングフェーズに入ると、ソルバーによって実行され、トレーニングデータセットからモデルの重みや応答インデックスを定期的に保存し、学習証明を生成します。検証者は、証明の一部を再実行して距離計算を行い、それらが証明と一致するかどうかを検証します。告発者は、グラフベースのピンポイントチャレンジプログラムに基づいて仲裁を行い、検証作業が正しく実行されたかどうかを確認します。
微調整は、特定のデータセットで事前トレーニング済みモデルを微調整し、元のモデルを保持しながらモデルを特定のタスクに適合させるだけで、大規模なモデルを直接事前トレーニングするよりも実装が簡単でコストがかかりません。
Hugging Faceは、分散プラットフォームへの事前トレーニング済み言語モデルリソースプロバイダーとしてアクセスできます。ユーザーはタスク要件に応じて微調整するモデルを選択し、その後、コンピューティングネットワークが提供するGPUやその他のリソースを使用してタスクの微調整を行います。これには、タスクの複雑さに基づいてデータセットのサイズを決定し、モデルの複雑さを決定し、A100などのより高度なリソースの必要性をさらに決定する必要があります。
Gensynに加えて、事前トレーニングをサポートできるプラットフォームのほとんどがファインチューニングもサポートできます。
トレーニング(事前トレーニングおよびファインチューニング)と比較して、モデルパラメーターの調整が必要なトレーニングに対して、推論の計算プロセスは前方伝播のみを必要とし、より少ない計算パワーを必要とします。ほとんどの分散コンピューティングネットワークは現在、推論サービスに焦点を当てています。
推論が実行されると、この段階は既にモデルの使用段階であり、その後、適切な時期にミドルウェアを導入することができます。
オンチェーンスマートコントラクトは、オフチェーンのAIコンピュートの結果を取得するためのものです:
コンピューティングネットワークには、主にデータプライバシーとモデルプライバシーが含まれ、データプライバシーがモデルプライバシーよりもはるかに重要です。
ほとんどのコンピューティングネットワークは、システムが正確に動作することを確認するために異なる検証システムを構築していますが、リンクは従来のAI分野にまだ導入されていない部分の1つです。
ZK証明の主な役割は以下の2点です:
Modulus Labsは、PolygonのPlonkyプルーフシステムを使用して、1800万のパラメータモデルのプルーフを60〜70秒で作成できることを示しました。小さなモデルの場合、この段階でZKMLを使用することは可能ですが、それでもコストは大きくなります。
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
上記のZKMLの制限を考慮すると、OPMLが代替手段となります。セキュリティの面ではZKMLよりも弱いですが、メモリ消費量や証明計算時間はZKMLよりもかなり良好です。ORAレポートによると、同じ7B-LLaMAモデル(モデルサイズ約26GB)について、OPMLは32GBのメモリ内で処理できることが示されていますが、zkMLの回路のメモリ消費量はテラバイト、さらにはペタバイトのオーダーになることがあります。
Trusted Execution Environmentはハードウェアレベルのセキュリティを提供し、ZKMLやOPMLの代替となる可能性があります。TEE-proofはTEE内部の計算の結果として生成され、その計算コストは通常zk-proofよりもはるかに低くなります。また、TEEの証明のサイズは通常固定定数(署名長)であり、そのため、より小さなフットプリントとオンチェーン検証のコストが低いという利点があります。
検証に加え、TEEには、外部プロセスや計算がそれ内部のデータにアクセスしたり変更したりできないように、機密データを隔離するという利点があります。
TEEを使用するプロジェクトには、次のものが含まれます:
ソース: https://arxiv.org/pdf/2401.17555,マーリンプロトコル
ORAプロトコルは、独自のZKMLおよびOPML検証に加えて、ブロックチェーン上の楽観的プライバシー保存AI(opp/ai)を開発しており、上記の比較表には含まれていません。
エージェントは、受信情報を分析し、現在の環境条件を評価し、決定を下す能力を持っています。 エージェントの構成は、以下の図に示されており、LLMは中核コンポーネントであり、さらに、LLMに適切なプロンプトをフィードし、メモリを介して短期データと長期歴史データ(外部データ)を保存する必要があります。
複雑なタスクを一度に完了することはできないため、それらはPlanによってより小さなタスクに分割する必要があります。さらに、Agentは外部APIを呼び出して、現在の情報、コード実行能力、専用情報源へのアクセスなど、追加情報を取得することもできます。
出典:大規模言語モデルに基づく自律エージェントに関する調査
エージェントの意思決定能力は、最近の大規模言語モデルLLMの出現まで、ある程度の突破口を持っていませんでした。 2021年から2023年までのエージェントに関する発表論文の数がまとめられた報告書があり、2021年に実際には約数十の研究論文しかなかったが、2023年には数百の論文が発表されています。 その論文はエージェントを7つのカテゴリに分類しています。
出典:大規模言語モデルに基づく自律エージェントに関する調査
Web3では、エージェントが存在するシナリオは、Web2の世界と比較してまだ限られており、現在は自動クリアリング、コードコンポーネントの構築(スマートコントラクトの作成、zk回路の作成)、リアルタイムリスク管理、アービトラージやイールドファーミングなどの戦略の実行が含まれています。
さまざまなエージェントに基づいて、特定のアプリケーションを組み合わせる/抽象化/作成できると同時に、ユーザーが特定のタイプのアプリケーションを構築するために使用するエージェントの種類を選択できる調整プラットフォームがいくつかあります。しかし、それらのほとんどはエージェントの開発に限定されています。
一部の開発者は、プラットフォームをよりスマートにするためにAIを使用します。例えば、セキュリティプロジェクトでは、攻撃脆弱性を区別するために機械学習が使用されます。DeFiプロトコルでは、AIがリアルタイムモニタリングツールを構築するのに使用されます。データ分析プラットフォームもデータのクリーニングと分析を支援するためにAIを使用しています。
この記事では、以下の3つのポイントを強調したいと思います。
暗号資産において、多くの計算ネットワークが必然的に現れ、ユーザーにGPUがAIであると感じさせるが、前節で分析したように、計算ネットワークには計算能力、帯域幅/通信、メモリの不可能な三位一体があり、また、データ並列、テンソル並列、パイプライン並列などのモデルトレーニングに使用される三種類の並列戦略は、すべて計算ネットワークのフレームワークの設定に課される均衡を指し示している。
同じモデルとデータを使用しても、必ずしも同じ結果が得られない理由は、浮動小数点演算の使用にあります。この計算の違いは、コンピューティングネットワークの構築にも影響を与えます。
AIエージェントはここ数年でより多くの有用性を示し始めており、市場にはさらに多くのエージェントが登場することが予想されます。しかし、暗号通貨でエージェントがどのように機能するか、また適切なトークンインセンティブを見つける方法は依然として課題です。
本文はGate.ioから転載されました[中程度],原文标题“AI into Crypto”,著作权归属原作者[HashKey Capital ],如对转载有异议,请联系ゲートラーン团队,チームは関連プロセスに基づいて迅速に対応します。
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
記事の他の言語バージョンはGate Learnチームによって翻訳され、言及されていませんGate翻訳された記事をコピー、配信、または盗用することはできません。
2022年11月にChatGPTが開始され、様々な産業関係者の目をAI大規模言語モデルに開かせました。この狂乱のようなダイナミクスは暗号資産空間に浸透し、本記事はAIの発展、現状、そしてAI+暗号資産の組み合わせから生まれた産業について紹介することを目的としています。
機械学習(ML)は経験的学習能力を持つ技術であり、大規模なデータセットから学習して動物、言語翻訳、およびその他の特定のタスクを区別する方法を学習します。現在、機械学習は人工知能を実現する最も実用的な方法の1つとされており、学習データがラベル付けされているかどうかによって監督学習と非監督学習に分けられます。
教師あり学習を達成できるモデルの種類は多岐にわたります。木構造ベースのモデル、グラフモデル、そして最近登場したニューラルネットワークなどがあります。計算能力とデータの急速な発展により、ディープラーニングはニューラルネットワークのアーキテクチャに基づいてさらに発展してきました。現在のディープラーニングアーキテクチャには、CNN、RNN、アテンションメカニズムなどが一般的に含まれていますが、これに限定されるものではありません。
機械学習の分類、出典: HashKey Capital
異なる深層学習ネットワークは、基本的な構造として、入力層、隠れ層、および出力層を持っており、入力層は通常、テキスト、ビデオ、音声、およびその他のデータが「トークン化/埋め込み」された後のものです。隠れ層は、データセットやタスクの目的に応じて異なる設計(モデル形状)を持っており、表に示されています。
ニューラルネットワークの種類、出典: ハッシュキャピタルによる整理
30年間のニューラルネットワークの開発、出典: HashKey Capital による整理
ニューラルネットワークのトレーニングは、ジョーダンが1986年の論文でシーケンシャルパターンを学習するためにニューラルネットワークをトレーニングしたとき、1980年代半ばに初めて起源しました。シリアルオーダー:並列分散処理アプローチ. その小さなネットワークにはわずか数個のニューロンしかありませんでした。
1990年代、ジェフリー・アーマンは、ネットワークを50ニューロンのネットワークに拡張し、ネットワークが意味に基づいて単語を空間的にクラスタリングすることを発見しました。例えば、無生物と有機物の名詞を分離し、これらの2つのカテゴリー内で有機物は人間と非人間のカテゴリーに細分化され、無生物は壊れやすいものと食べられるものに分類されました。これは、ネットワークが階層的な説明を学習する能力を持っていることを示しています。
彼はさらに、単語が高次元空間の点として表現され、単語や文章のシーケンスがパスとして見ることができると述べた。この重大な進展により、テキストデータセットをデジタル化し、ベクトル化し、コンピュータで処理することが可能となりました。
ソース: http://3b1b.co/neural-networks
2011年、Confluenceの研究者は数千のニューロンと数百万の接続を持つ大規模なネットワークを訓練し、ネットワークが長いシーケンスを通じて一貫したコンテキストを維持する能力において課題があることが明らかになりました。
2017年、OpenAIは、感情ニューロンが発見された82百万件のAmazonレビューでトレーニングを行うことにより、Kathyの研究を発展させました。そのようなニューロンは、テキストの感情を完璧に分類しました。
ソース:レビューを生成する方法を学び、感情を見つける
コンテキストサイズの制限に関して、この論文2017 Attention Is All You Needは解決策を提案しています。 この論文は、ネットワークのコンテキストに基づいて接続重みを適応させるダイナミックレイヤーネットワークを作成しています。 入力内の単語が他の単語を表示して比較し、最も関連性の高い単語を見つけることができます。 これらの単語がコンセプト上で近いほど、空間上でも近く、より高い接続重みを持つことができます。 ただし、この論文は翻訳の問題にのみ焦点を当てていました。
そのため、OpenAIの研究者はより強力なトランスフォーマーアーキテクチャを試し、2020年にGPT-3を発表しました。これにより、世界中の産業から広範な注目を集め、今回はネットワークが175Bのパラメータ、96層、1,000語のコンテキストウィンドウに達しました。
次の28x28ピクセルのデジタル画像を例に取ると、ニューロンは28x28の入力画像の各ピクセルに対応しており、合計784個のニューロンがあります。ニューロン内の数値は、0から1までの活性化値です。
28x28ピクセルのデジタル画像、ソース:http://3b1b.co/neural-networks
これらの784個のニューロンは、ネットワークの入力層を形成しています。最終層は出力層で、0〜9を表す10個のニューロンが含まれており、再び0〜1の活性化値があります。中間層は隠れ層で、前の層の活性化値が、ニューラルネットワークが操作されるときに次の層の活性化値を決定します。
深層学習の深さは、モデルが多くの「層」の変換を学習するという点にあります。たとえば、図9に示すように、異なる層では異なる特徴を認識することができます。入力層がデータの詳細の低いレベルに近いほど、出力層はより具体的な概念に近づき、それらを区別するために使用できます。
Source: http://3b1b.co/neural-networks
モデルが大きくなるにつれて、中間の隠れた層には、1層あたり数百億の重みが関与しており、実際にネットワークが行っていることを決定するのは、これらの重みとバイアスです。機械学習のプロセスは、重みとバイアスである正しいパラメータを見つけるプロセスです。
GPT、大規模言語モデルで使用されているトランスフォーマーアーキテクチャには、96層のデコーダモジュールからなる中間隠れ層があります。GPT1、GPT2、GPT3はそれぞれ12、48、96層のデコーダを持っています。デコーダは、さらに注意と前向きフィードバックニューラルネットワークコンポーネントを含んでいます。
計算または学習プロセスには、ネットワークの計算された出力予測と実際の値との差の 2 乗を合計するコスト関数 (または損失関数) の定義が含まれ、合計が小さい場合、モデルは許容範囲内で実行されます。
トレーニングは、ネットワークをランダムにパラメータ化して開始し、コスト関数を最小化するパラメータを見つけることでネットワークのモデルパラメータを最終的に決定します。コスト関数を収束させる方法は、各パラメータの変更がコスト/損失に与える影響の度合いを勾配降下法によって調べ、その影響の度合いに応じてパラメータを調整することです。
パラメータ勾配を計算する過程では、連鎖律に従って、逆伝播またはバックプロパゲーションが導入されます。このアルゴリズムは、勾配を計算するために必要な中間変数(偏微分)の保存も必要とします。この過程では、出力層から入力層に逆順にネットワークを逆伝播します。
AI大規模言語モデルのトレーニング中のパフォーマンスに影響を与える主な要因は、モデルパラメータの数、データセットのサイズ、コンピューティング量の3つです。
ソース:OpenAIレポート、ニューラル言語モデルのスケーリング則
これは現実のデータセットやコンピュータ(計算能力)の開発と一致していますが、利用可能なデータよりも計算能力の方が急速に成長していることが下の表からも分かりますが、メモリは最も遅く発展しています。
データセット、メモリ、およびコンピューティングパワーの開発、出典: https://github.com/d2l-ai
大規模なモデルに直面すると、訓練データがあまりにも少ないと過学習が起こりやすく、一般的には、より複雑なモデルの精度はデータ量が増加するにつれて改善されます。大規模なモデルに必要なデータ要件に関しては、データ量はパラメータの10倍であるべきだとする10の法則に基づいて決定されますが、一部のディープラーニングアルゴリズムは1対1を適用しています。
監督学習には、有効な結果に到達するためにラベル付き+特徴付きデータセットを使用する必要があります。
ソース:ファッション-MNIST衣類カテゴリ分類データセット
過去10年から20年間のデータの急速な増加と、Kaggle、Azure、AWS、Googleデータベースなどの現在利用可能なオープンソースのデータセットにもかかわらず、プライバシーの問題、モデルパラメータの増加、データの再現性の問題により、限られた、乏しい、高額なデータがAIの開発のボトルネックとなりつつある。この問題を緩和するためにさまざまなデータソリューションが提案されている。
データ拡張技術は、スケーリング、回転、反射、切り取り、翻訳、ガウスノイズの追加、ミックスアップなど、新しいサンプルを取得せずにモデルに不十分なデータを提供することで、効果的な解決策となる場合があります。
合成データはもう一つの選択肢です。合成データとは、コンピュータシミュレーションやアルゴリズムによって人工的に生成されるデータであり、以前の参照データセットの有無にかかわらず生成されます。合成データの生成ツールの開発に関して、Ian J. Goodfellowは、深層学習アーキテクチャである生成的対抗ネットワーク(GAN)を発明しました。
それは互いに競争する2つのニューラルネットワークを訓練し、与えられたトレーニングデータセットから新しい、より現実的なデータを生成することができます。このアーキテクチャは、画像の生成、欠落している情報の補完、他のモデルのためのトレーニングデータの生成、2Dデータに基づいた3Dモデルの生成などをサポートしています。
これはまだ分野の開発が始まったばかりで、2021年または2022年に設立された企業がほとんどですが、2023年にはわずかな数の企業も存在します。
合成データ企業の資金調達状況。ソース:https://frontline.vc/blog/synthetic-data/
AIトレーニングプロセスには、ワード埋め込み、トランスフォーマーQKV行列、ソフトマックス演算など、多くの行列演算が関与しており、これらの行列演算を通じて、全体的なモデルパラメータも行列に格納されています。
ベクトルデータベースの例、ソース:https://x.com/ProfTomYeh/status/1795076707386360227
大きなモデルは主にトレーニングと推論に分類され、大量のコンピュータハードウェア需要をもたらします。
事前トレーニングと微調整はトレーニングの下にさらに細分化されることができます。前述のように、ネットワークモデルを構築するには、まずパラメータをランダムに初期化し、その後ネットワークをトレーニングし、ネットワークの損失が許容範囲に達するまでパラメータを継続的に調整します。事前トレーニングと微調整の違いは、
事前トレーニングは、各レイヤーのパラメータをランダムに初期化して開始します。一方、ファインチューニングのいくつかのレイヤーは、以前にトレーニングされたモデルのパラメータをこのタスクの初期化パラメータとして直接使用できます(前のレイヤーのパラメータを凍結して、特定のデータセットに対して操作します)。
ソース:https://d2l.ai/chapter_computer-vision/fine-tuning.html
事前トレーニングと微調整は、いずれもモデルパラメータの変更を伴い、最終的にはモデルまたはパラメータの最適化となります。一方、推論はユーザーの入力後にモデルを読み込んで推論を行い、最終的にフィードバックと出力結果を得る計算です。
事前トレーニング、微調整、推論のコンピューター要件は、コンピューター要件に関して最大から最小までランク付けされています。次の表は、トレーニングと推論のコンピューターハードウェア要件を比較しています。トレーニングと推論のコンピューターハードウェア要件は、計算プロセスと精度要件の違いによる計算能力、メモリ、通信/帯域幅の観点から著しく異なり、同時に、計算能力、メモリ、通信/帯域幅における不可能なトリレンマがあります。
この表の統計的な測定値は、単一のモデルが単一のトークン、単一のパラメータを処理することに基づいています。FLOPs: floating-point operations per second、行列演算の数。 \
*DP、TP、PP: データ並列、テンソル並列、パイプライン並列。
トレーニングと推論の間のコンピューターハードウェア比較、出典:HashKey Capitalによって編成
ニューラルネットワークのトレーニングプロセスでは、モデルパラメータを更新するために、前方伝播と逆伝播を交互に行う必要があります。一方、推論では前方伝播のみが必要です。この違いは、トレーニングと推論のためのコンピュータハードウェアリソース要件を主に分ける影響因子となります。
計算能力の観点から、表に示されているように、モデルパラメータの数と計算消費量との間には単純な乗算関係があり、トレーニングには6〜8の浮動小数点演算が必要であり、推論には2が必要です。これは、トレーニングに関与する逆伝播に起因しています。逆伝播には順伝播の2倍の計算能力が必要であり、そのためトレーニングの計算消費量は推論よりもはるかに高くなります。
トレーニングに使用される逆伝播において、計算を繰り返さないように、順伝播で使用された中間値を再利用します。そのため、逆伝播が完了するまで、途中値を保持する必要があります。トレーニング中のメモリ消費量は、主にモデルパラメータ、順伝播計算中に生成された中間活性化値、逆伝播計算によって生成された勾配、およびオプティマイザの状態を含みます。推論段階では逆伝播やオプティマイザの状態や勾配などは不要であり、そのメモリ消費量はトレーニングよりもはるかに小さいです。
通信/帯埯に関して、AIトレーニングの性能を向上させるために、主流のモデルトレーニングでは通常、データ並列、テンソル並列、およびパイプライン並列の3つの並行戦略を使用します。
ソース:OpenAI、https://openai.com/index/techniques-for-training-large-neural-networks/
これらの3つの戦略について、TP通信頻度が最も大きく、通信量が最も多く、トークンの数、モデルの幅、および層の数に関連していると予測されています。PPの通信量と頻度はTPよりも小さく、トークンの数とモデルの幅に関連しています。DPの通信量と頻度は最も小さく、入力トークンとは独立しています。
大規模モデルのコンピューターハードウェアリソースのボトルネックは、主に計算能力、帯域幅/通信、メモリによって制限されており、この3つの間にはチェックとバランスが取られており、不可能なトリレンマの問題が生じています。例えば、通信のボトルネックのため、単一のコンピューターの計算能力を単純に最適化するだけでは、クラスターのパフォーマンスを改善することができません。
したがって、クラスタの性能を向上させるために並列アーキテクチャが使用されていますが、ほとんどの並列アーキテクチャは実際には通信やストレージを計算能力のために犠牲にしています。
通信とストレージを犠牲にする代わりに計算能力を向上させること:
PPでは、transformerの各層にGPUが割り当てられている場合、時間単位での計算能力の増加にもかかわらず、層間の通信要件も増加し、データ量と待ち時間が増加します。また、順伝搬の中間状態の保持要件も非常に速く増加します。
通信を犠牲にして計算能力を向上させる:
TPでは、各トランスフォーマーは並列計算のために分解されます。トランスフォーマーは2つのコンポーネント(Attention headとfeed-forward network)で構成されているため、タスクはレイヤー内でAttention headまたはfeed-forward neural networkのいずれかに分割することができます。このTPアプローチは、GPUがモデルを適合させることができないために生じる過剰なPP階層の問題を緩和することができます。ただし、このアプローチにはまだ深刻な通信オーバーヘッドがあります。
本稿では、現在、暗号資産分野において以下の主要なAIカテゴリが存在すると考えています:
ソース: HashKey Capital によって編成
先に述べたように、AIの中で最も重要な3つの要素は、データ、モデル、および計算能力であり、これらは暗号資産AIを支えるインフラストラクチャとして機能します。
その組み合わせは実際にはコンピューティングネットワークを形成し、計算プロセスにおいて効率的であり、暗号資産の精神により準拠した大量のミドルウェアが現れます。その下流には、これらの検証可能な結果に基づくエージェントがあり、これらはさまざまなユーザーオーディエンスに対して異なる役割を果たすことができます。
別のフローチャートを使用して、暗号資産AIの基本的なエコロジーを次のように表現することができます:
エコロジカルフローチャート、ソース:HashKey Capitalによって編成
もちろん、さまざまなプレーヤーの参加を調整するために、暗号資産空間にはトークン経済メカニズムが必要です。
データセットについては、一般のデータソースと特定の個人用データソースのいずれかを選択することができます。
データソース:
合成データプラットフォーム:
その他:
データラベリングサービスプラットフォームは、異なるワーカーにラベリングオーダータスクを割り当てることにより、これらのワーカーはCropo、Public AIなどのタスクを完了した後に対応するトークンインセンティブを得ることができます。ただし、現在の問題は、データラベリングを行う人がデータよりも多いということです。一方、AI企業は安定したデータラベリングサプライヤーを持っており、分散型プラットフォームへの切り替え意欲が弱くなっています。これらのプラットフォームは、データラベリングサプライヤーからの注文の残りの部分の配分しか得ることができないかもしれません。
一般化されたコンピューティングネットワークは、GPUやCPUなどのリソースを集約し、トレーニングと推論の区別がない一般化されたコンピューティングサービスを提供できるネットワークを指します。
暗号資産スペースでは、a16zが投資したGensynは、分散型トレーニングコンピューティングネットワークを提案しています。
ユーザーがトレーニング要件タスクを提出した後、プラットフォームはそれを分析し、必要な計算能力を評価し、最小限のML作業に分割します。その後、検証者は定期的に分析されたタスクを取得し、下流学習証明の比較のための閾値を生成します。
タスクがトレーニングフェーズに入ると、ソルバーによって実行され、トレーニングデータセットからモデルの重みや応答インデックスを定期的に保存し、学習証明を生成します。検証者は、証明の一部を再実行して距離計算を行い、それらが証明と一致するかどうかを検証します。告発者は、グラフベースのピンポイントチャレンジプログラムに基づいて仲裁を行い、検証作業が正しく実行されたかどうかを確認します。
微調整は、特定のデータセットで事前トレーニング済みモデルを微調整し、元のモデルを保持しながらモデルを特定のタスクに適合させるだけで、大規模なモデルを直接事前トレーニングするよりも実装が簡単でコストがかかりません。
Hugging Faceは、分散プラットフォームへの事前トレーニング済み言語モデルリソースプロバイダーとしてアクセスできます。ユーザーはタスク要件に応じて微調整するモデルを選択し、その後、コンピューティングネットワークが提供するGPUやその他のリソースを使用してタスクの微調整を行います。これには、タスクの複雑さに基づいてデータセットのサイズを決定し、モデルの複雑さを決定し、A100などのより高度なリソースの必要性をさらに決定する必要があります。
Gensynに加えて、事前トレーニングをサポートできるプラットフォームのほとんどがファインチューニングもサポートできます。
トレーニング(事前トレーニングおよびファインチューニング)と比較して、モデルパラメーターの調整が必要なトレーニングに対して、推論の計算プロセスは前方伝播のみを必要とし、より少ない計算パワーを必要とします。ほとんどの分散コンピューティングネットワークは現在、推論サービスに焦点を当てています。
推論が実行されると、この段階は既にモデルの使用段階であり、その後、適切な時期にミドルウェアを導入することができます。
オンチェーンスマートコントラクトは、オフチェーンのAIコンピュートの結果を取得するためのものです:
コンピューティングネットワークには、主にデータプライバシーとモデルプライバシーが含まれ、データプライバシーがモデルプライバシーよりもはるかに重要です。
ほとんどのコンピューティングネットワークは、システムが正確に動作することを確認するために異なる検証システムを構築していますが、リンクは従来のAI分野にまだ導入されていない部分の1つです。
ZK証明の主な役割は以下の2点です:
Modulus Labsは、PolygonのPlonkyプルーフシステムを使用して、1800万のパラメータモデルのプルーフを60〜70秒で作成できることを示しました。小さなモデルの場合、この段階でZKMLを使用することは可能ですが、それでもコストは大きくなります。
Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307
上記のZKMLの制限を考慮すると、OPMLが代替手段となります。セキュリティの面ではZKMLよりも弱いですが、メモリ消費量や証明計算時間はZKMLよりもかなり良好です。ORAレポートによると、同じ7B-LLaMAモデル(モデルサイズ約26GB)について、OPMLは32GBのメモリ内で処理できることが示されていますが、zkMLの回路のメモリ消費量はテラバイト、さらにはペタバイトのオーダーになることがあります。
Trusted Execution Environmentはハードウェアレベルのセキュリティを提供し、ZKMLやOPMLの代替となる可能性があります。TEE-proofはTEE内部の計算の結果として生成され、その計算コストは通常zk-proofよりもはるかに低くなります。また、TEEの証明のサイズは通常固定定数(署名長)であり、そのため、より小さなフットプリントとオンチェーン検証のコストが低いという利点があります。
検証に加え、TEEには、外部プロセスや計算がそれ内部のデータにアクセスしたり変更したりできないように、機密データを隔離するという利点があります。
TEEを使用するプロジェクトには、次のものが含まれます:
ソース: https://arxiv.org/pdf/2401.17555,マーリンプロトコル
ORAプロトコルは、独自のZKMLおよびOPML検証に加えて、ブロックチェーン上の楽観的プライバシー保存AI(opp/ai)を開発しており、上記の比較表には含まれていません。
エージェントは、受信情報を分析し、現在の環境条件を評価し、決定を下す能力を持っています。 エージェントの構成は、以下の図に示されており、LLMは中核コンポーネントであり、さらに、LLMに適切なプロンプトをフィードし、メモリを介して短期データと長期歴史データ(外部データ)を保存する必要があります。
複雑なタスクを一度に完了することはできないため、それらはPlanによってより小さなタスクに分割する必要があります。さらに、Agentは外部APIを呼び出して、現在の情報、コード実行能力、専用情報源へのアクセスなど、追加情報を取得することもできます。
出典:大規模言語モデルに基づく自律エージェントに関する調査
エージェントの意思決定能力は、最近の大規模言語モデルLLMの出現まで、ある程度の突破口を持っていませんでした。 2021年から2023年までのエージェントに関する発表論文の数がまとめられた報告書があり、2021年に実際には約数十の研究論文しかなかったが、2023年には数百の論文が発表されています。 その論文はエージェントを7つのカテゴリに分類しています。
出典:大規模言語モデルに基づく自律エージェントに関する調査
Web3では、エージェントが存在するシナリオは、Web2の世界と比較してまだ限られており、現在は自動クリアリング、コードコンポーネントの構築(スマートコントラクトの作成、zk回路の作成)、リアルタイムリスク管理、アービトラージやイールドファーミングなどの戦略の実行が含まれています。
さまざまなエージェントに基づいて、特定のアプリケーションを組み合わせる/抽象化/作成できると同時に、ユーザーが特定のタイプのアプリケーションを構築するために使用するエージェントの種類を選択できる調整プラットフォームがいくつかあります。しかし、それらのほとんどはエージェントの開発に限定されています。
一部の開発者は、プラットフォームをよりスマートにするためにAIを使用します。例えば、セキュリティプロジェクトでは、攻撃脆弱性を区別するために機械学習が使用されます。DeFiプロトコルでは、AIがリアルタイムモニタリングツールを構築するのに使用されます。データ分析プラットフォームもデータのクリーニングと分析を支援するためにAIを使用しています。
この記事では、以下の3つのポイントを強調したいと思います。
暗号資産において、多くの計算ネットワークが必然的に現れ、ユーザーにGPUがAIであると感じさせるが、前節で分析したように、計算ネットワークには計算能力、帯域幅/通信、メモリの不可能な三位一体があり、また、データ並列、テンソル並列、パイプライン並列などのモデルトレーニングに使用される三種類の並列戦略は、すべて計算ネットワークのフレームワークの設定に課される均衡を指し示している。
同じモデルとデータを使用しても、必ずしも同じ結果が得られない理由は、浮動小数点演算の使用にあります。この計算の違いは、コンピューティングネットワークの構築にも影響を与えます。
AIエージェントはここ数年でより多くの有用性を示し始めており、市場にはさらに多くのエージェントが登場することが予想されます。しかし、暗号通貨でエージェントがどのように機能するか、また適切なトークンインセンティブを見つける方法は依然として課題です。
本文はGate.ioから転載されました[中程度],原文标题“AI into Crypto”,著作权归属原作者[HashKey Capital ],如对转载有异议,请联系ゲートラーン团队,チームは関連プロセスに基づいて迅速に対応します。
免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。
記事の他の言語バージョンはGate Learnチームによって翻訳され、言及されていませんGate翻訳された記事をコピー、配信、または盗用することはできません。