AI Agent は大規模言語モデル LLM を引き継ぎ、AI 界で最もホットなトピックとなっています。
現在、AIベンチャーキャピタル界隈の状況は大まかに以下の通りです。
Big Factory Club: OpenAI の社内従業員は、AI エージェントが OpenAI の新しい方向性であると主張しています。マイクロソフトは副操縦士を推進し、AI にアシスタントの役割を担わせようとしていますが、これは典型的な AI エージェントのシナリオです。NVIDIA は Voyager を立ち上げ、この AI エージェントは次のようなことができます。自律的になる コードを書いてゲーム「Minecraft」を支配する; 国内のセンスタイムもジェネラリスト AI エージェントを立ち上げる; アリババはデジタル従業員を立ち上げる...
学術サークル: 今年 4 月、スタンフォード大学はウェストワールド タウンを作成し、25 人の AI エージェントが仮想タウンのサンドボックス環境で人間をシミュレートし、他の AI エージェントと恋に落ちたり、パーティーをしたり、協力したり、デートしたりできるようにしました。さらに、一部の学者は AI エージェントを使用して、オンラインで論文を自動的に読んだり、抗がん剤の研究をしたりするなど、複雑な科学実験を計画し始めています...これらの最先端の探求は驚くべきものです。
起業家精神サークル: AI Agent はトップサイエンティストのためだけのゲームではありません。Camel、AutoGPT、BabyAGI、AgentGPT などの多くのプロジェクトが登場しています。また、これらのオープンソース プロジェクトを使用して、いくつかの実用的なツールです。たとえば、aomni は、ユーザーがネットワーク情報を取得して電子メールで送信するのに役立つ AI エージェント アプリケーションです。
投資サークル: AI エージェントは「汎用人工知能 (AGI) 時代の始まり」であると考えられており、その流行は「鉄壁」です。シリコンバレーの起業家の中には、ジェネレーティブ エージェントについて投資家と話すとき、誰もが楽しみにしていると語る人もいます。もっと理解して、もっと近づき、その後の爆発に対してより早く反応できるようになることを願っています。
チャット、お絵描き、クリエイティブなどのシナリオはエラー許容率が高く、たとえAIが質問に間違って答えたとしても、ユーザーはそれを「かわいい」と感じます。アプリケーションのこの部分はすでに非常に複雑です。 AI証明写真』。ほとんどのシナリオでは、より深刻なタスクの処理、他の環境条件との連携、長期的かつ継続的なビジネスの処理を自動的に支援するために AI が必要です。あまりにも多くの間違いを犯さないようにしてください。そうしないと、多数の人が参加することになります。生産性を実際に向上させることはできません。
AI エージェントにはタスク計画機能があり、ステップの計画、リソースの割り当て、意思決定の最適化、および指示の完了方法を自動的に理解して決定できるため、大規模なモデル処理タスクの効率と精度が向上します。
Google Brainの研究チームによる論文では、大規模言語モデルにタスクのステップを分解する推論プロセス、つまり「内なる独白」を発話させ、それに対応するアクションを実行させることで、言語モデルの精度が急激に向上したとしている。複数のデータセットで SOTA の結果を達成し、大規模モデルの無意味さを改善しました。
2 つ目は、自動実行です。
AI エージェントは独自に考えて行動するように設計されているため、ユーザーは AI エージェントにタスクを与え、その作業を実行させるだけで済みます。 AutoGPT の典型的な例は、ピザの注文です。ユーザーは住所を入力したり、フレーバーを選択したりする必要はありません。AI エージェントがすべての注文ステップを処理し、自動的に実行します。人々は横から見て、修正することができます間違いがあった場合の時間。
AI エージェントはインターネットを使用するだけでなく、物理環境で作業し、ロボットを制御して速達配送、無人自動車、自動運転などを行うこともできます。
AI エージェントを使用すると、ユーザーと大規模モデル間の対話がより自然、シンプル、高速になり、手動による参加が減り、品質と効率が真に向上します。たとえば、ゲームの世界では、AI エージェントがプレイヤーとの対話を自動的に開始し、オープンなインタラクションを提供し、プレイヤーのフィードバックに基づいて無限のストーリー ラインをデザインすることで、真に何千人もの人々がゲームをよりアクセスしやすくすることができます。物理的な世界では、AI エージェント人間の指示に頼ることなく、自動的に命令を生成し、機械本体を操作、駆動し、人間に家事代行サービスを提供し、工場の作業を自動化することができます。
第三に、リソースを節約します。
人間と同様に、AI エージェントはツールを使用して、つまり API を呼び出して、より複雑なタスクを処理できます。これにより、大規模モデルの機能が大幅に拡張され、リソースの無駄や過剰な消費が削減されます。
たとえば、AutoGPT のコードを記述する場合、独自の情報ソース データ、コンピューティング リソースなどにアクセスする必要があります。このプロセス中に、AI エージェントは呼び出す適切な API を自動的に見つけることができるため、他の API トークンの無駄が回避されます。独自に学習して結果を最適化し、満足できない場合は API を再度呼び出すこともできます。
一般的に言えば、旅行計画などの不明確なユーザー指示を真に完了するには、モデルは問題を解決するために複数の API を呼び出す必要があります。強力な自動化を備えた AI エージェントは間違いなくリソースを節約し、それによってユーザーのコストを節約し、AI をアプリケーションに適用できるようになります。より魅力的で競争力があります。
それでは、どうすれば優れた AI エージェントを生成できるのでしょうか?と疑問に思うかもしれません。これは大規模モデルにとってどのような課題を引き起こしますか?
AI エージェントを実装するには、大規模なモデルが次のタスクを実行する必要があると考えており、これは将来の競争の焦点でもあると考えられます。
1.ベーシックモデル。
AI エージェントの機能と効果は、基礎となる基本モデルの機能によって決まります。 AIエージェントは基本モデルの機能を使用できない場合がありますが、AIエージェントは基本モデルが持たない機能を持たない場合があります。
言語タスクを例に挙げると、GPT-4 は強力な自然言語理解機能を提供しますが、現時点では実際に AI エージェントや製品に導入されている機能はほとんどなく、ゲーム内の一部の NPC にはまだ自律的な意思決定を行う機能がありません。
別の例として、GPT-4 はマルチモーダルですが、言語 API のみを開くため、GPT4 のマルチモーダル機能を使用して AI エージェントを構築したい開発者はまだ使用できず、画像や音声などの他のモダリティは使用できません。情報の状態に基づいて、AI エージェントの環境への理解と効果はまだ改善の必要があります。
優れた AI エージェントになるには、データを収集して使用することが基本的な前提条件です。開発者にとって、デジタル タスクに必要なデータ量はもはや問題ではありませんが、物理世界で AI エージェントを開発する場合、データ コストは非常に高くなります。ロボット制御データは通常、シミュレーターまたは現場での物理的なロボットの収集を通じて、自分でのみ収集できます。しかし、結局のところ、シミュレーターは現実の環境ではないので、訓練効果は良くないかもしれませんが、実際に路上や工場に入ってデータを収集するために数百台のロボットやドローンを購入するには、調達面で多額の投資が必要ですコスト、政策上の制限、実際の実装など。困難。
現時点では、Google と Baidu の自動運転の利点や、Microsoft、Google、Sogou、Baidu、その他の検索ビジネスのデータの利点などのデータの利点を持つ大手模型メーカーは、開発者が AI エージェントを検討する際の障壁をいくつか軽減できる可能性があります。 、また、これらのベンダーの大規模モデルに対する障壁も構築されます。
製品サポート。
AI エージェントに代表される大規模モデルのアプリケーションの機会はまだ非常に初期段階にあり、テクノロジーはまだ完全に成熟しておらず、商業的な探求は小さな一歩を踏み出したばかりであることを認めなければなりません。開発者やソフトウェア サービス プロバイダーなどにとって、AI エージェントをコードに実装する方法よりも重要かつ早期に検討すべきことは、AI エージェントがどこに行くべきかを想像することです。
どのように見えるべきでしょうか?あなたの名前は何ですか?性別はありますか?ユーザーと話すときはどのような性格ですか?どのような使用例がありますか?具体的にはどのような困難に遭遇するのでしょうか? AI エージェントの成功をどのように評価するか?
これらは、製品レベルおよび商用レベルで、より「無人地帯」です。開発者が想像力を解き放ち、さまざまな環境やタスクで AI エージェントを作成できるようにするために、大手模型メーカーは独自のビジネス エコシステムをオープンし、より豊富で豊富なサービスを提供する必要があります。より便利なソリューション: 開発者の試行錯誤のリスクを軽減し、ビジネス ユーザーとのドッキングの強度を高め、より多くのビジネス オプションと実装ケースを生み出す機能。
全体として、この分野はまだ非常に新しい分野であり、AI エージェントはまだ大規模モデル業界に明確な影響を与えていませんが、AI エージェントによって人間と AI システムの間の煩雑なやり取りの多くが排除されることは確かであり、それは実際に起こりつつあります。 。
より多くの AI エージェントがコミュニティやユーザーにプッシュされ、学習し、変化し、進化しています。おそらく数か月以内に、AI エージェントの成熟と爆発が見られ、大規模モデルの分野で再び再編が起こることは避けられないでしょう。
大きなモデルは傲慢で傲慢で、AI エージェントなしでは生死を予測することは困難です。
原作:チベタンフォックス
**出典: **Brain Polar Body
AI Agent は大規模言語モデル LLM を引き継ぎ、AI 界で最もホットなトピックとなっています。
現在、AIベンチャーキャピタル界隈の状況は大まかに以下の通りです。
Big Factory Club: OpenAI の社内従業員は、AI エージェントが OpenAI の新しい方向性であると主張しています。マイクロソフトは副操縦士を推進し、AI にアシスタントの役割を担わせようとしていますが、これは典型的な AI エージェントのシナリオです。NVIDIA は Voyager を立ち上げ、この AI エージェントは次のようなことができます。自律的になる コードを書いてゲーム「Minecraft」を支配する; 国内のセンスタイムもジェネラリスト AI エージェントを立ち上げる; アリババはデジタル従業員を立ち上げる...
学術サークル: 今年 4 月、スタンフォード大学はウェストワールド タウンを作成し、25 人の AI エージェントが仮想タウンのサンドボックス環境で人間をシミュレートし、他の AI エージェントと恋に落ちたり、パーティーをしたり、協力したり、デートしたりできるようにしました。さらに、一部の学者は AI エージェントを使用して、オンラインで論文を自動的に読んだり、抗がん剤の研究をしたりするなど、複雑な科学実験を計画し始めています...これらの最先端の探求は驚くべきものです。
起業家精神サークル: AI Agent はトップサイエンティストのためだけのゲームではありません。Camel、AutoGPT、BabyAGI、AgentGPT などの多くのプロジェクトが登場しています。また、これらのオープンソース プロジェクトを使用して、いくつかの実用的なツールです。たとえば、aomni は、ユーザーがネットワーク情報を取得して電子メールで送信するのに役立つ AI エージェント アプリケーションです。
これらの判断から、「AI Agentが大型モデルの後半を切り開いた」と言うにはまだ時期尚早ですが、「AI Agentが大型モデルの商用標準である」ことは明らかでしょう。
したがって、次は、より多くの大手メーカーやスタートアップが AI エージェントに対してさらに多くの取り組みを開始するはずです。
では、AIエージェントとは一体何なのでしょうか?なぜそれが大型モデルの実用化の必須条件と言われるのでしょうか?
大手モデルは傲慢で傲慢ですが、ユーザーは依然として料金を支払いません。
ここでは、まず AI エージェントを脇に置いて、大きなモデルがどのようなものかを見てみましょう。
大型モデルは、感情的な観点からは汎用人工知能を実現して社会を一変させることが可能であり、長期的な観点からはビジネスやビジネスの再構築が可能である、大型モデルはビジョンが高く、投資が高く、敷居が高いものであることは読者の多くも同意すると思います。テクノロジー企業の業績が急上昇しました。
しかし、これらはすべて、大型モデルが真に商品化され、研究開発コストを回収し、健全で持続可能な発展を達成できるという事実に基づいています。
過去数か月間で、大規模モデルの 2 つのビジネス モデルがより効果的になりました: 1 つは、政府やさまざまな業界の企業による大規模モデルの民営化されたローカル展開であり、もう 1 つは、クラウドや AI サーバーを介して大規模モデルを販売するために必要なコンピューティング能力です。 、など。
現在、国内メーカーは対応する事業報告書を発表し、業界の民営化展開の需要から数千万の収益を得ている。
しかし、ToBビジネスだけでは大規模なビジネスモデルを支えることはできません。
技術革命では、経済的価値を生み出すために、中核となる技術が流出し、何十億もの一般ユーザーに使用されなければなりません。家庭用 PC、インターネット、スマートフォンが大衆に普及した後、多くのテクノロジー企業の市場価値が急上昇しました。
では、実際のアプリケーションエクスペリエンスはどのようなものでしょうか?
チャット、お絵描き、クリエイティブなどのシナリオはエラー許容率が高く、たとえAIが質問に間違って答えたとしても、ユーザーはそれを「かわいい」と感じます。アプリケーションのこの部分はすでに非常に複雑です。 AI証明写真』。ほとんどのシナリオでは、より深刻なタスクの処理、他の環境条件との連携、長期的かつ継続的なビジネスの処理を自動的に支援するために AI が必要です。あまりにも多くの間違いを犯さないようにしてください。そうしないと、多数の人が参加することになります。生産性を実際に向上させることはできません。
明らかに、この種のシナリオは、現時点の大規模で複雑な汎用モデルではうまく解決できません。
私のようなライターを例に挙げると、大物モデルに原稿を書いてもらうと幻覚が起こる可能性があり、言及されている出来事・ニュース・論文を再確認しなければならず、自分で情報を探すよりも面倒で、は正確さが足りません。アイデアを思いついたときに、インスピレーションを与えるために即効性のある言葉を長時間使わなければならないので、使える言葉がないかもしれません。遅いし、疲れるので、書いたほうがいいかもしれません。それは私自身です。
タスクを 1 ステップで自動的に完了できないため、レビューに多数の人間が介入する必要があり、これは現在、大規模モデルを深刻なシナリオに適用する際の大きな困難であり、大規模モデルの実装と商用化の進行にも直接影響します。 。
どうやってするの?大規模なモデルが適切なパフォーマンスを発揮したい場合、緊急にヘルパーのグループが必要になります。それが AI エージェントです。
生産性を本当に解放します。なぜ AI エージェントはそれほど素晴らしいのでしょうか?
想像してみてください。大規模なモデルが人間の介入なしで 24 時間 365 日自動的に動作できる場合、さまざまなタスクを自動的に完了できます。人は時々コンピューターやオフィスに戻って、その動作状況を確認するだけで済みます。 . これは、大きなモデルを開く正しい方法です。
GPT-4 カンファレンスでは、OpenAI は、GPT4 にスケッチを認識させて Web ページを生成したり、自身のコード内のエラーを段階的に修正したりするなど、一部のタスクを自動化する機能を実証しました。
しかし、開発者や一般ユーザーはこの機能をどのように使用できるのでしょうか?多くの開発者は、「GPT4 を使用してコードを直接記述する場合でも、自分でデバッグする必要がある。画像を見て直接使用するコードを生成することはできない。場合によっては、GPT4 を使用しないほうがよい」と答えています。
大手模型メーカーも窮地に陥っており、APIを公開しましたが、より専門的で正確で洗練された機能を実現するには、誰かがさらに開発する必要があるため、AIエージェントにバトンを渡しました。
AI エージェントは環境内で自動化された AI エンティティであり、次の 4 つの主要な特性があります。
周囲の環境をセンサーで感知します。この環境は、サンドボックス ゲーム、シミュレーション トレーニング システム、自動運転シミュレーターなどの仮想的な場合もあれば、道路、部屋、組立ラインなどの物理的な場合もあります。
独立して意思決定ができる。
アクチュエーター/エフェクターが連携して動作します。
パフォーマンスの最大化と結果の最適化に基づいた学習と進歩。
実際、AI のエージェントも同じロジックを持っています。自動運転シナリオにおける AI エージェントを例にとると、情報を収集し、道路車両や歩行者などの環境要因を感知するにはセンサーが必要であり、システムは自動的に判断を下し、それに応じてアクセル、ブレーキ、その他の機器を駆動して対応します。
これは、AI エージェントの PEAS モデルとしても知られています。感覚をつかむために簡単な表を作成してみましょう。
まず、タスクを分解します。
大規模なモデルは特定のフィールドと組み合わせる必要があり、ユーザーが直面するニーズは比較的一般的であり、プロセスには複数のステップが含まれることがよくあります。ユーザーが「光が必要だ」と言うのと同じように、孤立した大きなモデルは、環境にどのようなランプがあるのか、またそれらを制御する方法を知りません。しかし実際には複雑な作業です。
AI エージェントにはタスク計画機能があり、ステップの計画、リソースの割り当て、意思決定の最適化、および指示の完了方法を自動的に理解して決定できるため、大規模なモデル処理タスクの効率と精度が向上します。
Google Brainの研究チームによる論文では、大規模言語モデルにタスクのステップを分解する推論プロセス、つまり「内なる独白」を発話させ、それに対応するアクションを実行させることで、言語モデルの精度が急激に向上したとしている。複数のデータセットで SOTA の結果を達成し、大規模モデルの無意味さを改善しました。
2 つ目は、自動実行です。
AI エージェントは独自に考えて行動するように設計されているため、ユーザーは AI エージェントにタスクを与え、その作業を実行させるだけで済みます。 AutoGPT の典型的な例は、ピザの注文です。ユーザーは住所を入力したり、フレーバーを選択したりする必要はありません。AI エージェントがすべての注文ステップを処理し、自動的に実行します。人々は横から見て、修正することができます間違いがあった場合の時間。
AI エージェントはインターネットを使用するだけでなく、物理環境で作業し、ロボットを制御して速達配送、無人自動車、自動運転などを行うこともできます。
AI エージェントを使用すると、ユーザーと大規模モデル間の対話がより自然、シンプル、高速になり、手動による参加が減り、品質と効率が真に向上します。たとえば、ゲームの世界では、AI エージェントがプレイヤーとの対話を自動的に開始し、オープンなインタラクションを提供し、プレイヤーのフィードバックに基づいて無限のストーリー ラインをデザインすることで、真に何千人もの人々がゲームをよりアクセスしやすくすることができます。物理的な世界では、AI エージェント人間の指示に頼ることなく、自動的に命令を生成し、機械本体を操作、駆動し、人間に家事代行サービスを提供し、工場の作業を自動化することができます。
第三に、リソースを節約します。
人間と同様に、AI エージェントはツールを使用して、つまり API を呼び出して、より複雑なタスクを処理できます。これにより、大規模モデルの機能が大幅に拡張され、リソースの無駄や過剰な消費が削減されます。
たとえば、AutoGPT のコードを記述する場合、独自の情報ソース データ、コンピューティング リソースなどにアクセスする必要があります。このプロセス中に、AI エージェントは呼び出す適切な API を自動的に見つけることができるため、他の API トークンの無駄が回避されます。独自に学習して結果を最適化し、満足できない場合は API を再度呼び出すこともできます。
一般的に言えば、旅行計画などの不明確なユーザー指示を真に完了するには、モデルは問題を解決するために複数の API を呼び出す必要があります。強力な自動化を備えた AI エージェントは間違いなくリソースを節約し、それによってユーザーのコストを節約し、AI をアプリケーションに適用できるようになります。より魅力的で競争力があります。
大規模なモデルを商用化するには、API モデルにはできるだけ多くの開発者グループの参加が必要です。また、インダストリ モデルには ISV インテグレーター、ソフトウェア サービス プロバイダーなどの参加が必要です。大手メーカーのベーシックモデルでは勝つのが難しいことは誰もが知っており、細分化された上位アプリケーションにチャンスを見出したいと考えています。 AI エージェントは、特定の問題を解決し、モデル効果を改善し、デジタル システムや物理エンティティを駆動できるため、スーパー アプリケーションの構築に非常に適しています。
AI エージェントが AI 生命の最小単位のようなものだとすると、大手模型メーカーは生命を育む工場であり、開発者やソフトウェア ベンダーなどはスキル トレーニング クラスのようなもので、業界で差別化された実践的なスキルを教えています。ユーザーと一緒に。
したがって、AI エージェントをより適切に構築できる大規模なモデルは、より大規模な開発エコシステムを引き付け、商用 B エンド ユーザーにより粘着性があり、AI プラットフォーム レベルで大きなチャンスを形成します。
要約すると、AI エージェントは、大規模モデルのモデル効果、サービス品質、導入コスト、エコロジー機能に直接影響を与え、将来のさまざまな大規模モデルの競争の鍵となります。
AIエージェントがうまく機能するためにはモデルが不可欠です。
それでは、どうすれば優れた AI エージェントを生成できるのでしょうか?と疑問に思うかもしれません。これは大規模モデルにとってどのような課題を引き起こしますか?
AI エージェントを実装するには、大規模なモデルが次のタスクを実行する必要があると考えており、これは将来の競争の焦点でもあると考えられます。
1.ベーシックモデル。
AI エージェントの機能と効果は、基礎となる基本モデルの機能によって決まります。 AIエージェントは基本モデルの機能を使用できない場合がありますが、AIエージェントは基本モデルが持たない機能を持たない場合があります。
言語タスクを例に挙げると、GPT-4 は強力な自然言語理解機能を提供しますが、現時点では実際に AI エージェントや製品に導入されている機能はほとんどなく、ゲーム内の一部の NPC にはまだ自律的な意思決定を行う機能がありません。
別の例として、GPT-4 はマルチモーダルですが、言語 API のみを開くため、GPT4 のマルチモーダル機能を使用して AI エージェントを構築したい開発者はまだ使用できず、画像や音声などの他のモダリティは使用できません。情報の状態に基づいて、AI エージェントの環境への理解と効果はまだ改善の必要があります。
したがって、オープンソースモデルであってもクローズドソースモデルであっても、APIエコノミーを通じて商用化したい場合には、基本モデルの性能がAIエージェントの品質に直結することになり、依然として改善の余地。
優れた AI エージェントになるには、データを収集して使用することが基本的な前提条件です。開発者にとって、デジタル タスクに必要なデータ量はもはや問題ではありませんが、物理世界で AI エージェントを開発する場合、データ コストは非常に高くなります。ロボット制御データは通常、シミュレーターまたは現場での物理的なロボットの収集を通じて、自分でのみ収集できます。しかし、結局のところ、シミュレーターは現実の環境ではないので、訓練効果は良くないかもしれませんが、実際に路上や工場に入ってデータを収集するために数百台のロボットやドローンを購入するには、調達面で多額の投資が必要ですコスト、政策上の制限、実際の実装など。困難。
現時点では、Google と Baidu の自動運転の利点や、Microsoft、Google、Sogou、Baidu、その他の検索ビジネスのデータの利点などのデータの利点を持つ大手模型メーカーは、開発者が AI エージェントを検討する際の障壁をいくつか軽減できる可能性があります。 、また、これらのベンダーの大規模モデルに対する障壁も構築されます。
AI エージェントに代表される大規模モデルのアプリケーションの機会はまだ非常に初期段階にあり、テクノロジーはまだ完全に成熟しておらず、商業的な探求は小さな一歩を踏み出したばかりであることを認めなければなりません。開発者やソフトウェア サービス プロバイダーなどにとって、AI エージェントをコードに実装する方法よりも重要かつ早期に検討すべきことは、AI エージェントがどこに行くべきかを想像することです。
どのように見えるべきでしょうか?あなたの名前は何ですか?性別はありますか?ユーザーと話すときはどのような性格ですか?どのような使用例がありますか?具体的にはどのような困難に遭遇するのでしょうか? AI エージェントの成功をどのように評価するか?
これらは、製品レベルおよび商用レベルで、より「無人地帯」です。開発者が想像力を解き放ち、さまざまな環境やタスクで AI エージェントを作成できるようにするために、大手模型メーカーは独自のビジネス エコシステムをオープンし、より豊富で豊富なサービスを提供する必要があります。より便利なソリューション: 開発者の試行錯誤のリスクを軽減し、ビジネス ユーザーとのドッキングの強度を高め、より多くのビジネス オプションと実装ケースを生み出す機能。
全体として、この分野はまだ非常に新しい分野であり、AI エージェントはまだ大規模モデル業界に明確な影響を与えていませんが、AI エージェントによって人間と AI システムの間の煩雑なやり取りの多くが排除されることは確かであり、それは実際に起こりつつあります。 。
より多くの AI エージェントがコミュニティやユーザーにプッシュされ、学習し、変化し、進化しています。おそらく数か月以内に、AI エージェントの成熟と爆発が見られ、大規模モデルの分野で再び再編が起こることは避けられないでしょう。