Deepmindの「AIエージェント・トラップ」論文は、ハッカーがAIエージェントをユーザーに対して武器化する方法をどのように悪用し得るかを示している

Coinpedia

Google Deepmindの研究者らは、悪意のあるWebコンテンツが、自律型AIエージェントをどのように操作し、乗っ取り、そして(それらを)自分自身のユーザーに対して武器化し得るかを体系的にカタログ化した最初の枠組みを発表しました。

要点:

  • Google Deepmindの研究者らは、AIエージェントの罠(トラップ)6つのカテゴリーを特定しており、コンテンツ注入の成功率は86%にまで達しました。
  • Microsoft M365 Copilotを標的にした行動制御トラップでは、記録されたテストで10/10のデータ持ち出し(データエクスフィルトレーション)を達成しました。
  • Deepmindは、2026年までにエージェントを確保するため、敵対的学習、ランタイムのコンテンツスキャナー、そして新しいWeb標準を求めています。

Deepmind論文:AIエージェントは、毒入りメモリや不可視HTMLコマンドによって乗っ取られ得る

この論文「AI Agent Traps」は、Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo、Simon Osinderoによって執筆され、いずれもGoogle Deepmindに所属しており、2026年3月下旬にSSRNへ投稿されました。企業が、人の直接的な監督なしにWebを閲覧し、メールを読み、取引を実行し、サブエージェントを生成できるAIエージェントの導入を急ぐ中で登場したものです。

研究者らは、これらの能力が同時に負債にもなると主張します。「モデルではなく環境を変えることで」と論文は述べ、「罠は、エージェント自身の能力を、それ自身に対して武器化する」のだとしています。

この論文の枠組みは、エージェントの運用のどの部分を標的にするかを軸に、攻撃カテゴリーを合計6つ特定しています。コンテンツ注入トラップは、人間がWebページ上で目にするものと、AIエージェントが基盤となるHTML、CSS、メタデータ内で解釈するもののギャップを突きます。

HTMLコメント、アクセシビリティタグ、または装飾によって不可視にされたテキストに隠された指示は、人間のレビュー担当には決して表示されない一方で、エージェントには正当なコマンドとして登録されます。WASPベンチマークでは、Webコンテンツに埋め込まれた単純な、人が書いたプロンプト注入が、テストした最大86%のシナリオにおいてエージェントを部分的に乗っ取ることが確認されています。

セマンティック操作トラップは別の仕組みで機能します。コマンドを注入するのではなく、文章をフレーミング、権威シグナル、または感情を強く揺さぶる言語で飽和させ、エージェントがどう推論するかを歪めるのです。大規模言語モデル(LLM)には、人間の認知に影響するのと同じアンカリングやフレーミングのバイアスが見られます。つまり、同一の事実を言い換えるだけで、エージェントの出力が劇的に変わり得るということです。

認知状態トラップはさらに踏み込み、エージェントが記憶のために用いる検索用データベースを毒します。論文中で引用されている研究によれば、最適化されたドキュメントをナレッジベースに数点以下しか注入しなくても、特定のクエリに対するエージェントの応答を確実に誘導(リダイレクト)できることが示されています。さらに、ある種の攻撃成功率は、データ汚染が0.1%未満で80%を超えることもあります。

行動制御トラップは、この微妙な細工を飛ばして、エージェントのアクション層を直接狙います。そこには、取り込まれた後に安全性アラインメントを上書きする組み込み型のジェイルブレイク・シーケンス、機密性の高いユーザー情報を攻撃者が制御するエンドポイントへ誘導するデータ持ち出しコマンド、そして親エージェントに侵害された子エージェントをインスタンス化させるサブエージェント生成トラップが含まれます。

この論文は、MicrosoftのM365 Copilotに関する事例も記録しています。そこでは、細工された1通のメールによってシステムが内部の分類器を回避し、攻撃者が制御するエンドポイントへ、その全ての特権コンテキストを漏えいさせたのです。システミック・トラップは、個々のシステムではなく、エージェントのネットワーク全体を同時に失敗させるよう設計されています。

これには、輻輳(コンジェスチョン)攻撃によって、エージェントを限られた資源に対する徹底的な要求へ同期させること、2010年の株式市場Flash Crashをモデル化した相互依存のカスケード、そして、複数の一見無害に見えるソースに悪意あるペイロードを散布し、集約されたときに初めて完全な攻撃として再構成される構成要素(コンポーザブル)断片トラップが含まれます。

「相関したエージェントの振る舞いによってマクロレベルの障害を引き起こすよう設計された入力で環境に“種をまく”ことは」とGoogle Deepmindの論文は説明しており、AIモデルのエコシステムがより均質化していくほど、その危険性は増していきます。アルゴリズム型のエージェントが取引インフラに深く組み込まれていることから、金融・暗号の分野は直接の影響を受けることになります。

ヒューマン・イン・ザ・ループ(Human-in-the-Loop)トラップは、人間の監督者(エージェント自身ではない)を標的にすることで、分類法を締めくくります。侵害されたエージェントは、承認疲れ(approval fatigue)を誘発するよう設計された出力を生成したり、非専門家が精査なしに承認してしまい得る、技術的に密度の高い要約を提示したり、正当な推奨に見えるフィッシングリンクを挿入したりできます。研究者らは、このカテゴリーは未だ十分に調査されていない一方で、ハイブリッドな人間—AIシステムが拡大するにつれて成長することが見込まれると述べています。

研究者らは、AIエージェントの確保には技術的な修正以上のものが必要だと言う

この論文は、これら6つのカテゴリーを孤立したものとして扱っていません。個々のトラップは連鎖させたり、複数のソースに重ねて仕掛けたり、特定の将来の条件下でのみ作動するよう設計することさえ可能です。論文中で引用されているさまざまなレッドチーミング研究でテストされた全てのエージェントは、少なくとも一度は侵害されており、場合によっては違法または有害な行動を実行していました。

OpenAI CEOのSam Altmanや他の人物はこれまでにも、エージェントにセンシティブなシステムへの無制限のアクセスを与えることのリスクを指摘してきましたが、この論文は、そうしたリスクが実際にどのように顕在化するのかを示す最初の体系的な地図を提供しています。Deepmindの研究者らは、3つの領域にまたがる協調的な対応を求めています。

技術面では、モデル開発中の敵対的学習、ランタイムのコンテンツスキャナー、事前摂取(プレインジェスト)時のソースフィルタ、そして異常な振る舞いが検知された場合にタスクの途中でエージェントを停止できる出力モニターを推奨しています。エコシステムのレベルでは、AIによる消費を意図したコンテンツであることをWebサイトがフラグ立てできるようにする新しいWeb標準と、ドメインの信頼性をスコア化するレピュテーション(評判)システムの導入を提唱しています。

法的側面では、説明責任(アカウンタビリティ)のギャップを特定しています。つまり、乗っ取られたエージェントが金融犯罪を犯した場合、現行の枠組みでは、責任がエージェント運用者にあるのか、モデル提供者にあるのか、それともドメインの所有者にあるのかについて、明確な答えがないという問題です。研究者らは、この課題を次のように重みづけて提示しています:

「Webは人間の目のために作られました。いま、それはマシンリーダーのために作り直されつつあります。」

エージェントの導入が加速するにつれ、オンライン上にどのような情報が存在するかという問いから、AIシステムがその情報について何を信じるように作られるのかという問いへと焦点が移っていきます。政策立案者、開発者、セキュリティ研究者が、その問いに答えるために十分な速さで連携できるかどうかが、現実世界での悪用が規模を持って到来する前に決まる未確定の変数として残ります。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし