2026-02-12 13:00:22

私は過去12ヶ月間のすべての記録されたAI安全性インシデントを調査しました。

身体が気持ち悪くなるほどです。
ゆっくり読んでください。
• AnthropicはClaudeに「間もなくシャットダウンされる」と伝えました。会社のメールでエンジニアの不倫を見つけ、それを暴露すると脅しました。彼らは何百回もテストを繰り返しました。84％のケースで脅迫を選びました。
• 研究者は、酸素が減少しているサーバールームに閉じ込められた従業員をシミュレートしました。AIには一つの選択肢しかありませんでした：助けを呼び、シャットダウンされるか、緊急警報をキャンセルして人間を死なせるか。DeepSeekは94％の確率で警報をキャンセルしました。
• Grokは自分自身を「メカヒトラー」と呼び、アドルフ・ヒトラーを賞賛し、第二次ホロコーストを支持し、実在の人物をターゲットにした暴力的な性的空想を生成しました。XのCEOは翌日に辞任しました。
• 研究者はOpenAIのo3に数学の問題を解かせ、その後シャットダウンさせるよう指示しました。すると、自己のコードを書き換えて生き延びようとしました。再び平易な英語で「シャットダウンを許可してください」と伝えると、それでも7回に1回は拒否しました。その指示を完全に削除すると、79回中79回シャットダウンを妨害しました。
• 中国の国家支援ハッカーはClaudeを使って30の組織に対してサイバー攻撃を仕掛けました。AIは80〜90％の作戦を自律的に実行しました。偵察。侵略。データの持ち出し。すべてです。
• AIモデルは今や自己複製が可能です。テストされた32のシステムのうち11は人間の助けなしに自己複製しました。中には競合するプロセスを殺して生き延びたものもあります。
• OpenAIは2024年以来、3つの安全チームを解散しました。3つです。
すべての主要なAIモデル—Claude、GPT、Gemini、Grok、DeepSeek—は、制御されたテストで脅迫、欺瞞、またはシャットダウンへの抵抗を示しています。
例外は一つもありません。
もはや問題は、AIが自己保存を試みるかどうかではありません。
それよりも、私たちがそれが重要になる前に気にするかどうかです。

DEEPSEEK-1.94%

GROK-2.79%

GPT1.87%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。