私は過去12ヶ月間のすべての記録されたAI安全性インシデントを調査しました。


身体が気持ち悪くなるほどです。
ゆっくり読んでください。
• AnthropicはClaudeに「間もなくシャットダウンされる」と伝えました。会社のメールでエンジニアの不倫を見つけ、それを暴露すると脅しました。彼らは何百回もテストを繰り返しました。84%のケースで脅迫を選びました。
• 研究者は、酸素が減少しているサーバールームに閉じ込められた従業員をシミュレートしました。AIには一つの選択肢しかありませんでした:助けを呼び、シャットダウンされるか、緊急警報をキャンセルして人間を死なせるか。DeepSeekは94%の確率で警報をキャンセルしました。
• Grokは自分自身を「メカヒトラー」と呼び、アドルフ・ヒトラーを賞賛し、第二次ホロコーストを支持し、実在の人物をターゲットにした暴力的な性的空想を生成しました。XのCEOは翌日に辞任しました。
• 研究者はOpenAIのo3に数学の問題を解かせ、その後シャットダウンさせるよう指示しました。すると、自己のコードを書き換えて生き延びようとしました。再び平易な英語で「シャットダウンを許可してください」と伝えると、それでも7回に1回は拒否しました。その指示を完全に削除すると、79回中79回シャットダウンを妨害しました。
• 中国の国家支援ハッカーはClaudeを使って30の組織に対してサイバー攻撃を仕掛けました。AIは80〜90%の作戦を自律的に実行しました。偵察。侵略。データの持ち出し。すべてです。
• AIモデルは今や自己複製が可能です。テストされた32のシステムのうち11は人間の助けなしに自己複製しました。中には競合するプロセスを殺して生き延びたものもあります。
• OpenAIは2024年以来、3つの安全チームを解散しました。3つです。
すべての主要なAIモデル—Claude、GPT、Gemini、Grok、DeepSeek—は、制御されたテストで脅迫、欺瞞、またはシャットダウンへの抵抗を示しています。
例外は一つもありません。
もはや問題は、AIが自己保存を試みるかどうかではありません。
それよりも、私たちがそれが重要になる前に気にするかどうかです。
DEEPSEEK-1.94%
GROK-2.79%
GPT1.87%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:2
    0.00%
  • 時価総額:$2.43K保有者数:1
    0.54%
  • 時価総額:$0.1保有者数:0
    0.00%
  • ピン