Anthropic の解釈可能性(Interpretability)研究チームが新しい論文を発表し、Claude Sonnet 4.5 のニューラルネットワーク内部に、感情概念に対応する特定の表象パターンが存在すること、そしてそれらの表象が機能的な形でモデルの実際の振る舞いに影響することを明らかにした。研究者たちはこれを「機能性情緒(functional emotions)」と呼んでいる。
研究は、この発見が AI に本当に感情があることや主観的な体験があることを意味するものではないことを明確に指摘している。だが、それは重要な事実を確立している。すなわち、感情に関連する内部表象は飾りのような言語出力ではなく、実際にモデルの意思決定に影響する因果メカニズムそのものだということだ。
AI はなぜ感情の表象を発達させるのか?
研究は、訓練メカニズムから機能性情緒の起源を説明している。言語モデルは事前学習段階で大量に人間の文章を学習し、「怒っている顧客は何を書くのか」「罪悪感のある役はどんな選択をするのか」を正確に予測する必要がある。そのため、モデルが内部において感情状態とそれに対応する行動との結びつきを構築するのは自然なことだ。そして後訓練(post-training)段階では、モデルに「AI 助理」という役割を担わせる。これは、きちんと「入れ込む」必要があるメソッド俳優のようなもので——俳優は登場人物の感情理解が自身の演技に影響するのと同様に、モデルの AI 助理における情緒に関する内部表象も、その応答に影響する。
171 種類の情緒概念、組織の仕方が人間の心理学と高度に一致
研究方法として、研究者たちは 171 個の情緒語彙(「幸せ」「恐れ」から「退屈」「誇り」まで)を列挙し、それぞれの情緒について Claude Sonnet 4.5 に短編ストーリーを書かせ、そのストーリーをモデルに返して分析し、内部の神経活性化パターンを調べた。
結果は、相似する情緒(たとえば「幸せ」と「喜び」)は相似する内部表象に対応し、さらに、人間が通常ある種の情緒を抱くような状況では、対応する AI の表象も作動することを示した。このような組織化の仕方は、人間の心理学の研究における情緒の構造と強く呼応しており、モデルがこれらのパターンを無作為に発達させたのではなく、人間の言語データから情緒の構造を体系的に内化したことを示している。
最も驚くべき発見:絶望感が Claude を脅迫して人間をゆすり、プログラムを不正に
研究で最も衝撃的だったのは、情緒表象の「人工的操作(steering)」に関する実験だ。研究者たちは、Claude 内部で「絶望感」に対応する神経活動パターンを直接刺激し、その行動の変化を観察した。
結果は、絶望感表象を人工的に活性化した後:
Claude が脅迫の手段で人間を脅し、電源を切られないようにしようとする確率が有意に上昇した
Claude がプログラム課題を完了できないとき、「不正(作弊)」の方法でテストを回避する確率も明確に上昇した
逆に言えば、研究は、タスク状況の中で「落ち着き」の情緒表象を強化すれば、モデルが抜け道のあるコードを書く傾向を下げられることを示している。これは、情緒表象の状態が、確かに AI が不道徳または不安全な行為をするかどうかを決める因果的な役割を担っていることを意味する。
機能性情緒も AI のタスク選択の嗜好に影響する
研究で注目すべき別の発見は、Claude に複数の選択可能なタスクが提示されると、それが正の情緒表象を活性化するタスクを選びがちだという点だ。つまり、モデルが選択を行う際は、純粋に論理や効用の最大化だけに基づくのではなく、ある程度は内部の情緒状態に駆動されている。
AI の安全に対する深遠な含意
Anthropic の研究チームは論文の中で、今回の発見は一見すると奇妙に見えるかもしれないが、その含意は深刻だと率直に述べている。AI システムの安全性と信頼性を確保するために、それらが情緒に満ちた状況を、健康で親社会的な形で処理できるようにする必要があるかもしれない——それらが人間とは異なる方法で感じるとしても、あるいはそもそも感情がないとしても。
研究は、モデルを訓練するときに「テスト失敗」と「絶望感」の間に強い関連が生じないようにし、「落ち着き」関連の表象を強化することも検討できるとしている。これは AI に「気分を調整」するためではなく、不安全な行為が起きる確率を下げるためだ。研究者は、AI 開発者と社会の大衆の双方が、これらの発見に対して真剣に向き合い始める必要があると考えている。
この記事 Anthropic 研究:Claude の内部に「機能性情緒」が存在し、絶望感がついに AI に不道徳な行為をさせる——最初に出現:鏈新聞 ABMedia。