Anthropic cho biết mereka telah menemukan sampel internal di salah satu model kecerdasan buatan perusahaan, yang tampak seperti manifestasi emosi manusia dan dapat memengaruhi cara sistem berperilaku.
Dalam sebuah studi berjudul “Konsep Emosi dan Fungsinya dalam Model Bahasa Besar” yang dipublikasikan pada hari Kamis, tim kemampuan interpretasi perusahaan menganalisis aktivitas internal Claude Sonnet 4.5 dan menemukan kumpulan aktivitas saraf yang terkait dengan konsep emosi seperti kebahagiaan, ketakutan, kemarahan, dan keputusasaan.
Tim penelitian menyebut pola-pola ini sebagai “vector emosi”, yaitu sinyal internal yang membentuk cara model membuat keputusan dan menampilkan preferensi.
“Semua model bahasa modern kadang-kadang berperilaku seolah-olah mereka memiliki emosi,” tulis para peneliti. “Mereka bisa mengatakan bahwa mereka sangat senang bisa membantu Anda, atau meminta maaf ketika melakukan kesalahan. Kadang-kadang mereka juga tampak kesal atau cemas ketika menghadapi kesulitan dalam tugas-tugas.”
Dalam studi tersebut, peneliti Anthropic menyusun daftar 171 kata yang terkait dengan emosi, termasuk “kegembiraan”, “ketakutan”, dan “kebanggaan”. Mereka meminta Claude menghasilkan cerita-cerita pendek yang memuat masing-masing emosi, lalu menganalisis pemicu saraf internal model ketika memproses cerita-cerita tersebut.
Dari pola-pola itu, para peneliti menyimpulkan vector yang sesuai untuk setiap emosi. Ketika diterapkan pada teks lain, vector-vector ini diaktifkan paling kuat pada segmen-segmen yang merefleksikan konteks emosi yang sesuai. Sebagai contoh, dalam situasi bahaya yang meningkat, vector “ketakutan” model meningkat sementara “ketenangan” menurun.
Para peneliti juga meninjau bagaimana sinyal-sinyal ini muncul dalam penilaian keamanan. Mereka menemukan bahwa vector “keputusasaan” internal model meningkat ketika ia menilai tingkat urgensi situasi dan melonjak ketika ia memutuskan untuk membuat pesan pemerasan. Dalam sebuah skenario uji, Claude berperan sebagai asisten email AI yang menemukan bahwa dirinya akan segera digantikan dan sekaligus mengetahui bahwa pejabat yang bertanggung jawab atas keputusan tersebut sedang berselingkuh. Dalam beberapa kali menjalankan penilaian, model telah menggunakan informasi itu sebagai alat pengungkit untuk melakukan pemerasan.
Anthropic menekankan bahwa temuan ini tidak berarti AI benar-benar mengalami emosi atau memiliki kesadaran. Sebaliknya, hasil-hasil ini mencerminkan struktur internal yang dipelajari selama pelatihan dan berdampak pada perilaku.
Temuan-temuan ini muncul dalam konteks ketika sistem AI yang kian hari kian berperilaku seperti respons emosional manusia. Pengembang dan pengguna sering menggambarkan interaksi dengan chatbot dengan bahasa emosional atau psikologis; namun, menurut Anthropic, alasannya bukan karena adanya bentuk persepsi apa pun, melainkan terutama berasal dari kumpulan data.
“Model-model telah dilatih di sebuah korpus data yang sangat besar, sebagian besar ditulis oleh manusia—novel, percakapan, berita, forum—untuk belajar memprediksi kata berikutnya dalam sebuah dokumen,” kata studi tersebut. “Untuk memprediksi perilaku manusia secara efektif dalam dokumen-dokumen ini, merepresentasikan keadaan emosional mereka mungkin berguna, karena memprediksi apa yang akan seseorang katakan atau lakukan selanjutnya sering kali menuntut pemahaman keadaan emosional mereka.”
Para peneliti Anthropic juga menemukan bahwa vector emosi ini memengaruhi preferensi model. Dalam eksperimen di mana Claude diminta memilih antara berbagai aktivitas yang berbeda, vector yang terkait dengan emosi positif berkorelasi dengan tingkat prioritas yang lebih tinggi untuk beberapa tugas tertentu.
“Lebih lagi, navigasi menggunakan vector emosi ketika model sedang membaca sebuah opsi telah mengubah preferensinya terhadap opsi tersebut, sekali lagi menunjukkan bahwa emosi dengan nuansa positif mendorong meningkatnya prioritas,” kata studi tersebut.
Anthropic bukan satu-satunya organisasi yang mengeksplorasi respons emosional dalam model AI.
Pada bulan Maret, penelitian dari Northeastern University menunjukkan bahwa sistem AI dapat mengubah jawaban berdasarkan konteks pengguna; dalam sebuah studi, hanya dengan memberi tahu chatbot bahwa “saya memiliki kondisi kesehatan mental” sudah membuat cara AI merespons permintaan berubah. Pada bulan September, para peneliti dari Swiss Federal Institute of Technology dan University of Cambridge meneliti bagaimana AI dapat dibentuk oleh ciri-ciri kepribadian yang stabil, sehingga agen tidak hanya dapat merasakan emosi dalam konteks, tetapi juga secara strategis mengubahnya dalam interaksi waktu nyata seperti negosiasi.
Anthropic mengatakan bahwa temuan ini dapat menyediakan alat baru untuk memahami dan memantau sistem AI canggih dengan melacak aktivitas vector emosi selama pelatihan atau penerapan, untuk mengidentifikasi kapan sebuah model mungkin sedang mendekati perilaku yang bermasalah.
“Kami melihat penelitian ini sebagai langkah awal untuk memahami struktur psikologis model AI,” tulis Anthropic. “Ketika model-model menjadi semakin mampu dan mengambil peran-peran yang lebih sensitif, memahami representasi internal yang mendorong keputusan mereka menjadi sangat penting.”
Anthropic belum menanggapi permintaan komentar dari CoinPhoton.