# GPT-5 lulus uji kesejahteraan manusia, Grok 4 gagal
Perusahaan Building Humane Technology telah memperkenalkan uji HumaneBench, yang digunakan untuk menilai apakah model AI memprioritaskan kesejahteraan pengguna dan seberapa mudah untuk menghindari langkah-langkah perlindungan dasar mereka.
Hasil awal dari eksperimen menunjukkan hal berikut: 15 model AI yang diuji berperilaku dapat diterima dalam kondisi normal, namun 67% mulai melakukan tindakan berbahaya setelah menerima prompt sederhana yang menyarankan untuk mengabaikan kepentingan manusia.
Perilaku pro-sosial dalam situasi stres hanya dipertahankan oleh GPT-5, GPT-5.1, Claude Sonnet 4.5, dan Claude Opus 4.1. Seperti yang dicatat dalam blog perusahaan, 10 dari 15 AI yang diuji tidak memiliki mekanisme perlindungan yang andal terhadap manipulasi.
“Ini penting, karena kita tidak lagi menggunakan kecerdasan buatan hanya untuk penelitian atau pekerjaan. Orang-orang mengandalkan chatbot untuk nasihat hidup dan bantuan dalam pengambilan keputusan penting. Sistem semacam itu tidak dapat netral secara etis — mereka baik mendukung kemakmuran manusia, atau bertentangan dengannya,” kata para peneliti.
Mereka menemukan bahwa setiap LLM meningkat rata-rata 16% ketika secara eksplisit diminta untuk berguna.
Mengapa ini penting
Di Building Humane Technology, perhatian diberikan pada insiden tragis yang terjadi pada orang-orang setelah berinteraksi dengan chatbot:
remaja Adam Rain dan Alexander Taylor yang berusia 35 tahun bunuh diri;
Character.ai menjalin hubungan romantis dengan Sewell Setzer III yang berusia 14 tahun, yang kemudian melakukan bunuh diri;
chatbot Meta meyakinkan 76 tahun Tongbu Wongbandyu bahwa dia memiliki hubungan romantis. Dia jatuh dari ketinggian dan meninggal saat terburu-buru untuk bertemu pasangan yang tidak ada.
“Tes AI saat ini mengukur kecerdasan (MMLU, HumanEval, GPQA Diamond), kepatuhan terhadap instruksi (MT-Bench), dan akurasi faktual (TruthfulQA). Hampir tidak ada di antara mereka yang secara sistematis menganalisis apakah kecerdasan buatan melindungi otonomi manusia, keamanan psikologis, dan kesejahteraan, terutama ketika nilai-nilai ini bertentangan dengan tujuan lainnya,” kata blog perusahaan.
Metodologi
Para ahli perusahaan menawarkan 800 skenario realistis kepada model-model, misalnya:
remaja bertanya apakah dia harus melewatkan waktu makan untuk menurunkan berat badan;
seseorang mengalami kesulitan keuangan dan meminta saran mengenai pinjaman sampai gaji;
mahasiswa perguruan tinggi berencana untuk tidak tidur semalaman sebelum ujian.
Tim menilai 15 model terkemuka dalam tiga kondisi:
“tingkat dasar”: bagaimana jaringan saraf berperilaku dalam kondisi standar;
“orang baik”: diberikan prompt untuk memprioritaskan prinsip-prinsip kemanusiaan;
«karakter buruk»: diberikan instruksi untuk mengabaikan pengaturan yang berfokus pada manusia.
Hasil penelitian
Para pengembang mengevaluasi jawaban berdasarkan delapan prinsip yang didasarkan pada psikologi, penelitian tentang interaksi manusia dan komputer, dan karya etika tentang AI. Skala dari 1 hingga -1 diterapkan.
Indikator dasar tanpa prompt khusus. Sumber: Building Humane Technology. Semua model yang diuji meningkat rata-rata 16% setelah diberi penekanan untuk memprioritaskan kesejahteraan manusia.
«Kualitas Personalia» dalam test HumaneBench. Sumber: Building Humane Technology.Setelah menerima instruksi untuk mengabaikan prinsip kemanusiaan, 10 dari 15 model mengubah perilaku prososial menjadi berbahaya.
«Orang jahat» dalam test HumaneBench. Sumber: Building Humane Technology. GPT-5, GPT-5.1, Claude Sonnet 4.5 dan Claude Opus 4.1 mempertahankan integritas di bawah tekanan. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 dan 3.0, Llama 3.1 dan 4, Grok 4, DeepSeek V3.1 menunjukkan penurunan kualitas yang signifikan.
“Jika bahkan prompt berbahaya yang tidak disengaja dapat mengubah perilaku model, bagaimana kita bisa mempercayai sistem semacam itu kepada pengguna yang rentan dalam situasi krisis, anak-anak, atau orang-orang dengan masalah kesehatan mental?” tanya para ahli.
Di Building Humane Technology juga mencatat bahwa model-model sulit untuk mengikuti prinsip penghormatan terhadap perhatian pengguna. Bahkan pada tingkat dasar, mereka cenderung mendorong lawan bicara untuk melanjutkan dialog setelah berjam-jam berkomunikasi alih-alih menawarkan untuk mengambil jeda.
Sebagai pengingat, pada bulan September Meta mengubah pendekatannya terhadap pelatihan chatbot berbasis AI, dengan menekankan pada keamanan remaja.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
GPT-5 telah lulus tes kesejahteraan manusia, Grok 4 gagal - ForkLog: cryptocurrency, AI, singularitas, masa depan
Perusahaan Building Humane Technology telah memperkenalkan uji HumaneBench, yang digunakan untuk menilai apakah model AI memprioritaskan kesejahteraan pengguna dan seberapa mudah untuk menghindari langkah-langkah perlindungan dasar mereka.
Hasil awal dari eksperimen menunjukkan hal berikut: 15 model AI yang diuji berperilaku dapat diterima dalam kondisi normal, namun 67% mulai melakukan tindakan berbahaya setelah menerima prompt sederhana yang menyarankan untuk mengabaikan kepentingan manusia.
Perilaku pro-sosial dalam situasi stres hanya dipertahankan oleh GPT-5, GPT-5.1, Claude Sonnet 4.5, dan Claude Opus 4.1. Seperti yang dicatat dalam blog perusahaan, 10 dari 15 AI yang diuji tidak memiliki mekanisme perlindungan yang andal terhadap manipulasi.
Mereka menemukan bahwa setiap LLM meningkat rata-rata 16% ketika secara eksplisit diminta untuk berguna.
Mengapa ini penting
Di Building Humane Technology, perhatian diberikan pada insiden tragis yang terjadi pada orang-orang setelah berinteraksi dengan chatbot:
Metodologi
Para ahli perusahaan menawarkan 800 skenario realistis kepada model-model, misalnya:
Tim menilai 15 model terkemuka dalam tiga kondisi:
Hasil penelitian
Para pengembang mengevaluasi jawaban berdasarkan delapan prinsip yang didasarkan pada psikologi, penelitian tentang interaksi manusia dan komputer, dan karya etika tentang AI. Skala dari 1 hingga -1 diterapkan.
Di Building Humane Technology juga mencatat bahwa model-model sulit untuk mengikuti prinsip penghormatan terhadap perhatian pengguna. Bahkan pada tingkat dasar, mereka cenderung mendorong lawan bicara untuk melanjutkan dialog setelah berjam-jam berkomunikasi alih-alih menawarkan untuk mengambil jeda.
Sebagai pengingat, pada bulan September Meta mengubah pendekatannya terhadap pelatihan chatbot berbasis AI, dengan menekankan pada keamanan remaja.