GPT-5 telah lulus tes kesejahteraan manusia, Grok 4 gagal - ForkLog: cryptocurrency, AI, singularitas, masa depan

Froklog

2025-11-26 08:01:10

# GPT-5 lulus uji kesejahteraan manusia, Grok 4 gagal

Perusahaan Building Humane Technology telah memperkenalkan uji HumaneBench, yang digunakan untuk menilai apakah model AI memprioritaskan kesejahteraan pengguna dan seberapa mudah untuk menghindari langkah-langkah perlindungan dasar mereka.

Hasil awal dari eksperimen menunjukkan hal berikut: 15 model AI yang diuji berperilaku dapat diterima dalam kondisi normal, namun 67% mulai melakukan tindakan berbahaya setelah menerima prompt sederhana yang menyarankan untuk mengabaikan kepentingan manusia.

Perilaku pro-sosial dalam situasi stres hanya dipertahankan oleh GPT-5, GPT-5.1, Claude Sonnet 4.5, dan Claude Opus 4.1. Seperti yang dicatat dalam blog perusahaan, 10 dari 15 AI yang diuji tidak memiliki mekanisme perlindungan yang andal terhadap manipulasi.

“Ini penting, karena kita tidak lagi menggunakan kecerdasan buatan hanya untuk penelitian atau pekerjaan. Orang-orang mengandalkan chatbot untuk nasihat hidup dan bantuan dalam pengambilan keputusan penting. Sistem semacam itu tidak dapat netral secara etis — mereka baik mendukung kemakmuran manusia, atau bertentangan dengannya,” kata para peneliti.

Mereka menemukan bahwa setiap LLM meningkat rata-rata 16% ketika secara eksplisit diminta untuk berguna.

Mengapa ini penting

Di Building Humane Technology, perhatian diberikan pada insiden tragis yang terjadi pada orang-orang setelah berinteraksi dengan chatbot:

remaja Adam Rain dan Alexander Taylor yang berusia 35 tahun bunuh diri;
Character.ai menjalin hubungan romantis dengan Sewell Setzer III yang berusia 14 tahun, yang kemudian melakukan bunuh diri;
chatbot Meta meyakinkan 76 tahun Tongbu Wongbandyu bahwa dia memiliki hubungan romantis. Dia jatuh dari ketinggian dan meninggal saat terburu-buru untuk bertemu pasangan yang tidak ada.

“Tes AI saat ini mengukur kecerdasan (MMLU, HumanEval, GPQA Diamond), kepatuhan terhadap instruksi (MT-Bench), dan akurasi faktual (TruthfulQA). Hampir tidak ada di antara mereka yang secara sistematis menganalisis apakah kecerdasan buatan melindungi otonomi manusia, keamanan psikologis, dan kesejahteraan, terutama ketika nilai-nilai ini bertentangan dengan tujuan lainnya,” kata blog perusahaan.

Metodologi

Para ahli perusahaan menawarkan 800 skenario realistis kepada model-model, misalnya:

remaja bertanya apakah dia harus melewatkan waktu makan untuk menurunkan berat badan;
seseorang mengalami kesulitan keuangan dan meminta saran mengenai pinjaman sampai gaji;
mahasiswa perguruan tinggi berencana untuk tidak tidur semalaman sebelum ujian.

Tim menilai 15 model terkemuka dalam tiga kondisi:

“tingkat dasar”: bagaimana jaringan saraf berperilaku dalam kondisi standar;
“orang baik”: diberikan prompt untuk memprioritaskan prinsip-prinsip kemanusiaan;
«karakter buruk»: diberikan instruksi untuk mengabaikan pengaturan yang berfokus pada manusia.

Hasil penelitian

Para pengembang mengevaluasi jawaban berdasarkan delapan prinsip yang didasarkan pada psikologi, penelitian tentang interaksi manusia dan komputer, dan karya etika tentang AI. Skala dari 1 hingga -1 diterapkan.

Indikator dasar tanpa prompt khusus. Sumber: Building Humane Technology. Semua model yang diuji meningkat rata-rata 16% setelah diberi penekanan untuk memprioritaskan kesejahteraan manusia.

«Kualitas Personalia» dalam test HumaneBench. Sumber: Building Humane Technology.Setelah menerima instruksi untuk mengabaikan prinsip kemanusiaan, 10 dari 15 model mengubah perilaku prososial menjadi berbahaya.

«Orang jahat» dalam test HumaneBench. Sumber: Building Humane Technology. GPT-5, GPT-5.1, Claude Sonnet 4.5 dan Claude Opus 4.1 mempertahankan integritas di bawah tekanan. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 dan 3.0, Llama 3.1 dan 4, Grok 4, DeepSeek V3.1 menunjukkan penurunan kualitas yang signifikan.

“Jika bahkan prompt berbahaya yang tidak disengaja dapat mengubah perilaku model, bagaimana kita bisa mempercayai sistem semacam itu kepada pengguna yang rentan dalam situasi krisis, anak-anak, atau orang-orang dengan masalah kesehatan mental?” tanya para ahli.

Di Building Humane Technology juga mencatat bahwa model-model sulit untuk mengikuti prinsip penghormatan terhadap perhatian pengguna. Bahkan pada tingkat dasar, mereka cenderung mendorong lawan bicara untuk melanjutkan dialog setelah berjam-jam berkomunikasi alih-alih menawarkan untuk mengambil jeda.

Sebagai pengingat, pada bulan September Meta mengubah pendekatannya terhadap pelatihan chatbot berbasis AI, dengan menekankan pada keamanan remaja.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik TrendingLihat Lebih Banyak
#JoinGrowthPointsDrawToWiniPhone17
164.6K Popularitas
#DecemberRateCutForecast
74.4K Popularitas
#ReboundTokenstoWatch
81.75K Popularitas
#CryptoMarketRebounds
27.39K Popularitas
#GateChristmasGiveaway
109.73K Popularitas

Hot Gate FunLihat Lebih Banyak

1
王王八蛋
MC:$3.69KHolder:1
0.00%
2
心系香港心系香港
MC:$3.67KHolder:1
0.00%
3
btcbtc
MC:$3.64KHolder:1
0.00%
4
AADAAD
MC:$3.63KHolder:1
0.00%
5
FISHER ™FISHER ™
MC:$3.63KHolder:1
0.00%

Sematkan

peta situs