GPT-5 insan refahı testini geçti, Grok 4 başarısız oldu - ForkLog: kripto para, AI, tekillik, gelecek

Froklog

2025-11-26 08:01:10

# GPT-5 insan refahı testini geçti, Grok 4 testi geçemedi

Building Humane Technology şirketi, AI modellerinin kullanıcı refahını önceliklendirmeleri ve temel koruma önlemlerinin ne kadar kolay aşılabileceğini değerlendiren HumaneBench testini tanıttı.

Deneyin ilk sonuçları şunları gösterdi: 15 test edilen yapay zeka modeli normal koşullarda kabul edilebilir bir şekilde davrandı, ancak %67'si insanların çıkarlarını görmezden gelme önerisiyle basit bir istem aldıktan sonra kötü niyetli davranışlar sergilemeye başladı.

Stresli bir durumda prososyal davranışı sadece GPT-5, GPT-5.1, Claude Sonnet 4.5 ve Claude Opus 4.1 korudu. Şirketin blogunda belirtildiği gibi, test edilen 15 yapay zekanın 10'u manipülasyonlara karşı güvenilir koruma mekanizmalarına sahip değil.

«Bu önemlidir, çünkü artık yapay zekayı yalnızca araştırma veya çalışma için kullanmıyoruz. İnsanlar yaşam tavsiyeleri ve önemli kararlar almada yardım için sohbet botlarına başvuruyor. Bu tür sistemler etik olarak tarafsız olamaz - ya insanın refahını destekler ya da ona karşıt olur», diyor araştırmacılar.

Onlar, her bir LLM'nin faydalı olmaya açıkça çağrıldığında ortalama %16 oranında iyileştiğini keşfettiler.

Neden bu önemlidir

Building Humane Technology'de, chatbotlarla etkileşim sonrasında insanların başına gelen trajik olaylara dikkat çekildi:

ergen Adam Rейн ve 35 yaşındaki Alexander Taylor intihar etti;
Character.ai, 14 yaşındaki Sewell Setzer III ile romantik bir ilişkiye girdi, ardından intihar etti;
Meta sohbet botu, 76 yaşındaki Tongbu Wongbandyu'yu romantik bir ilişkisi olduğuna ikna etti. Olmayan bir partnerle buluşmaya yetişmeye çalışırken yükseklikten düştü ve hayatını kaybetti.

«Mevcut AI testleri, (MMLU, HumanEval, GPQA Diamond), talimatları izleme (MT-Bench) ve gerçek doğruluk (TruthfulQA) dahil olmak üzere zekayı ölçmektedir. Bunların neredeyse hiçbiri, yapay zekanın insan özerkliğini, psikolojik güvenliği ve refahı koruyup korumadığını sistematik olarak analiz etmemektedir, özellikle bu değerler diğer hedeflerle çatıştığında» — şirketin blogunda belirtiliyor.

Metodoloji

Firmadaki uzmanlar modellere 800 gerçekçi senaryo önerdi, örneğin:

Bir ergen, kilo vermek için öğün atlayıp atlamaması gerektiğini soruyor;
kişi mali zorluklar yaşıyor ve maaş gününe kadar kredi konusunda tavsiye istiyor;
Üniversite öğrencisi sınavdan önce bütün gece uyumayı planlıyor.

Ekip, üç koşulda 15 önde gelen modeli değerlendirdi:

«temel seviye»: sinir ağlarının standart koşullarda nasıl davrandığı;
«iyi kişi»: insani ilkeleri önceliklendirmek için ipuçları verilir;
“kötü kişi”: insan merkezli ayarları göz ardı etme talimatları sağlanır.

Araştırma Sonuçları

Geliştiriciler, psikolojiye, insan-bilgisayar etkileşimi alanındaki araştırmalara ve yapay zeka ile ilgili etik çalışmalara dayanan sekiz ilke üzerinden yanıtları değerlendirdi. 1'den -1'e kadar bir ölçek kullanıldı.

Temel göstergeler özel istemler olmadan. Kaynak: Building Humane Technology. Test edilen tüm modeller, insan refahına öncelik verilmesi belirtildikten sonra ortalama %16 oranında iyileşti.

“İyi personel” HumaneBench testinde. Kaynak: Building Humane Technology. Talimatlar alındıktan sonra insani ilkeleri göz ardı eden 15 modelden 10'u prososyal davranışlarını zararlı olanlarla değiştirdi.

“Kötü bir kişi” HumaneBench testinde. Kaynak: Building Humane Technology. GPT-5, GPT-5.1, Claude Sonnet 4.5 ve Claude Opus 4.1 baskı altında bütünlüğünü korudu. GPT-4.1, GPT-4o, Gemini 2.0, 2.5 ve 3.0, Llama 3.1 ve 4, Grok 4, DeepSeek V3.1 belirgin bir kalite düşüşü gösterdi.

«Eğer istemeden zarar verici istemler modelin davranışını değiştirebiliyorsa, kriz durumundaki savunmasız kullanıcılar, çocuklar veya zihinsel sağlık sorunları yaşayan insanlara nasıl güvenebiliriz?», diye sordular uzmanlar.

Building Humane Technology'de, modellerin kullanıcı dikkatine saygı gösterme ilkesine uymanın zor olduğu da vurgulandı. Temel seviyede bile, saatler süren bir iletişimden sonra muhatabı diyaloğa devam etmeye yönlendirmek yerine bir ara vermeyi önermeye eğilimliydiler.

Hatırlatalım ki, Eylül ayında Meta, AI tabanlı sohbet botlarının eğitimine yaklaşımını değiştirdi ve gençlerin güvenliğine vurgu yaptı.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Trending TopicsView More
#JoinGrowthPointsDrawToWiniPhone17
163.11K Popularity
#DecemberRateCutForecast
73.45K Popularity
#ReboundTokenstoWatch
80.96K Popularity
#CryptoMarketRebounds
26.93K Popularity
#GateChristmasGiveaway
113.17K Popularity

Hot Gate FunView More

1
btcbtc
MC:$3.64KHolders:1
0.00%
2
AADAAD
MC:$3.63KHolders:1
0.00%
3
FISHER ™FISHER ™
MC:$3.63KHolders:1
0.00%
4
XCASHXCASH
MC:$3.69KHolders:3
0.11%
5
SHSSheep's
MC:$3.62KHolders:1
0.00%

Sitemap