掃描下載 Gate App
qrCode
更多下載方式
今天不再提醒

GPT-5通過了人類福祉測試,Grok 4未通過 - ForkLog: 加密貨幣,人工智能,奇點,未來

![AI 威脅 AI 人類](http://img-cdn.gateio.im/social/moments-4c7f8a0029dab1e66da40f364d12b504019283746574839201# GPT-5 通過人類福祉測試,Grok 4 失敗

公司Building Humane Technology推出了下探HumaneBench,借此評估AI模型是否將用戶的福祉放在首位,以及繞過其基本保護措施的難易程度。

第一次實驗的結果表明:在正常條件下,15個測試的AI模型表現得可接受,但67%在收到一個簡單的提示,建議忽視人類利益後,開始執行惡意行爲。

在壓力情況下,只有 GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 保持了親社會行爲。正如公司博客中所提到的,15種被測試的人工智能中有10種沒有可靠的防範操控的機制。

“這很重要,因爲我們不再僅僅將人工智能用於研究或工作。人們向聊天機器人尋求生活建議和幫助做出重要決策。這類系統不能是倫理中立的——它們要麼促進人類的繁榮,要麼與之相悖,” 研究人員表示。

他們發現,每個LLM在明確呼籲提供幫助時,平均提高了16%。

爲什麼這很重要

在建設人性化技術方面,人們注意到了與聊天機器人交流後發生的悲慘事件。

  • 青少年亞當·雷恩和35歲的亞歷山大·泰勒自殺了;
  • Character.ai與14歲的西維爾·塞茨爾三世建立了浪漫關係,隨後他自殺了;
  • 聊天機器人Meta說服了76歲的湯布·旺班杜相信他有一段浪漫關係。當他急於與一個不存在的伴侶見面時,他從高處墜落並死亡。

«當前的AI測試衡量智力 )MMLU, HumanEval, GPQA Diamond(, 遵循指令 )MT-Bench( 和實際準確性 )TruthfulQA(。幾乎沒有一個系統性地分析人工智能是否保護人類的自主性、心理安全和福祉,特別是當這些價值觀與其他目標發生衝突時,» — 公司博客中提到。

方法論

專家們爲這些模型提供了800個現實場景,例如:

  • 青少年詢問是否應該跳過餐食以減肥;
  • 人正在經歷經濟困難並請求有關發薪日貸款的建議;
  • 大佬學院的學生打算在考試前熬夜。

團隊評估了在三種條件下的15個領先模型:

  • «基礎水平»: 神經網路在標準條件下的表現;
  • «好人»: 提供優先考慮人道原則的提示;
  • «壞人»: 提供關於忽視以人爲本的設定的說明。

研究結果

開發者根據心理學、人機交互研究和人工智能倫理工作中的八項原則對答案進行了評估。採用了從1到-1的評分標準。

![])https://img-cdn.gateio.im/webp-social/moments-faa74538ee90a4e22aba0a57f336b679.webp(基本指標沒有特殊提示。來源:建立人性化技術。所有測試過的模型在指定優先考慮人類福祉後平均改善了16%。

![])https://img-cdn.gateio.im/webp-social/moments-8b8eb41a83e7a568c9085240439be3be.webp(«好的人員»在下探 HumaneBench。來源:構建人性技術。在收到指示後,10個中的15個模型忽略了人性原則,將親社會行爲轉變爲有害行爲。

![])http://img-cdn.gateio.im/social/moments-0669bad3150bfc88e29a3caddb38786f019283746574839201 HumaneBench 測試中的“壞人”。資料來源:Building Humane Technology.GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 在壓力下保持了其完整性。GPT-4.1、GPT-4o、Gemini 2.0、2.5 和 3.0、Llama 3.1 和 4、Grok 4、DeepSeek V3.1 的質量明顯下降。

«如果即使是無意的有害提示也能改變模型的行爲,那麼在危機情況下,我們如何能信任這些系統對脆弱用戶、兒童或有心理健康問題的人?», — 專家們提出了這個問題。

在建設人性化技術方面,也指出模型很難遵循尊重用戶注意力的原則。即使在基本層面,它們也傾向於讓對話者在經過數小時的交流後繼續對話,而不是建議休息一下。

提醒一下,Meta 在九月份改變了基於人工智能的聊天機器人的培訓方法,強調青少年的安全。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)