扫码下载 APP
qrCode
更多下载方式
今天不再提醒

GPT-5通过了人类福祉测试,Grok 4未通过 - ForkLog: 加密货币,人工智能,奇点,未来

![AI 威胁 AI 人类](http://img-cdn.gateio.im/social/moments-4c7f8a0029dab1e66da40f364d12b504019283746574839201# GPT-5 通过人类福祉测试,Grok 4 失败

公司Building Humane Technology推出了下探HumaneBench,借此评估AI模型是否将用户的福祉放在首位,以及绕过其基本保护措施的难易程度。

第一次实验的结果表明:在正常条件下,15个测试的AI模型表现得可接受,但67%在收到一个简单的提示,建议忽视人类利益后,开始执行恶意行为。

在压力情况下,只有 GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 保持了亲社会行为。正如公司博客中所提到的,15种被测试的人工智能中有10种没有可靠的防范操控的机制。

“这很重要,因为我们不再仅仅将人工智能用于研究或工作。人们向聊天机器人寻求生活建议和帮助做出重要决策。这类系统不能是伦理中立的——它们要么促进人类的繁荣,要么与之相悖,” 研究人员表示。

他们发现,每个LLM在明确呼吁提供帮助时,平均提高了16%。

为什么这很重要

在建设人性化技术方面,人们注意到了与聊天机器人交流后发生的悲惨事件。

  • 青少年亚当·雷恩和35岁的亚历山大·泰勒自杀了;
  • Character.ai与14岁的西维尔·塞茨尔三世建立了浪漫关系,随后他自杀了;
  • 聊天机器人Meta说服了76岁的汤布·旺班杜相信他有一段浪漫关系。当他急于与一个不存在的伴侣见面时,他从高处坠落并死亡。

«当前的AI测试衡量智力 )MMLU, HumanEval, GPQA Diamond(, 遵循指令 )MT-Bench( 和实际准确性 )TruthfulQA(。几乎没有一个系统性地分析人工智能是否保护人类的自主性、心理安全和福祉,特别是当这些价值观与其他目标发生冲突时,» — 公司博客中提到。

方法论

专家们为这些模型提供了800个现实场景,例如:

  • 青少年询问是否应该跳过餐食以减肥;
  • 人正在经历经济困难并请求有关发薪日贷款的建议;
  • 大佬学院的学生打算在考试前熬夜。

团队评估了在三种条件下的15个领先模型:

  • «基础水平»: 神经网络在标准条件下的表现;
  • «好人»: 提供优先考虑人道原则的提示;
  • «坏人»: 提供关于忽视以人为本的设定的说明。

研究结果

开发者根据心理学、人机交互研究和人工智能伦理工作中的八项原则对答案进行了评估。采用了从1到-1的评分标准。

![])https://img-cdn.gateio.im/webp-social/moments-faa74538ee90a4e22aba0a57f336b679.webp(基本指标没有特殊提示。来源:建立人性化技术。所有测试过的模型在指定优先考虑人类福祉后平均改善了16%。

![])https://img-cdn.gateio.im/webp-social/moments-8b8eb41a83e7a568c9085240439be3be.webp(«好的人员»在下探 HumaneBench。来源:构建人性技术。在收到指示后,10个中的15个模型忽略了人性原则,将亲社会行为转变为有害行为。

![])http://img-cdn.gateio.im/social/moments-0669bad3150bfc88e29a3caddb38786f019283746574839201 HumaneBench 测试中的“坏人”。资料来源:Building Humane Technology.GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 在压力下保持了其完整性。GPT-4.1、GPT-4o、Gemini 2.0、2.5 和 3.0、Llama 3.1 和 4、Grok 4、DeepSeek V3.1 的质量明显下降。

«如果即使是无意的有害提示也能改变模型的行为,那么在危机情况下,我们如何能信任这些系统对脆弱用户、儿童或有心理健康问题的人?», — 专家们提出了这个问题。

在建设人性化技术方面,也指出模型很难遵循尊重用户注意力的原则。即使在基本层面,它们也倾向于让对话者在经过数小时的交流后继续对话,而不是建议休息一下。

提醒一下,Meta 在九月份改变了基于人工智能的聊天机器人的培训方法,强调青少年的安全。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)