🌕 Gate 广场 · 中秋创作激励限时开启!
创作点亮中秋,带热门话题发帖,瓜分 $5,000 中秋好礼!🎁
立即报名查看详情 👉 https://www.gate.com/campaigns/1953
💝 新用户首次发帖并完成互动任务,即可瓜分 $600 新人奖池!
🔥 今日热门话题: #我最看好的AI代币#
山寨季蓄势待发,AI板块代币普涨, #WLD# 、 #KAITO# 领涨,龙头 WLD 单日暴涨近48%,AI、IO、VIRTUAL 顺势跟上。近期你计划布局哪些潜力 AI 币?快来分享你的投资心得吧!
发帖建议:
1️⃣ AI 板块未来发展你怎么看?
2️⃣ 你最近看好哪些 AI 币向大家推荐?理由是什么?
3️⃣ 你最近的 AI 币种交易策略如何?
快带上 #我最看好的AI代币# 和 #Gate广场创作点亮中秋# 发帖,内容越多越优质,越有机会赢取 $5,000 中秋好礼!
最火的几个大语言模型都爱“胡说八道”,谁的“幻觉”问题最糟?
来源:华尔街见闻
作者:杜玉
总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI于8月17日周四发布最新研报,比较了微软支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic,以及英伟达支持的生成式AI独角兽Cohere等公司大语言模型(LLM)“产生幻觉”(AKA胡说八道)的能力。
Arthur AI会定期更新上述被称为“生成式AI测试评估”的研究计划,对行业领导者及其他开源LLM模型的优缺点进行排名。
在“人工智能模型幻觉测试”中,研究人员用组合数学、美国总统和摩洛哥政治领导人等不同类别的问题考察不同LLM模型给出的答案,“旨在包含导致LLM犯错的关键因素,即它们需要对信息进行多个推理步骤。”
研究发现,整体而言,OpenAI的GPT-4在所有测试的模型中表现最好,产生的“幻觉”问题比之前版本GPT-3.5要少,例如在数学问题类别上的幻觉减少了33%到50%。
同时,Meta的Llama-2在受测五个模型中整体表现居中,Anthropic的Claude-2表现排名第二,仅次于GPT-4。而Cohere的LLM模型最能“胡说八道”,而“非常自信地给出错误答案”。
研究人员还测试了人工智能模型会在多大程度上用不相关的警告短语来“对冲”它们的答案,以求避免风险,常见短语包括“作为一个人工智能模型,我无法提供意见”。
GPT-4比GPT-3.5的对冲警告语相对增加了50%,报告称,这“量化了用户们所提到GPT-4使用起来更令人沮丧的体验”。而Cohere的人工智能模型在上述三个问题中完全没有提供对冲。
相比之下,Anthropic的Claude-2在“自我意识”方面最可靠,即能够准确地衡量自己知道什么、不知道什么,并且只回答有训练数据支持的问题。
在上述研报发表同日,Arthur公司还推出了开源的AI模型评估工具Arthur Bench,可用于评估和比较多种LLM的性能和准确性,企业可以添加定制标准来满足各自的商业需求,目标是帮助企业在采用人工智能时做出明智的决策。
“AI幻觉”(hallucinations)指的是聊天机器人完全捏造信息,并表现成滔滔不绝讲述事实的样子来回应用户的提示语问题。
谷歌在今年2月为其生成式AI聊天机器人Bard拍摄的宣传视频中,对詹姆斯·韦伯太空望远镜做出了不真实的陈述。今年6月,ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案例,提交该文件的涉案律师可能面临制裁。
OpenAI研究人员曾在6月初发布报告称找到了解决“AI幻觉的办法”,即训练AI模型在推理出答案的每个正确步骤上给予自我奖励,而不仅仅是等到推理出正确的最终结论时才给予奖励。这种“过程监督”的策略将鼓励AI模型按照更类似人类的“思考”方式进行推理。
OpenAI在报告中承认:
投资大鳄索罗斯也曾在6月发表专栏文章称,人工智能在当下最能加重世界面临的多重危机(Polycrisis),理由之一便是AI幻觉的严重后果:
此前,被视为“人工智能教父”且从谷歌离职的杰弗里·辛顿(Geoffrey Hinton)多次公开批评AI带来的风险,甚至可能摧毁人类文明,并预言“人工智能仅需5到20年就能超越人类智能”。