OpenAI罕見發論文:我們找到了AI幻覺的罪魁禍首

AI 最臭名昭著的 Bug 是什麼?不是代碼崩潰,而是「幻覺」—— 模型自信地編造事實,讓你真假難辨。這個根本性挑戰,是阻礙我們完全信任 AI 的關鍵障礙。

大模型會有幻覺,這幾乎已經成爲一個常識,讓每一個嚴肅使用大模型的人都不得不謹慎小心。OpenAI 也指出:「ChatGPT 也會產生幻覺。GPT-5 的幻覺明顯更少,尤其是在執行推理時,但幻覺仍然會發生。幻覺仍然是所有大型語言模型面臨的一大根本挑戰。」

盡管現在學術界已經提出了各種各樣用來降低模型幻覺的方法,但目前尚未出現能徹底「根治」模型幻覺的良方。

那麼,大模型究竟爲什麼會出現幻覺呢?今天,OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

首先,定義幻覺。OpenAI 給出的簡單定義是:「模型自信地生成不真實答案的情況。」

至於原因,簡單來說就是:標準的訓練和評估程序更傾向於對猜測進行獎勵,而不是在模型勇於承認不確定時給予獎勵。

  • 論文標題:Why Language Models Hallucinate
  • 論文地址:

下面我們就來具體看看 OpenAI 究竟發現了什麼。

什麼是幻覺?

幻覺是語言模型生成的看似合理但卻錯誤的陳述。

即使看似簡單的問題,它們也可能以出人意料的方式出現。OpenAI 舉了個例子,當向不同的廣泛使用的聊天機器人詢問 Adam Tauman Kalai(論文一作)的博士論文標題時,它們自信地給出了三個不同的答案,但沒有一個是正確的。

當詢問他的生日時,它給出了三個不同的日期,同樣都是錯誤的。

爲了測試而學習

OpenAI 表示,幻覺持續存在,部分原因是當前的評估方法設置了錯誤的激勵機制。雖然評估本身不會直接導致幻覺,但大多數評估模型性能的方式會鼓勵模型進行猜測,而不是誠實地面對不確定性。

可以把它想象成一個多項選擇題測試。如果你不知道答案,但隨意猜測,你可能會很幸運地猜對。留空則必定得零分。同樣,當模型僅根據準確度(即完全答對問題的百分比)進行評分時,它們會被鼓勵進行猜測,而不是承認「我不知道」。

再舉一個例子,假設一個語言模型被問及某人的生日,但它不知道。如果它猜測「9 月 10 日」,那麼它有 1/365 的概率猜對。說「我不知道」則必定得零分。在數千道測試題中,猜測型模型最終在記分牌上的表現要優於謹慎且承認不確定的模型。

對於只有一個「正確答案」的問題,可以考慮三類答案:準確答案、錯誤答案以及模型不願冒險猜測的棄權答案。

OpenAI 表示,棄權答案是謙遜(humility)指標的一部分,而謙遜是 OpenAI 的核心價值觀之一。

大多數分數指標會根據準確度對模型進行優先排序,但錯誤答案比棄權答案更糟糕。OpenAI 的模型規範指出,指出不確定性或要求澄清會更好,而不是自信地提供可能不正確的信息。

以 GPT5 系統卡中的 SimpleQA 評估爲例。

在準確度方面,更早期的 OpenAI o4-mini 模型表現略好。然而,其錯誤率(即幻覺率)明顯較高。在不確定的情況下進行策略性猜測可以提高準確度,但也會增加錯誤和幻覺。

在對數十次評估的結果進行平均時,大多數基準測試都會剔除準確度指標,但這會導致對錯之間的錯誤二分法。

在像 SimpleQA 這樣的簡單評估中,一些模型的準確度接近 100%,從而消除了幻覺。然而,在更具挑戰性的評估和實際使用中,準確度會固定在 100% 以下,因爲有些問題的答案由於各種原因(例如信息不可用、小型模型的思維能力有限或需要澄清的歧義)而無法確定。

盡管如此,僅以準確度爲衡量標準的評估指標仍然佔據着排行榜和模型卡的主導地位,這就會鼓勵開發者構建能夠猜測而不是退縮的模型。

正因爲此,即使模型變得更加先進,它們仍然會產生幻覺。原因之一便是它們傾向於自信地給出錯誤答案,而不是承認不確定。

更好的評估方法

對此,OpenAI 指出了一個簡單的解決辦法:對自信錯誤(confidential error)的懲罰力度大於對不確定性的懲罰力度,並對恰當表達不確定性的行爲給予部分加分。

這個想法並不新鮮。一些標準化測試長期以來一直使用對錯誤答案進行負面評分或對留空問題給予部分加分的方法來阻止盲猜。一些研究團隊也探索了考慮不確定性和校準的評估方法。

但 OpenAI 表示,僅僅增加一些新的不確定性感知測試是不夠的。廣泛使用的、基於準確度的評估方法需要更新,使其評分能夠阻止猜測。

如果主要評估指標依然繼續爲模型幸運的猜測給予獎勵,模型就會繼續學習猜測。修改評估指標可以擴大降低幻覺技術的採用範圍,包括新開發的和先前研究的技術。

幻覺是如何從下一個詞預測中產生的

前面已經討論過爲什麼幻覺如此難以擺脫,但這些高度具體的事實性錯誤究竟從何而來?

畢竟,大型預訓練模型很少出現其他類型的錯誤,例如拼寫錯誤和括號不匹配。

OpenAI 表示,區別必定在於數據中存在哪些模式。

語言模型首先通過預訓練進行學習,這是一個預測海量文本中下一個詞的過程。

與傳統的機器學習問題不同,每個語句沒有「真 / 假」標籤。該模型只看到流暢語言的正面示例,並且必須去近似整體分布。

當沒有任何被標注爲無效的示例時,區分有效語句和無效語句會更加困難。但即使有標籤,一些錯誤也是不可避免的。

爲了理解原因,可以考慮一個更簡單的類比。在圖像識別中,如果數百萬張貓狗照片被標記爲「貓」或「狗」,算法可以學會可靠地對它們進行分類。但想象一下,如果用寵物的生日來標記每張寵物照片。由於生日本質上是隨機的,無論算法多麼先進,這項任務總是會產生錯誤。

同樣的原則也適用於預訓練。拼寫和括號遵循一致的模式,因此這些錯誤會隨着規模的擴大而消失。但像寵物的生日這樣任意的低頻事實,無法僅憑模式預測,因此會導致幻覺。

OpenAI 的分析解釋了哪些類型的幻覺會由下一個詞預測產生。理想情況下,預訓練後的後續階段應該能夠消除這些幻覺,但由於上一節中描述的原因,這並未完全實現。

總結

OpenAI 表示:「我們希望本文中的統計學視角能夠闡明幻覺的本質,並駁斥一些常見的誤解」:

有人宣稱:幻覺可以通過提高準確度來消除,因爲 100% 準確的模型永遠不會產生幻覺。

發現:準確度永遠不會達到 100%,因爲無論模型規模、搜索和推理能力如何,有些現實世界的問題本質上是無法回答的。

有人宣稱:幻覺是不可避免的。

發現:幻覺並非不可避免,因爲語言模型在不確定時可以放棄回答。

有人宣稱:避免幻覺需要一定程度的智能,而這只有大型模型才能實現。

發現:小型模型更容易了解自身的局限性。例如,當被要求回答毛利語問題時,一個不懂毛利語的小型模型可以直接回答「我不知道」,而一個認識一些毛利語的模型則必須確定其置信度。正如論文中所討論的,「校準」所需的計算量遠小於保持準確。

有人宣稱:幻覺是現代語言模型的一個神祕缺陷。

發現:我們可以理解幻覺產生以及在評估中獲得獎勵的統計學機制。

有人宣稱:要測量幻覺,我們只需要一個好的幻覺評估。

發現:已有研究者發表了一些幻覺評估。然而,一個好的幻覺評估與數百種傳統的基於準確度的評估相比幾乎沒有效果,這些評估會懲罰謙遜並獎勵猜測。相反,所有主要的評估指標都需要重新設計,以獎勵不確定性的表達。

OpenAI 表示:「我們最新的模型幻覺率更低,並且我們將繼續努力,進一步降低語言模型輸出的置信錯誤率。」

順帶一提,據 TechCrunch 報道,OpenAI 正在重組其模型行爲(Model Behavior)團隊,這是一支規模雖小但頗具影響力的研究人員團隊,他們決定着該公司的 AI 模型與人互動的方式。現在,該團隊將向 OpenAI 的後期訓練主管 Max Schwarzer 匯報。

而該團隊的創始負責人 Joanne Jang 則將在公司啓動一個新項目,名爲 oai Labs。據她的推文介紹:「這是一個以研究爲導向的團隊,專注於發明和設計人們與 AI 協作的新界面原型。」

GPT16.49%
WHY1.85%
MAX0.91%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)