聊天機器人性能下降：數據挑戰威脅生成人工智能的未來

2023-07-23 05:59:33

本文簡要：

·研究表明，隨著時間的推移，由於訓練數據質量的下降，ChatGPT 等聊天機器人的性能可能會下降。

·機器學習模型容易受到數據中毒和模型崩潰的影響，這會顯著降低其輸出質量。

·可靠的內容源對於防止聊天機器人性能下降至關重要，這給未來的人工智能開發人員帶來了挑戰。

現代聊天機器人不斷學習，它們的行為總是在變化，但他們的表現可能會下降，也可能會提高。

最近的研究推翻了“學習總是意味著進步”的假設，這對ChatGPT及其同行的未來具有影響。為了確保聊天機器人保持正常運行，人工智能(AI) 開發人員必須應對新出現的數據挑戰。

ChatGPT 隨著時間的推移變得越來越笨

最近發表的一項研究表明，隨著時間的推移，聊天機器人執行某些任務的能力可能會下降。

為了得出這個結論，研究人員比較了大型語言模型(LLM) GPT-3.5 和GPT-4 在2023 年3 月和6 月的輸出。在短短三個月內，他們觀察到支撐ChatGPT 的模型發生了顯著變化。

例如，今年3 月份，GPT-4 能夠以97.6% 的準確率識別素數。到6 月份，其準確率已驟降至2.4%。

GPT-4（左）和GPT-3.5（右）在3 月和6 月對同一問題的答复（來源：arXiv）

該實驗還評估了模型回答敏感問題的速度、生成代碼的能力以及視覺推理的能力。在他們測試的所有技能中，團隊觀察到人工智能輸出質量隨著時間的推移而惡化。

實時訓練數據的挑戰

機器學習(ML) 依賴於訓練過程，人工智能模型可以通過處理大量信息來模擬人類智能。

例如，為現代聊天機器人提供支持的法學碩士的開發得益於大量在線存儲庫的可用性。其中包括從維基百科文章編譯的數據集，使聊天機器人能夠通過消化有史以來最大的人類知識體係來學習。

但現在，ChatGPT 之類的工具已經被廣泛發布。開發人員對其不斷變化的訓練數據的控制力要小得多。

問題是這樣的模型也可以“學習”給出錯誤的答案。如果訓練數據的質量下降，他們的輸出也會下降。這給動態聊天機器人帶來了挑戰，因為動態聊天機器人需要穩定地獲取網絡抓取的內容。

數據中毒可能導致聊天機器人性能下降

由於聊天機器人傾向於依賴從網絡上抓取的內容，因此特別容易受到一種稱為數據中毒的操縱。

這正是2016 年微軟Twitter 機器人Tay 身上發生的事情。推出後不到24 小時，ChatGPT 的前身就開始發布煽動性和攻擊性的推文。微軟開發人員很快暫停了它並重新開始。

事實證明，網絡流氓從一開始就向機器人發送垃圾郵件，操縱其從與公眾互動中學習的能力。在遭到4channer 軍隊的辱罵後，Tay 開始鸚鵡學舌地重複他們的仇恨言論也就不足為奇了。

與Tay 一樣，當代聊天機器人是其環境的產物，很容易受到類似的攻擊。即使是在法學碩士發展中如此重要的維基百科也可能被用來毒害機器學習訓練數據。

然而，故意損壞的數據並不是聊天機器人開發人員需要警惕的唯一錯誤信息來源。

**模型崩潰：聊天機器人的定時炸彈？ **

隨著人工智能工具的日益普及，人工智能生成的內容也在激增。但是，如果越來越多的內容本身是由機器學習創建的，那麼接受過網絡抓取數據集訓練的法學碩士會發生什麼呢？

最近一項關於遞歸對機器學習模型影響的調查就探討了這個問題。它找到的答案對生成人工智能的未來具有重大影響。

研究人員發現，當人工智能生成的材料用作訓練數據時，機器學習模型開始忘記他們之前學到的東西。

他們創造了“模型崩潰”一詞，指出不同的人工智能家族在接觸人工創建的內容時都傾向於退化。

該團隊在一項實驗中在圖像生成機器學習模型及其輸出之間創建了一個反饋循環。

經過觀察，他們發現，每次迭代後，模型都會放大自己的錯誤，並開始忘記最初由人類生成的數據。 20 個循環後，輸出幾乎與原始數據集相似。

圖像生成ML 模型的輸出（來源：arXiv)

研究人員在與法學碩士進行類似的場景時觀察到了同樣的退化趨勢。而且，隨著每次迭代，諸如重複短語和斷斷續續的言語等錯誤發生的頻率會更高。

據此，研究推測ChatGPT的未來幾代可能面臨模型崩潰的風險。如果人工智能生成越來越多的在線內容，聊天機器人和其他生成機器學習模型的性能可能會惡化。

防止聊天機器人性能下降所需的可靠內容

展望未來，可靠的內容源對於防止低質量數據的退化影響將變得越來越重要。那些控制對訓練機器學習模型所需內容的訪問的公司掌握著進一步創新的關鍵。

畢竟，擁有數百萬用戶的科技巨頭成為人工智能領域的知名企業並非巧合。

僅在上週，Meta就發布了LLM Llama 2 的最新版本，谷歌為Bard 推出了新功能，有報導稱蘋果也準備加入這場競爭。

無論是由數據中毒、模型崩潰的早期跡像還是其他因素驅動，聊天機器人開發人員都不能忽視性能下降的威脅。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言