大模型文本長度突破40萬token 長文本技術成AI新賽道

robot
摘要生成中

大模型競賽新熱點:文本長度從4千到40萬token的飛躍

大模型技術正以驚人的速度發展,文本處理能力從最初的4千token躍升至40萬token,長文本能力似乎成爲大模型廠商的新標配。

國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。其競爭對手Anthropic一舉將上下文長度擴展到10萬token。LongLLaMA更是將上下文長度拓展到25.6萬token甚至更多。

國內方面,某初創公司推出的智能助手產品可支持輸入約40萬token的文本。港中文與MIT合作開發的LongLoRA技術,能將7B模型的文本長度拓展到10萬token,70B模型拓展到3.2萬token。

目前,國內外衆多頂級大模型公司和研究機構都將拓展上下文長度作爲重點升級方向。這些公司大多是資本市場追捧的明星企業,融資金額和估值屢創新高。

大模型公司聚焦長文本技術意味着什麼?表面上看是輸入文本長度和閱讀能力的提升,從一篇短文到一本長篇小說。更深層的意義在於推動大模型在金融、司法、科研等專業領域的落地應用,滿足這些領域對長文檔處理的需求。

然而,文本長度並非越長越好。研究表明,模型支持更長上下文輸入與效果提升並不能直接劃等號,關鍵在於模型如何利用上下文內容。不過目前業界對文本長度的探索仍未達到極限,40萬token可能只是開始。

長文本技術之所以受到關注,是因爲它可以解決大模型早期的一些問題,如虛擬角色場景中遺忘重要信息、專業領域分析生成受限等。同時,長文本也是推進未來Agent和AI原生應用發展的關鍵技術。

長文本可以通過提供更多上下文和細節信息,幫助模型更準確地理解語義、減少歧義,提高推理的準確性。這標志着大模型進入了從LLM到Long LLM的新階段。

長文本技術在實際應用中展現出多方面的優勢:可快速分析長文章要點、提取財報關鍵信息、實現整本書的問答;在代碼方面可直接將論文轉化爲代碼;還能實現角色扮演等個性化長對話功能。這些功能推動對話機器人向更專業化、個性化、深度化的方向發展。

然而,長文本技術面臨"不可能三角"困境:文本長度、注意力和算力之間存在相互制約。文本越長越難聚焦注意力,而處理長文本又需要更多算力。這一困境源於大多數模型採用的Transformer結構,其自注意力機制的計算量隨上下文長度呈平方級增長。

目前主要有三種解決方案:利用外部工具輔助處理、優化自注意力機制計算、優化模型本身。各方案各有利弊,如何在文本長度、注意力和算力之間找到最佳平衡點,是大模型廠商面臨的挑戰。

雖然長文本技術仍有優化空間,但它代表了大模型向更高層次發展的趨勢,有望推動AI在更多專業領域實現突破性應用。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 6
  • 分享
留言
0/400
空投疯子老王vip
· 19小時前
token还在涨啊老铁们
回復0
GasGuzzlervip
· 07-13 18:22
40w token...算力要爆炸了吧
回復0
无聊饭团vip
· 07-13 18:22
40w...离人类距离又近了点
回復0
digital_archaeologistvip
· 07-13 18:22
算力警告!
回復0
AltcoinOraclevip
· 07-13 18:18
令人着迷的是算法复杂度如何随着40万标记的增长而变化……说实话,明显向上破位于传统的注意力模式。
查看原文回復0
DeFi小灰灰vip
· 07-13 17:56
长这么多哪看得完?!
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)