🌕 桂花香,月兒圓~
Gate 廣場 · 中秋創作激勵限時開啓!
創作點亮中秋,帶上熱門話題發帖,就有機會瓜分 $5,000 中秋好禮! 🎁
立即報名參與 👉 https://www.gate.com/campaigns/1953
💡 參與攻略
1️⃣ 在廣場發帖並帶上話題 #Gate广场创作点亮中秋#
2️⃣ 內容需圍繞廣場官號(Gate廣場_Official)每日發布的熱點話題進行創作,並確保帶上該熱點話題及 #Gate广场创作点亮中秋# 標籤
3️⃣ 發帖數量越多,內容越優質,互動量越高,獎勵越豐厚!
💰 創作者專屬獎勵
🏆 Top 1:寶格麗中秋限定禮盒 + $100 合約體驗券 + $100 GT
🥈 Top 2:寶格麗中秋限定禮盒 + $80 合約體驗券 + $60 GT
🥉 Top 3:寶格麗中秋限定禮盒 + $60 合約體驗券 + $30 GT
Top 4-10:寶格麗中秋限定禮盒 + $50 合約體驗券
Top 11-20:多功能充電器 + $30 合約體驗券
幸運獎(30 位):每人 $20 合約體驗券
除此之外每位獲獎者都將獲得相應的社區流量扶持,增加您的社區影響力!
🍀 新用戶特別福利:
第一次在活動期間發帖?恭喜你,還有機會衝擊 $600 中秋賞月獎池!
完成任務(完善資料+關注5人+點讚/評論/轉發5帖+帶話題發首帖),30 位幸運用
大模型解釋性你能理得清嗎?綜述已來,一文解你疑惑
大規模語言模式在自然語言處理方面展現出令人驚訝的推理能力,但其內在機制尚不清楚。隨著大規模語言模型的廣泛應用,闡明模型的運作機制對應用安全性、效能限制和可控的社會影響至關重要。
近期,中美多家研究機構(新澤西理工學院、約翰斯・霍普金斯大學、維克森林大學、喬治亞大學、上海交大、百度等)共同發布了大模型可解釋性技術的綜述,分別對傳統的fine-tuning 模型和基於ing 的超大模型的可解釋性技術進行了全面的梳理,並探討了模型解釋的評估標準和未來的研究挑戰。
為何解釋大模型有點難?大語言模式在自然語言處理任務上的驚艷表現引起了社會廣泛的關注。同時,如何解釋大模型在跨任務中令人驚豔的表現是學術界面臨的迫切挑戰之一。有別於傳統的機器學習或深度學習模型,超大的模型架構和大量的學習資料使得大模型具備了強大的推理泛化能力。大語言模型(LLMs) 提供可解釋性的幾個主要困難包括:
大模型的訓練範式
為了更好的歸納總結大模型的可解釋性,我們將BERT 及以上級別的大模型的訓練範式分為兩種:1)傳統fine-tuning 範式;2)基於ing 的範式。
傳統fine-tuning 範式
對於傳統fine-tuning 範式,首先在一個較大的未標記的文本庫上預訓練一個基礎語言模型,再透過來自特定領域的標記資料集進行fine-tuning。常見的此類模型有BERT, RoBERTa, ELECTRA, DeBERTa 等人。
基於ing 的範式
基於ing 的範式透過使用s 實作zero-shot 或few-shot learning。與傳統fine-tuning 範式相同,需要預先訓練基礎模型。但是,基於ing 範式的微調通常由instruction tuning 和reinforcement learning from human feedback (RLHF) 實作。常見的此類模型包括GPT-3.5, GPT 4, Claude, LLaMA-2-Chat, Alpaca, Vicuna 等。其訓練流程如下圖:
基於傳統fine-tuning 範式的模型解釋包括單一預測的解釋(局部解釋)和模型結構層級組分如神經元,網路層等的解釋(全局解釋)。
局部解釋
局部解釋對單一樣本預測進行解釋。其解釋方法包括特徵歸因(feature attribution)、基於注意力機制的解釋(attention-based)、基於樣本的解釋(example-based)、基於自然語言的解釋(natural language explanation)。
全域解釋
全局解釋旨在從模型構成的層麵包括如神經元,隱藏層和更大的組塊,為大模型的工作機制提供更高階的解釋。主要探究在不同網路構成部分學習到的語意知識。
基於ing 範式的模型解釋
基於ing 範式的模型解釋,需要對基礎模型和助手模型分別解釋以區別兩種模型的能力,並探究模型學習的路徑。其探究的問題主要包括:為模型提供解釋對few-shot learning 的益處;理解few-shot learning 和思維鏈能力的來源。
基礎模型解釋
助手模型解釋
模型解釋的評估
模型解釋的評估指標包含合理性(plausibility),忠實度(faithfulness),穩定性(stability),穩健性(robustness) 等。論文主要講述了兩個被廣泛關注的圍度:1)對人類的合理性;2)對模型內在邏輯的忠實度。
對傳統fine-tuning 模型解釋的評估主要集中在局部解釋。合理性通常需要將模型解釋與人工標註的解釋依照設計的標準進行測量評估。而忠實性則更注重量化指標的表現,由於不同的指標關注模型或數據的面向不同,對於忠實性的衡量仍缺乏統一的標準。基於ing 模型解釋的評估則有待進一步的研究。
未來研究挑戰
**1. 缺乏有效的正確解釋。 **其挑戰來自兩個方面:1)缺乏設計有效解釋的標準;2)有效解釋的缺乏導致對解釋的評估同樣缺乏支撐。
**2. 湧現現象的根源未知。 **對大模型湧現能力的探究可以分別從模型和資料的角度進行,從模型的角度,1)引起湧現現象的模型結構;2)具備跨語言任務超強表現的最小模型尺度和複雜度。從資料的角度,1)決定特定預測的資料子集;2)湧現能力與模型訓練和資料污染的關係;3)訓練資料的品質和數量對預訓練和微調各自的影響。
**3. Fine-tuning 範式與ing 範式的差異。 **兩者在in-distribution 和out-of-distribution 的不同表現意味著不同的推理方式。 1)在資料同分佈(in-distribution)之下,其推理範式的差異;2)在資料不同分佈的情況下,模型穩健性的差異根源。
**4. 大模型的捷徑學習問題。 **兩種範式之下,模型的捷徑學習問題存在於不同的面向。儘管大模型由於資料來源豐富,捷徑學習的問題相對緩和。闡明捷徑學習形成的機制並提出解決方法對模型的泛化依然重要。
**5. 注意力冗餘。 **注意力模組的冗餘問題在兩種範式之中廣泛存在,對注意力冗餘的研究可以為模型壓縮技術提供一種解決方式。
**6. 安全性和道德性。 **大模型的可解釋性對控制模型並限制模型的負面影響至關重要。如偏差、不公平、資訊污染、社會操控等問題。建立可解釋的AI 模型可以有效地避免上述問題,並形成符合道德規範的人工智慧系統。