💥 Gate廣場活動: #ART创作大赛# 💥
在 Gate廣場發布與 ART、Launchpool、交易賽或餘幣寶活動 相關的原創內容,即有機會瓜分 1,600 ART 獎勵!
📅 活動時間:2025年9月12日 12:00 – 9月17日 24:00 (UTC+8)
📌 相關詳情:
Gate Launchpool:抵押 GT 領取 ART 空投
連結:https://www.gate.com/announcements/article/46996
ART 交易賽:分享總獎池 208,334 ART
連結:https://www.gate.com/announcements/article/47047
Gate 餘幣寶:ART 7天定期投資,年化收益高達 500% APR
連結:https://www.gate.com/announcements/article/47046
📌 參與方式:
發布原創內容,主題需與 ART 或相關活動(Launchpool / 交易賽 / 餘幣寶) 相關
內容不少於 80 字
帖子添加話題: #ART创作大赛#
附上任意活動參與截圖
🏆 獎勵設置:
🥇 一等獎(1名):500 ART
🥈 二等獎(2名):250 ART/人
🥉 三等獎(6名):100 ART/人
📄 注意事項:
內容必須原創,禁止抄襲或刷量
獲獎者需完成 Gate
H100推理飆升8倍!英偉達官宣開源TensorRT-LLM,支持10+模型
原文來源:新智元
「GPU貧民」即將告別困境!
剛剛,英偉達發布了一款開源軟件TensorRT-LLM,能夠加速H100上大型語言模型的推理。
在添加了TensorRT-LLM及其一系列優化功能後(包括In-Flight批處理),模型總吞吐量提升8倍。
另外,就拿Llama 2來說,相較於單獨使用A100,TensorRT-LLM可以將推理性能提高4.6倍。
網友表示,超強H100,再結合上TensorRT-LLM,無疑將徹底改變大型語言模型推理現狀!
當前,由於大模型有著巨大的參數規模,使得「部署和推理」難度和成本一直居高不下。
而英伟达开发的TensorRT-LLM,旨在通过GPU来显著提高LLM吞吐量,并降低成本。
英偉達對FasterTransformer進行了進一步的增強,使其成為一個產品化的解決方案。
可見,TensorRT-LLM提供了一個易用、開源和模塊化的Python應用編程接口。
碼農們不需要深入的C++或CUDA專業知識,能夠部署、運行、調試各種大語言模型,還能獲得頂尖性能表現,以及快速定制化的功能。
首先,為當前10+大模型,引入TensorRT-LLM,讓開發者們能夠立即運行。
其次,TensorRT-LLM作為一個開源軟件庫,允許LLM在多個GPU和多個GPU服務器上同時進行推理。
這些服務器分別通過,英偉達的NVLink和InfiniBand互連連接。
第三,就是「In-flight批處理」,這是一種全新的調度技術,允許不同模型任務獨立於其他任務進入GPU和退出GPU。
最後,TensorRT-LLM經過優化,可以利用H100 Transformer Engine來降低模型推理時的內存佔用和延遲。
接下來,具體看看TensorRT-LLM如何提升模型性能。
支持豐富LLM生態
TensorRT-LLM對開源模型生態提供了非常好的支持。
規模最大、最先進的語言模型,例如Meta推出的Llama 2-70B,需要多個GPU協同工作才能實時提供響應。
此前,如果要實現LLM推理的最佳性能,開發人員必須重寫AI模型,並將其手動拆分為多個片段,並在GPU之間協調執行。
每個模型可以在通過NVLink連接的多個GPU和多個服務器上並行運行,無需開發人員干預或模型更改。
支持的內核融合(Kernal Fusion),包括最前沿的FlashAttention實現和用於GPT模型執行的上下文和生成階段的掩碼多頭注意力等。
此外,TensorRT-LLM還包括了目前流行的許多大語言模型的完全優化、可立即運行的版本。
其中包括Meta Llama 2、OpenAI GPT-2和GPT-3、Falcon、Mosaic MPT、BLOOM等10多個模型,所有這些模型都可以使用簡單易用的TensorRT-LLM Python API來調用。
這些功能可幫助開發人員更快、更準確地搭建定制化的大語言模型,以滿足各行各業的不同需求。
In-flight批處理
現如今大型語言模型的用途極其廣泛。
一個模型可以同時用於多種看起來完全不同的任務——從聊天機器人中的簡單問答響應,到文檔摘要或長代碼塊的生成,工作負載是高度動態的,輸出大小需要滿足不同數量級任務的需求。
任務的多樣性可能會導致難以有效地批處理請求和進行高效並行執行,可能會導致某些請求比其他請求更早完成。
它的核心原理是,大語言模型的整個文本生成過程可以分解為模型上的多次執行迭代。
通過in flight批處理,TensorRT-LLM運行時會立即從批處理中釋放出已完成的序列,而不是等待整個批處理完成後再繼續處理下一組請求。
在執行新請求時,上一批還未完成的其他請求仍在處理中。
In-flight批處理和額外的內核級優化可提高GPU使用率,可以使得H100上的LLM實際請求基準的吞吐量至少增加一倍。
使用FP 8的H100 Transformer引擎
TensorRT-LLM還提供了一個名為H100 Transformer Engine的功能,能有效降低大模型推理時的內存消耗和延遲。
因為LLM包含數十億個模型權重和激活函數,通常用FP16或BF16值進行訓練和表示,每個值佔用16位內存。
然而,在推理時,大多數模型可以使用量化(Quantization)技術以較低精度有效表示,例如8位甚至4位整數(INT8或INT4)。
量化(Quantization)是在不犧牲準確性的情況下降低模型權重和激活精度的過程。使用較低的精度意味著每個參數較小,並且模型在GPU內存中佔用的空間較小。
通過H100 Transformer Engine技術,配合TensorRT-LLM的H100 GPU使戶能夠輕鬆地將模型權重轉換為新的FP8格式,並能自動編譯模型以利用優化後的FP8內核。
而且這個過程不需要任何的代碼! H100引入的FP8數據格式使開發人員能夠量化他們的模型並從大幅度減少內存消耗,而且不會降低模型的準確性。
與INT8或INT4等其他數據格式相比,FP8量化保留了更高的精度,同時實現了最快的性能並,而且實現起來最為方便。
如何獲取TensorRT-LLM
TensorRT-LLM雖然還沒有正式發布,但是用戶現在已經可以進行搶先體驗了。
申請鏈接如下:
英偉達也說會將TensorRT-LLM很快集成到NVIDIA NeMo框架中。
這個框架是英偉達前不久剛剛推出的AI Enterprise的一部分,為企業客戶提供了一個安全、穩定、可管理性極強的企業級AI軟件平台。
開發人員和研究人員可以通過英偉達NGC上的NeMo框架或GitHub上的項目訪問TensorRT-LLM。
但是需要注意的是,用戶必須註冊英偉達開發者計劃才能申請搶先體驗版本。
網友熱議
Reddit上的網友對TensorRT-LLM的推出展開了激烈的討論。
難以想像專門針對LLM對硬件做出優化之後,效果將會有多大的提升。