Hugging Face转推turboquant-gpu工具,宣称提供5.02倍KV缓存压缩

ME News 消息,4 月 6 日(UTC+8),Hugging Face近日转推了anirudhbv_ce发布的消息,宣布推出turboquant-gpu工具。该工具宣称能为任意GPU(包括RTX、H100、A100、B200)提供高达5.02倍的KV缓存压缩。据文中介绍,其特点包括:与Hugging Face Transformers库兼容;提供极简API,宣称只需3行代码即可实现压缩与生成;采用3-bit Lloyd-Max融合KV压缩技术,并宣称达到0.98的余弦相似度。文中观点认为,其性能表现优于MXFP4(3.76倍压缩)和另一个未命名的方案。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论