论文arxiv cs.LG · 3w ago必读

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

分类释义:学术论文 / 技术报告

TL;DR

eOptShrinkQ 将 KV cache 分解为低秩共享组件和残差,通过最优谱收缩提取结构,再用 TurboQuant 量化残差,在 Llama-3.1-8B 等模型上以 2.2 bits 超越 TurboQuant 的 3.0 bits,且 retrieval 任务甚至超过 FP16。

关键要点

  • 01eOptShrinkQ 将 KV cache 分解为低秩共享组件和残差
  • 02通过最优谱收缩提取结构
  • 03再用 TurboQuant 量化残差
  • 04在 Llama-3.1-8B 等模型上以 2.2 bits 超越 TurboQuant 的 3.0 bits
为什么值得关注

KV cache 压缩是大模型推理显存优化的核心瓶颈,该方法从随机矩阵理论出发提供理论保证,谱去噪同时消除了对 outlier 处理和内积偏差校正的需求,bits 可全用于重建质量的提升。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead评估自研推理服务是否引入 eOptShrinkQ 替代现有量化方案,重点对比 2.2 bits 下的 retrieval 任务精度
应用工程师若使用开源模型部署,确认推理框架是否已集成谱去噪式量化;否则暂用 TurboQuant 等成熟方案
运维 / 平台评估显存节省幅度(~27% bits 降低)对实例规格的影响,测算单卡吞吐量提升是否值得迁移成本
产品 / 业务暂无直接影响,关注该技术落地后 API 成本下降空间即可
阅读原文 ↗来源:arxiv cs.LG

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5