论文arxiv cs.LG · 2mo ago必读

eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization

分类释义：学术论文 / 技术报告

TL;DR

eOptShrinkQ 将 KV cache 分解为低秩共享组件和残差，通过最优谱收缩提取结构，再用 TurboQuant 量化残差，在 Llama-3.1-8B 等模型上以 2.2 bits 超越 TurboQuant 的 3.0 bits，且 retrieval 任务甚至超过 FP16。

关键要点

为什么值得关注

KV cache 压缩是大模型推理显存优化的核心瓶颈，该方法从随机矩阵理论出发提供理论保证，谱去噪同时消除了对 outlier 处理和内积偏差校正的需求，bits 可全用于重建质量的提升。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估自研推理服务是否引入 eOptShrinkQ 替代现有量化方案，重点对比 2.2 bits 下的 retrieval 任务精度
应用工程师	若使用开源模型部署，确认推理框架是否已集成谱去噪式量化；否则暂用 TurboQuant 等成熟方案
运维 / 平台	评估显存节省幅度（~27% bits 降低）对实例规格的影响，测算单卡吞吐量提升是否值得迁移成本
产品 / 业务	暂无直接影响，关注该技术落地后 API 成本下降空间即可

阅读原文 ↗来源：arxiv cs.LG