论文arxiv cs.AI · 3d ago必读

How Much Thinking is Enough? Quantifying and Understanding Redundancy in LLM Reasoning

分类释义:学术论文 / 技术报告

TL;DR

对4个前沿推理模型和2个数学基准的规模化测量显示,当前推理模型高达61%-93%的思考步骤是冗余的,中位数临界前缀仅为单个分段步骤。理论证明这是"长度无关结果奖励"的结构性后果,而非模型特有缺陷。

关键要点

  • 01对4个前沿推理模型和2个数学基准的规模化测量显示
  • 02当前推理模型高达61%-93%的思考步骤是冗余的
  • 03中位数临界前缀仅为单个分段步骤
  • 04理论证明这是"长度无关结果奖励"的结构性后果
为什么值得关注

如果61%-93%的思考步骤可安全截断而不影响答案正确性,这直接意味着推理成本可降低2-10倍。工程团队可探索"早停推理"策略:让推理模型在首个完整步骤后评估置信度,达到阈值即终止。这不是模型bug,而是训练范式的根本问题——需重新设计奖励机制以纳入步骤级效率。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7
角色你应该做什么
Tech Lead评估论文结论的可复现性,考虑在团队内部发起早停推理的 PoC 实验
应用工程师在调用推理模型时实现置信度检测逻辑,设置 max_tokens 上限作为兜底
运维 / 平台基于 token 量统计当前推理成本,预估早停策略可节省的基础设施支出
产品 / 业务暂无直接影响,了解即可
阅读原文 ↗来源:arxiv cs.AI

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5