论文arxiv cs.CL · 2mo ago需要关注

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

分类释义：学术论文 / 技术报告

TL;DR

提出自适应Power-Mean策略优化(APMPO)，通过PMPO实现算术平均与几何平均的自适应切换，以及FAC实现裁剪边界的动态调整，解决RLVR中静态优化与模型进化能力不匹配的问题。

关键要点

为什么值得关注

该方法让LLM推理训练能随模型能力动态调整优化策略，在Qwen2.5-3B数学推理任务上Pass@1提升3.0分，具有直接工程应用价值。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估APMPO在现有RLVR训练流程中的集成复杂度，优先在数学推理场景试点
应用工程师	参考论文FAC实现裁剪边界动态调整逻辑，替换现有的固定超参配置
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.CL