论文arxiv cs.AI · 2mo ago重要

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

分类释义：学术论文 / 技术报告

TL;DR

OSCToM 通过 RL 引导的对抗性数据合成，在 8B 参数模型上实现 FANToM 基准 76% 准确率（vs ExploreToM 的 0.2%），数据效率提升 6 倍，解决了嵌套信念和信息不对称场景下的 ToM 推理难题。

关键要点

为什么值得关注

该研究证明针对认知推理的合成数据可以显著提升小模型表现，直接启发 Agent 开发中如何通过 RL 生成「困难样本」来定向提升多跳社会推理能力，而非依赖暴力 scaling。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估将 RL 对抗性数据合成引入 Agent 能力 roadmap 的可行性
应用工程师	暂无直接影响，了解即可
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.AI