论文arxiv cs.AI · 1w ago重要

OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind

分类释义:学术论文 / 技术报告

TL;DR

OSCToM 通过 RL 引导的对抗性数据合成,在 8B 参数模型上实现 FANToM 基准 76% 准确率(vs ExploreToM 的 0.2%),数据效率提升 6 倍,解决了嵌套信念和信息不对称场景下的 ToM 推理难题。

关键要点

  • 01OSCToM 通过 RL 引导的对抗性数据合成
  • 02在 8B 参数模型上实现 FANToM 基准 76% 准确率(vs ExploreToM 的 0.2%)
  • 03数据效率提升 6 倍
  • 04解决了嵌套信念和信息不对称场景下的 ToM 推理难题
为什么值得关注

该研究证明针对认知推理的合成数据可以显著提升小模型表现,直接启发 Agent 开发中如何通过 RL 生成「困难样本」来定向提升多跳社会推理能力,而非依赖暴力 scaling。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead评估将 RL 对抗性数据合成引入 Agent 能力 roadmap 的可行性
应用工程师暂无直接影响,了解即可
运维 / 平台暂无直接影响,了解即可
产品 / 业务暂无直接影响,了解即可
阅读原文 ↗来源:arxiv cs.AI

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5