论文arxiv cs.AI · 1w ago重要
OSCToM: RL-Guided Adversarial Generation for High-Order Theory of Mind
分类释义:学术论文 / 技术报告
TL;DR
OSCToM 通过 RL 引导的对抗性数据合成,在 8B 参数模型上实现 FANToM 基准 76% 准确率(vs ExploreToM 的 0.2%),数据效率提升 6 倍,解决了嵌套信念和信息不对称场景下的 ToM 推理难题。
关键要点
- 01OSCToM 通过 RL 引导的对抗性数据合成。
- 02在 8B 参数模型上实现 FANToM 基准 76% 准确率(vs ExploreToM 的 0.2%)。
- 03数据效率提升 6 倍。
- 04解决了嵌套信念和信息不对称场景下的 ToM 推理难题。
为什么值得关注
该研究证明针对认知推理的合成数据可以显著提升小模型表现,直接启发 Agent 开发中如何通过 RL 生成「困难样本」来定向提升多跳社会推理能力,而非依赖暴力 scaling。
对你的工程实践意味着什么
LLM 实时生成MiniMax-M2.7缓存命中
| 角色 | 你应该做什么 |
|---|---|
| Tech Lead | 评估将 RL 对抗性数据合成引入 Agent 能力 roadmap 的可行性 |
| 应用工程师 | 暂无直接影响,了解即可 |
| 运维 / 平台 | 暂无直接影响,了解即可 |
| 产品 / 业务 | 暂无直接影响,了解即可 |
同类资讯
本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5