对2025年ACL Rolling Review论文的实证研究表明,LLM评审与人类评审的对齐程度有限,且对齐效果在很大程度上取决于提示词和模型选择。研究还发现作者可以通过迭代修改论文来「游戏」LLM评审,约35%的论文因此获得了统计显著分数提升。 创意点:主流学术会议已在试点LLM辅助评审,这意味着一旦作者学会利用LLM的评审偏好进行针对性修改,学术发表生态将面临系统性公平问题。工程师可借鉴此研究设计「反游戏检测工具」,识别迭代式LLM辅助修改的模式;产品负责人可探索让多个不同模型交叉评审以增强鲁棒性。 原文:https://arxiv.org/abs/2605.28897
这篇候选手册来自公开业界分享的摘要提炼,不转载原文。后续我会补充自己的验证、代码和可复用配置,再升级为正式 playbook。
加入每周 AI 工程师 Brief
新 playbook 上线第一时间通知,附作者每周观察。永久免费。