论文arxiv cs.CL · 2mo ago需要关注

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

分类释义：学术论文 / 技术报告

TL;DR

研究评估了 ChatGPT、Grok、Gemini、Copilot 四款模型在学术写作任务（参考文献生成、事实解释、摘要生成、写作改进）上的幻觉率，提出幻觉指数(HI)指标，发现不同模型在不同任务上各有优劣。

关键要点

为什么值得关注

学术写作工具已被广泛采用，该研究揭示了各模型在特定任务上的具体幻觉风险，为研究者和写作者选择合适工具提供了实证依据。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	参考HI指标建立模型选型标准，优先将幻觉率纳入学术写作功能的模型评估维度
应用工程师	在使用LLM辅助学术写作时，对参考文献生成等高幻觉风险任务必须保留人工复核流程
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	若产品涉及学术写作场景，根据研究结论为不同子任务分配对应模型，避免一刀切调用

阅读原文 ↗来源：arxiv cs.CL