论文arxiv cs.CL · 2mo ago重要

SKG-Eval: Stateful Evaluation of Multi-Turn Dialogue via Incremental Semantic Knowledge Graphs

分类释义：学术论文 / 技术报告

TL;DR

SKG-Eval 将多轮对话建模为增量语义知识图谱，通过结构化三元组提取跟踪实体和关系，实现对跨轮矛盾、主题漂移和实体不一致的检测，提供可解释和可复现的评估。

关键要点

为什么值得关注

现有 LLM-as-judge 评估方法无法有效检测长距离不一致问题，SKG-Eval 通过图结构建模提供了可审计的替代方案，对构建更可靠的对话系统评估流程有直接价值。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估是否将 SKG-Eval 纳入对话系统的标准化评估流程，补充现有 LLM-as-judge 方案
应用工程师	在多轮对话模块的测试中引入增量语义知识图谱检测，提前捕获跨轮矛盾和实体不一致
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	向工程师确认对话质量报告是否需要从黑盒评分转向可审计的结构化输出

阅读原文 ↗来源：arxiv cs.CL