← 全部资讯

论文arxiv cs.CL · 2mo ago重要

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

分类释义：学术论文 / 技术报告

TL;DR

PQR 框架通过查询优化和提示优化两个模块的迭代交互，自动生成多样化、真实的用户查询以触发 QA 代理失败，在电商场景中比现有方法多发现 23%-78% 的失败响应。

关键要点

01PQR 框架通过查询优化和提示优化两个模块的迭代交互。
02自动生成多样化、真实的用户查询以触发 QA 代理失败。
03在电商场景中比现有方法多发现 23%-78% 的失败响应。

为什么值得关注

传统 agent 测试依赖人工设计失败案例，PQR 可自动化发现系统弱点，帮助开发者系统性地提升代理的安全性和有用性，降低测试成本。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估 PQR 框架集成到现有 CI/CD 流程的可行性
应用工程师	根据框架发现的失败案例修复对应模块的响应逻辑
运维 / 平台	暂无直接影响，了解即可
产品 / 业务	审阅失败响应报告，识别产品需求与系统能力之间的差距

阅读原文 ↗来源：arxiv cs.CL

同类资讯

arxiv cs.CL·1d ago

Sympathetic Framing: Evaluating AI Alignment across Sociodemographic Groups

arxiv cs.LG·1d ago

Recursive transformers for semiconductor thermo-mechanical reliability

arxiv cs.CL·1d ago

LayerRAG-Bench: A Cross-Layer Reliability Benchmark for Agentic Retrieval-Augmented Generation

本页 TL;DR 与「为什么」由 LLM 生成 · 模型：MiniMax-M2.7 / Claude Haiku 4.5