论文arxiv cs.CL · 2mo ago重要

SPEAR: Code-Augmented Agentic Prompt Optimization

分类释义：学术论文 / 技术报告

TL;DR

SPEAR 是一个代码增强的自主提示优化器，通过 Python 沙箱让优化 Agent 直接写代码分析错误分布，在工业 LLM-as-Judge 任务和 BBH-7 上均显著超越 GEPA 和 TextGrad 等基线。

关键要点

为什么值得关注

提示优化 Agent 以前只能读日志，现在能写 Python 做结构化错误分析（如类对混淆矩阵聚合），这让「让模型自己诊断自己」成为可复用的工程模式——产品可借鉴：构建一个带沙箱的评测 Agent，让它自动分析评测结果并迭代改进 prompt。

LLM 实时生成MiniMax-M2.7缓存命中

角色	你应该做什么
Tech Lead	评估团队是否需要引入代码执行沙箱 + LLM 组合的评测闭环，作为提示优化的基础设施储备
应用工程师	构建评测流程时考虑让 Agent 直接写 Python 分析错误，而非仅依赖手工日志阅读
运维 / 平台	搭建沙箱环境供 LLM 执行代码，分析代码注入风险后评估是否纳入评测 Pipeline
产品 / 业务	暂无直接影响，了解即可

阅读原文 ↗来源：arxiv cs.CL