论文arxiv cs.CL · 2w ago重要

SPEAR: Code-Augmented Agentic Prompt Optimization

分类释义:学术论文 / 技术报告

TL;DR

SPEAR 是一个代码增强的自主提示优化器,通过 Python 沙箱让优化 Agent 直接写代码分析错误分布,在工业 LLM-as-Judge 任务和 BBH-7 上均显著超越 GEPA 和 TextGrad 等基线。

关键要点

  • 01SPEAR 是一个代码增强的自主提示优化器
  • 02通过 Python 沙箱让优化 Agent 直接写代码分析错误分布
  • 03在工业 LLM-as-Judge 任务和 BBH-7 上均显著超越 GEPA 和 TextGrad 等基线
为什么值得关注

提示优化 Agent 以前只能读日志,现在能写 Python 做结构化错误分析(如类对混淆矩阵聚合),这让「让模型自己诊断自己」成为可复用的工程模式——产品可借鉴:构建一个带沙箱的评测 Agent,让它自动分析评测结果并迭代改进 prompt。

对你的工程实践意味着什么

LLM 实时生成MiniMax-M2.7缓存命中
角色你应该做什么
Tech Lead评估团队是否需要引入代码执行沙箱 + LLM 组合的评测闭环,作为提示优化的基础设施储备
应用工程师构建评测流程时考虑让 Agent 直接写 Python 分析错误,而非仅依赖手工日志阅读
运维 / 平台搭建沙箱环境供 LLM 执行代码,分析代码注入风险后评估是否纳入评测 Pipeline
产品 / 业务暂无直接影响,了解即可
阅读原文 ↗来源:arxiv cs.CL

同类资讯

本页 TL;DR 与「为什么」由 LLM 生成 · 模型:MiniMax-M2.7 / Claude Haiku 4.5