实战手册
作者亲测的 AI 最佳实践,以及从业界分享中提炼的候选手册。
Claude Code 真实工作流:从单文件改动到跨仓库重构
我每周用它写 30+ 小时代码后总结的 12 个高 ROI 模式
讲清楚什么任务该交给 Claude Code、什么必须自己写。包含 7 个可复制的 prompt 模板和 5 个不该用它的场景。
RAG 落地的 9 个坑:我踩过的和我从客户那儿见过的
从「跑通 demo」到「上生产」之间,99% 的 RAG 项目挂在这里
embedding 模型选错、chunk 策略想当然、缺少 eval 集——附 7 个真实失败案例的代码 diff。
Agent 编程 5 种模式与各自的失败模式
ReAct / Plan-Execute / Reflexion / Code-as-Action / Multi-Agent 实战取舍
结合 4 个真实项目,讲每种 agent 模式的适用边界、token 成本、调试体验。带可跑的最小复现代码。
All Playbooks
Review Arcade: On the Human Alignment and Gameability of LLM Reviews
arxiv cs.AI 的业界分享,已提炼为实战手册候选
对2025年ACL Rolling Review论文的实证研究表明,LLM评审与人类评审的对齐程度有限,且对齐效果在很大程度上取决于提示词和模型选择。研究还发现作者可以通过迭代修改论文来「游戏」LLM评审,约35%的论文因此获得了统计显著分数提升。 创意点:主流学术会议已在试点LLM辅助评审,这意味着一旦作者学会利用LLM的评审偏好进行针对性修改,学术发表生态将面临系统性公平问题。工程师可借鉴此研究设计「反游戏检测工具」,识别迭代式LLM辅助修改的模式;产品负责人可探索让多个不同模型交叉评审以增强鲁棒性。 原文:https://arxiv.org/abs/2605.28897
The internet is being rebuilt for machines
TechCrunch AI 的业界分享,已提炼为实战手册候选
AWS、Cloudflare 等主要云服务商正在重新设计基础设施,以应对 AI Agent 主导的机器流量时代,取代过去以人类用户为核心的设计模式。 创意点:这一基础设施转向直接影响 AI 产品开发者如何设计 API、认证和限流机制——可以借鉴 Cloudflare Workers AI 的边缘推理模式,为 Agent 工作流设计具备自动扩缩容和智能路由能力的中间件层。 原文:https://techcrunch.com/2026/05/28/the-internet-is-being-rebuilt-for-machines/
Asana acquires no-code agent-builder StackAI
TechCrunch AI 的业界分享,已提炼为实战手册候选
Asana 收购无代码 AI Agent 构建平台 StackAI,将把 StackAI 整合到其 AI 工作流工具套件中。 创意点:Asana 正在将无代码 Agent 构建能力纳入其工作流平台,企业用户无需编程即可搭建 AI Agent 工作流产品负责人可参考此模式,在现有产品中集成低代码/无代码 Agent 构建能力。 原文:https://techcrunch.com/2026/05/28/asana-acquires-no-code-agent-builder-stack-ai/
Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture
arxiv cs.AI 的业界分享,已提炼为实战手册候选
研究者提出一种模块化 LLM 架构,可从文本中检测人类价值观及其强度,核心是将价值观概念化与检测任务分离,提升可复现性。 创意点:构建 AI 决策系统时,价值观对齐是关键难题。该架构的模块化设计允许灵活适配不同价值理论,工程师可借鉴此思路,为合规审查、舆情分析或对话系统等场景定制价值观检测流水线。 原文:https://arxiv.org/abs/2605.27373
Why LLMs Fail at Causal Discovery and How Interventional Agents Escape
arxiv cs.AI 的业界分享,已提炼为实战手册候选
研究证明 LLMs 通过监督微调、DPO 和上下文学习都无法可靠进行因果发现,因为这些方法产生的预测器无法区分生成相似观测数据的不同因果图。提出 A-CBO 架构,用冻结 LLM 作为干预预言机,配合外部贝叶斯搜索环,在对数轮次内收敛。 创意点:如果你的产品需要因果推理(如归因分析、干预效果预估),不要迷信微调能达到因果能力。更好的架构是用 LLM 作为受限的查询接口,外层用传统贝叶斯优化做结构搜索——这比任何端到端训练都更高效且有理论保证。 原文:https://arxiv.org/abs/2605.27567
OralAgent: Integrating Reasoning, Tools, and Knowledge for Interactive Dental Image Analysis
arxiv cs.CL 的业界分享,已提炼为实战手册候选
OralAgent 是首个牙科专用 AI Agent,集成了多模态推理、工具调用和知识检索,支持22个视觉分析工具和368本牙科教材,实现端到端自动化临床工作流。 创意点:牙科 AI 模型长期困于单任务单模态的孤立设计,OralAgent 证明了 Agent 架构可将多工具、RAG 和领域知识统一整合到真实临床流程中,这套「多工具编排+垂直领域语料 RAG」的范式可直接迁移到医学影像诊断、影像科 AI Agent 等垂直场景的产品设计。 原文:https://arxiv.org/abs/2605.27378
Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
arxiv cs.AI 的业界分享,已提炼为实战手册候选
POLAR框架通过多模态知识图组织语义记忆和情景记忆,让具身AI代理能从长期交互中积累个性化上下文,提升复杂任务的执行能力。 创意点:多跳推理和跨交互追踪能力说明记忆架构设计直接影响代理的实用价值,工程师可以借鉴这种语义+情景双记忆层的设计模式来构建更可靠的长期陪伴型AI产品。 原文:https://arxiv.org/abs/2605.26256
The Daily Dose: Workflow-Integrated Large Language Model Automation for Clinical Summarization and Trial Identification in Radiation Oncology
arxiv cs.CL 的业界分享,已提炼为实战手册候选
MD Anderson 部署了基于 RadOnc-GPT 的临床摘要工具 The Daily Dose,55 名放疗科医生中 83.6% 每日使用,平均满意度 3.89/5,27% 估计每天节省 ≥10 分钟。 创意点:这是少有的 LLM 临床落地真实评估(非概念演示),其「邮件推送 + 个性化摘要 + 试验匹配」三合一工作流可直接借鉴到其他专科 AI 助手设计。 原文:https://arxiv.org/abs/2605.26346
AirCast-SR: A Foundation Model for Kilometer-Scale Atmospheric Super-Resolution via Latent Consistency Diffusion
arxiv cs.LG 的业界分享,已提炼为实战手册候选
AirCast-SR 是一款大气超分辨率基础模型,能将28km分辨率的AI天气预报实时降尺度至1km,同时保持细尺度大气结构,并实现印度、德国的零样本迁移。 创意点:对能源调度、农业预测等需要精细气象数据的场景,可直接利用开源权重在本地部署降尺度服务,无需重新训练;工程团队可借鉴其patch-based训练策略降低成本。 原文:https://arxiv.org/abs/2605.26130
Parameter Efficient Multi-Class Intelligent Scheduling for Multimodal Online Distributed Industrial Anomaly Detection
arxiv cs.LG 的业界分享,已提炼为实战手册候选
提出MODIAD框架解决分布式边缘设备上的多模态工业异常检测问题,设计SMG算法协调多类模型更新,并用REC-LoRA策略降低通信开销。 创意点:工业缺陷检测场景正从云端集中式向边缘分布式演进,本文将LoRA微调与多类调度结合,为工厂质检场景提供了端侧协同训练方案:利用SMG算法决定哪些缺陷类别优先更新模型,REC-LoRA将梯度压缩降低70%以上通信量。 原文:https://arxiv.org/abs/2605.23984
In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models
arxiv cs.AI 的业界分享,已提炼为实战手册候选
研究者用 VLMs 复现了 Picbreeder(人类通过交互进化生成图像的实验),发现 VLM 输出的多样性和探索性与人类存在明显差距,并实验了加噪、行为多样性和记忆机制对改善效果的影响。 创意点:开放性(open-endedness)是 AI 能否真正自主创新的核心问题,此研究用可量化的实验证明了当前 VLMs 在无引导探索上的局限性;工程上可以借鉴其加入探索噪声和行为多样性来设计更有创意空间的 agent 系统。 原文:https://arxiv.org/abs/2605.23908
Context: Proactive Goal-Directed Intelligence via Composable Sandboxed Programs, Declarative Wiring, and Structured Interaction
arxiv cs.AI 的业界分享,已提炼为实战手册候选
Qbix 团队在 arXiv 发表 Context 架构,用写时上下文组装实现几乎 100% KV-cache 复用,配合沙盒可组合程序和主动目标状态机,将传统反应式聊天机器人升级为不依赖用户提示的主动目标导向智能体。 创意点:KV-cache 复用思路(通过确定性上下文使 cache 跨轮次 byte-identical)对推理成本优化有直接价值;主动状态机驱动对话的设计可用于构建自动化工作流 Agent 产品。 原文:https://arxiv.org/abs/2605.23928
Toward Reliable Design of LLM-Enabled Agentic Workflows: Optimizing Latency-Reliability-Cost Tradeoffs
arxiv cs.AI 的业界分享,已提炼为实战手册候选
提出了 LLM 代理工作流的延迟-可靠性-成本三权衡框架,包含parametric指数可靠性模型和水填充式 token 分配策略。 创意点:用shadow price量化各阶段对系统可靠性的边际贡献,工程师可直接借鉴此框架在设计多代理工作流时做出最优的计算资源分配决策,适用于生产级 AI 系统的成本控制。 原文:https://arxiv.org/abs/2605.23929
RMA: an Agentic System for Research-Level Mathematical Problems
arxiv cs.AI 的业界分享,已提炼为实战手册候选
RMA 是一个针对研究级数学问题的多智能体推理框架,在 First Proof 基准测试中解决了 8/10 问题,优于 GPT-5.2R 等基线。 创意点:其 initializer-proposer-verifier 三角色协作 + 共享结构化记忆的架构设计,可为复杂长程推理任务的多智能体系统提供参考,产品层面可借鉴用于构建代码生成或形式化验证的迭代式协作工作流。 原文:https://arxiv.org/abs/2605.22875
Latent Cache Flow: Model-to-Model Communication Without Text
arxiv cs.LG 的业界分享,已提炼为实战手册候选
LCF 通过联合翻译和压缩 KV 缓存实现模型间高效通信,13MB 适配器性能超过 956MB 的 C2C 方案,在不同上下文场景下比纯文本通信快 8.5 倍、准确率提升 23%。 创意点:多 Agent 系统和 LLM 协作场景的通信瓶颈一直是痛点,LCF 用极小适配器解决跨模型 KV 缓存传递难题;工程师可借鉴其「信息差摘要」思路,设计 Agent 间的增量状态同步协议,而非每次全量交换。 原文:https://arxiv.org/abs/2605.22863
Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems
arxiv cs.AI 的业界分享,已提炼为实战手册候选
论文提出用「每成功目标能耗」(EpG)替代传统的「每推理能耗」来衡量AI系统能效,发现Agentic工作流比线性执行高出4.33倍能耗(888.1 J vs 205.3 J),但工具增强型任务的编排开销指数低于1.0x。 创意点:编排结构而非推理本身是能效的主要决定因素;工程师应在AI系统的成本评估和benchmark中纳入编排开销,用A-LEMS框架标准化跨层能耗测量。 原文:https://arxiv.org/abs/2605.22883
TO-Agents: A Multi-Agent AI Pipeline for Preference-Guided Topology Optimization
arxiv cs.AI 的业界分享,已提炼为实战手册候选
TO-Agents 是一个多智能体框架,通过自然语言将设计师的偏好(如审美、可用性、制造约束)自动转化为拓扑优化求解器的参数配置,并经过多轮视觉-语言反馈迭代生成符合意图的设计方案。 创意点:工程设计工具长期依赖工程师手动调参,TO-Agents 验证了多智能体协同(任务规划、视觉评判、历史回溯)可将高层意图转化为可制造原型,为 AI 原生 CAD/CAE 工具提供了端到端 pipeline 范本。工程师可借鉴其「法官 Agent 评分 + 历史反馈」机制,构建需要多轮迭代的参数调优系统(如仿真、热设计、结构优化)。 原文:https://arxiv.org/abs/2605.21622
MindLoom: Composing Thought Modes for Frontier-Level Reasoning Data Synthesis
arxiv cs.AI 的业界分享,已提炼为实战手册候选
MindLoom 通过将复杂推理问题分解为「思维模式」原子链,并使用检索模型匹配问题状态与合适的推理挑战,从而合成高质量推理训练数据,在多个 STEM 和数学基准上超越基线。 创意点:思维模式分解思路可以直接迁移到垂直领域的 SFT 数据工程中,例如先对高难度代码/法律推理链做逆向分解,再用检索增强方式批量生成多样化训练样本,而不只是依赖人工标注或 LLM 蒸馏。 原文:https://arxiv.org/abs/2605.21630
Temporal Contrastive Transformer for Financial Crime Detection: Self-Supervised Sequence Embeddings via Predictive Contrastive Coding
arxiv cs.LG 的业界分享,已提炼为实战手册候选
微软等提出 TCT(Temporal Contrastive Transformer),用自监督对比学习为金融交易序列生成嵌入向量,独立使用可达 AUC 0.8644,但与领域特征工程结合后未见提升(0.9205 vs 0.9245)。 创意点:研究证明自监督对比学习已能自动逼近人工特征工程的效果,说明在欺诈检测场景中减少人工特征依赖是可行的;但当前架构与特征工程存在较大重叠,需要在训练目标或融合策略上寻找突破点——例如将 TCT 嵌入作为冷启动特征注入 pre-training 阶段,或探索跨序列对比(cross-transaction contrast)来捕获超出局部窗口的行为异常。 原文:https://arxiv.org/abs/2605.21490
AgentCo-op: Retrieval-Based Synthesis of Interoperable Multi-Agent Workflows
arxiv cs.AI 的业界分享,已提炼为实战手册候选
AgentCo-op 提出检索式多智能体工作流合成框架,通过类型化工件交接和局部自修复,在基因组学等开放场景中组合现有代理和工具,在 6 个编程/数学/问答基准中 4 项最优且成本更低。 创意点:传统多智能体编排依赖全局拓扑搜索代价高,AgentCo-op 用检索+局部修复替代,适合工程团队将散落的 AI 代理和工具快速编排成可执行工作流,无需从零设计;可直接借鉴其 typed artifact handoff 设计来定义代理间接口。 原文:https://arxiv.org/abs/2605.20425
CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
arxiv cs.CL 的业界分享,已提炼为实战手册候选
CR4T 提出了一种针对青少年的 LLM 安全框架,通过「重写而非拒绝」的策略,将不安全或过于保守的输出转化为符合青少年发展阶段、具备指导性的回复。 创意点:当前主流的拒绝式安全机制对青少年用户会产生过度保护问题,CR4T 的可定制重写策略为教育类、陪伴类 AI 产品提供了新范式——工程师可以参考其「风险检测+领域条件重写」架构,针对不同年龄段未成年用户构建更精细的安全护栏。 原文:https://arxiv.org/abs/2605.21609
Provably Learning Diffusion Models under the Manifold Hypothesis: Collapse and Refine
arxiv cs.LG 的业界分享,已提炼为实战手册候选
研究者证明扩散模型训练通过「坍缩-精炼」机制在低维流形上高效学习,在小噪声时坍缩到数据流形,大噪声时精炼密度,提出替代 VAE 方案 Score-induced Latent Diffusion(SiLD),样本复杂度仅依赖内在维度而非环境维度。 创意点:VAE-based 潜在扩散模型依赖启发式 KL 正则化,SiLD 用单一去噪得分匹配目标同时完成流形学习和密度估计,提供可证明的理论保证,适合分子生成等依赖低维结构的数据场景。 原文:https://arxiv.org/abs/2605.20235
Pseudo-Siamese Network for Planning in Target-Oriented Proactive Dialogues
arxiv cs.CL 的业界分享,已提炼为实战手册候选
提出 FF-BPSN 网络,用双向伪孪生架构做对话路径规划,通过前向优先模块融合双向信息,引导 LLM 生成更有效的目标导向主动对话。 创意点:对话路径规划是 Agent 系统能否「按计划推进任务」的核心能力,该方法将双向规划思想引入规划阶段,兼顾回溯信息与前向目标,值得借鉴用于构建更可控的对话/任务 Agent 规划模块。 原文:https://arxiv.org/abs/2605.20195
Prompt Caching 省钱实测:把月度账单砍 73%
缓存命中率优化的 6 个工程技巧
什么内容该 cache、cache 边界怎么放、热 key 续命策略——附真实账单截图与 ROI 表。
用 LLM 搭 PR 自动审查流水线
GitHub Actions + Claude,给团队加一道高质量门槛
可复制的 workflow.yml + 提示词体系,两周内让团队接受率从 30% 提到 78%。