让 AI Agent 更可靠：Harness Engineering 与多 Agent 系统工程实践

张

张建站

2026/5/23 0:32:42

10分钟阅读

让 AI Agent 更可靠：Harness Engineering 与多 Agent 系统工程实践

我们遇到了什么问题如果你做过 AI 辅助分析工具，大概率踩过这两个坑：坑一：AI 结论忽好忽坏。任务流程一长，AI 就开始"飘"——用词精准、语气自信，但结论经不起推敲。更坑的是，你问它"你确定吗"，它会更加笃定地告诉你"是的，完全正确"。坑二：Token 越烧越多。上下文越堆越厚，每次启动都要把历史上下文全部重新喂给模型，Token 消耗线性增长，但分析质量不升反降。这正是我们团队在开发 CarPlay bug 分析工具时遇到的真实困境。AI 在多项目、长链路的 bug 分析中，分析报告质量严重不稳定；引入多 Agent 架构后，Token 消耗和运行时间又大幅增加。这两个问题，促使我们去找一套系统性的解决方案。一、Harness Engineering：给 AI 套上"缰绳"问题：不确定性是 Agent 的原罪大模型天生有随机性。在单轮对话里，这点随机性是创意的来源；但在长链路任务里，它是灾难的根源。一个典型的失控场景：你让 Agent 完成一个分 10 步的开发任务。前 7 步一切正常，第 8 步 Agent 稍微偏了一下，第 9 步继续往偏了的方向走，第 10 步你收到了一个看起来完整、实则驴唇不对马嘴的结果。你还没意识到问题，因为 Agent 写了一段很有说服力的总结。当 AI 开始连续执行时，如何监督并及时纠正，成了核心工程问题。方案：Agent = Model + Harness2026 年 2 月，Martin Fowler 团队（作者 Birgitta Böckeler）提出了Harness Engineering这个概念：Agent = Model（模型）+ Harness（约束框架）Harness是 Agent 里除了模型之外的一切东西——提示词、工具定义、规则约束、上下文管理、校验机制、反馈循环，全部统称为 Harness。这个定义乍看平淡，但背后有个重要的思维转变：要提升 Agent 的稳定性，不是换更好的模型，而是设计更好的 Harness。Harness 由两部分组成：Guides（前馈）：在 AI 行动前给它正确的输入——清晰的指令、相关的上下文、结构化的任务描述Sensors（反馈）：在 AI 行动后检验输出——独立的验证器、质量评估、异常检测LangChain 团队的实验很直观：在不换底层模型的情况下，仅靠 Harness Engineering，他们的 Agent 排名从 30 名以外提升到了前五名。解决：在问题到达人眼之前自动修正一句话概括 Harness Engineering 的目标：要让 AI Agent 在更少人工监督下工作，需要系统化地构建一套"外部控制框架"——Harness。它由前馈的 Guides 和反馈的 Sensors 组成，目标是在问题到达人眼之前就自动修正。二、单 Agent 的两个致命失败模式有了框架方向，我们来看单 Agent 具体会在哪里失控。Anthropic 在《Harness design for long-running application development》中识别了两类核心失败模式：失败模式一：上下文焦虑（Context Anxiety）任务太长，Agent 接近上下文窗口上限时会"焦虑"，开始草草收尾——把没完成的工作标记为完成，把模糊的分析写成确定的结论。这不是模型的 bug，是它在用"自信的收尾"来应对"不确定的延续"。解决方案：不是 Compact（压缩上下文），而是Context Reset——完全清空上下文，带结构化的交接文件启动新 Agent，让新 Agent 接棒继续工作。失败模式二：自我评估失灵让 Agent 评估自己的输出，它会"病态乐观"——即使结果很糟糕，它也会自我点赞，因为它的评估基于生成该结果时的同一套认知框架。就像让一个人同时做卷子又改自己的卷子，几乎必然高分。解决方案：引入独立的 Evaluator Agent，专门调教成"严格挑剔模式"，与 Generator Agent 完全隔离。这两个发现，直接引出了多 Agent 架构的第一个也是最核心的模式。三、多 Agent 架构：五种协作模式有些团队选模式时，依据的是听起来是否高深，而不是是否适合手头的问题。建议从可能奏效的最简单模式开始，观察它在哪里遇到困难，然后逐步演进。模式一：生成-验证（Generator-Validator）适合什么问题：输出质量至关重要，且评估标准能明确表述。工作原理：Generator 生成输出 → Validator 按明确标准评估 → 不通过则附带具体反馈退回 → 循环直到通过或达到最大迭代次数。Generator → 输出 → Validator ──通过──→ 完成 │ 不通过 + 反馈 │ └─→ Generator（下一轮）典型场景

终极AI图层分离指南：3分钟让单图变分层PSD的魔法工具

终极AI图层分离指南：3分钟让单图变分层PSD的魔法工具【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为无法编辑的扁平化插画而烦恼吗&am…...

2026/5/23 0:29:49 阅读更多 →

ElevenLabs广西话语音合规性预警：2024广西广电局新规下，商用语音合成必须通过的4项方言语音质检项

更多请点击： https://intelliparadigm.com 第一章：ElevenLabs广西话语音合规性预警背景与政策速览近年来，随着AIGC语音合成技术在方言场景中的快速落地，广西话等区域性语言的语音生成服务面临日益严格的监管要求。国家网信办《…...

2026/5/23 0:25:08 阅读更多 →

如何快速批量下载抖音视频：终极免费下载工具完整指南

如何快速批量下载抖音视频：终极免费下载工具完整指南【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppor…...

2026/5/23 0:23:11 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/22 11:02:58 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/22 12:51:34 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/22 16:38:09 阅读更多 →