智能体的尽头是Harness基建！上海交大深度解读Harness

张

张建站

2026/7/17 23:12:56

10分钟阅读

似乎每天都有大模型问世测试榜单不断刷新。但把它们接入真实的业务流中总有意想不到的崩溃与失控。决定智能体落地成败的关键已经从单纯榨取模型内部算力彻底转移到了构建强大的外部认知基础设施上。上海交通大学、中山大学、上海创新研究院、卡内基梅隆大学、OPPO的联合团队深度拆解了智能体技术的核心演进逻辑带你洞悉记忆、技能、协议与运行环境Harness如何将脆弱的概率生成重塑为稳定可靠的工程生产力。认知能力的结构性外移认知科学家Donald A. Norman提出过一个深邃的概念叫做认知制品Cognitive Artifacts。外部工具的出现并没有改变人类原有的生理生理结构它直接改变了任务本身的性质。人类文明的发展史就是一部认知外化的历史。文字将脆弱的生物记忆外化为物质记录计算机器将繁重的算术劳动外化为可编程的指令。大语言模型智能体同样在经历这一不可逆的历史进程。外部环境的介入将困难的回忆任务转化为简单的识别任务将充满随机性的即兴生成转化为结构化组合。正如论文中的总览图所展现的人类认知外化史与LLM智能体外化路径有着惊人的平行映射关系。能力正从隐藏的权重、有限的上下文一路向外迁移到记忆、技能、协议与Harness之中。智能体社区的研究重心经历了一条非常清晰的外移路线。早期阶段知识、推理习惯和世界观全部压缩在模型的数十亿个参数中。这种能力在权重中的模式存在结构性短板工程师极难进行局部事实的针对性更新也无法为特定用户提供低成本的个性化定制。随后焦点转移到了提示词设计和上下文窗口。开发者借助检索增强生成RAG和思维链CoT等技术在运行时动态注入外部文档和指导。上下文窗口是极其有限的稀缺资源随着每一次会话结束所有累积的工作状态都会瞬间归零。现阶段的工程重心已经全面转移到了模型外部的持久化基础设施上。一个智能体在复杂业务中的可靠性取决于外部的记忆库、工具注册表、协议定义、沙盒隔离机制以及审批循环。在这种宏观视角的审视下Harness稳稳占据了架构的中心位置。它像是一个统管一切的基座记忆、技能和协议围绕其有序组织。沙盒、可观测性、评估、审批和子智能体编排等运行时机制负责把这三类独立的外化模块无缝对接到一起形成一个真正可治理的系统。记忆与技能的持久化封装记忆系统本质上解决的是智能体在时间跨度上面临的连续性负担。没有外部记忆的模型每一次API调用都等同于一次严重失忆后的重新启动。为了应对复杂的长周期任务系统需要将状态信息细分为四个清晰的层次。工作上下文是当前任务的实时中间状态包括打开的文件、临时变量、部分完成的计划和执行检查点。它支持智能体在任务被意外中断后能够精准无误地从当前状态恢复。情景经验记录过去实际发生的运行轨迹涵盖决策点、工具调用过程、失败教训和反思日志。这些真实的记录作为具体先例帮助智能体避免在同一个坑里反复跌倒。语义知识超越了单一事件的抽象规则包含领域事实、通用启发式规则、项目规范和稳定的世界知识通常以知识库形式存在。个性化记忆专门记录特定用户或环境的稳定信息涉及用户偏好、使用习惯和反复出现的约束条件。将其独立出来能让智能体跨会话无缝适应用户同时避免敏感数据污染全局的通用任务知识。在工程实现上记忆架构经历了从简单粗暴到精细化管理的演进。单一上下文架构将所有历史记录直接塞入提示词容量扩展性极差模型在背负沉重历史包袱的同时还要消耗大量算力去解决当前步骤。当前工业界最主流的模式是上下文结合检索存储只在提示词中保留近期的工作状态长周期的追踪记录存储在外部数据库并在需要时检索。更为先进的分层记忆与编排架构开始引入操作系统的设计理念区分冷热数据并在不同层级存储之间进行交换同时引入显式的提取、巩固和遗忘机制。最前沿的自适应记忆系统不再依赖固定规则而是根据经验动态调整路由决策例如通过强化学习持续更新检索策略。审视记忆系统时必须高度警惕其隐蔽的故障模式。当外部业务环境已经改变检索出的记忆仍是旧版本时陈旧失效的记忆会向模型提供完全扭曲的当前问题表征。为了节省存储空间而过度抽象的记忆会丢失关键的操作细节导致模型在关键决策点失去抓手。一旦错误的执行记录或冲突的前提条件被写入持久化存储记忆投毒会在未来的检索中持续污染模型的推理基座。记忆系统解决了连续性问题技能系统解决的则是执行稳定性的问题。反复让模型在推理过程中重新发明工作流必然导致关键步骤遗漏或工具使用的随机性。技能并不是一个简单的工具接口它是一种高度可复用的专业知识封装。一个完整的技能包含操作程序、决策启发式规则和规范约束。操作程序是任务的执行骨架负责将复杂工作拆解为具体步骤、依赖关系以及明确的终止条件。决策启发式规则专门处理分支和异常的经验法则当工具报错或观察结果存在噪音时技能内部编码的默认选择能有效降低模型的决策成本。规范约束界定行为边界的安全护栏规定前置的安全检查、过程中的权限阻断以及必须产生的验证证据。技能真正在系统中跑起来需要一套精密的调度流水线。规范化说明像开发文档一样声明技能的功能、适用范围和前置条件。系统依靠注册表和检索机制进行发现与匹配精准筛选最合适的技能模块。为了避免信息过载系统采用渐进式披露的分层加载策略最初只暴露名称和简短描述确认适用后才加载详细执行指南。技能业务逻辑必须进行执行绑定连接到具体的底层工具或文件操作上产生实际影响。高级能力往往通过组合机制由低级技能串行、并行或条件路由拼装而成。优秀的技能系统自身具备强大的生长能力。除了人类工程师直接提供的专家编写内容系统还能从记忆系统存储的大量交互轨迹中提取经验蒸馏将反复验证有效的工作模式固化为新技能。智能体还能在沙盒中自主探索实现环境发现或者将现有的多个技能模块直接打包进行组合生成。交互协议与运行时环境治理智能体在真实世界中不仅需要自我思考更需要与异构工具、人类审核员以及其他智能体协同工作。协议层解决的正是这种跨越边界的协作负担。没有明确的契约模型每一次发起调用都像是在玩极高成本的猜谜游戏。协议将模糊的自然语言推理强制转化为四个维度的确定性契约。调用语法彻底消除格式猜测规定了参数名称、数据类型和返回结构模型只需按图索骥进行填空。生命周期语义专门处理多步协同明确合法的状态流转、交接机制以及任务判定标准。权限与信任边界将商业安全管控落实到代码层面把授权范围、数据流向限制转化为机器可执行的硬性检查。发现元数据支持系统资源的动态探测让智能体主动查询可用资源彻底抛弃了将工具硬编码在提示词中的陈旧做法。当前活跃的协议家族已经形成了清晰的生态分化。智能体-工具协议如Anthropic提出的模型上下文协议MCP提供了一种标准化的方式让智能体跨越异构服务发现并调用工具解耦了特定模型与特定工具的深度绑定。智能体-智能体协议如A2A标准化了多智能体之间的能力发现、任务委派和流传输成为构建大规模多智能体网络的基石。智能体-用户协议专门处理执行状态呈现、UI结构输出以及流式事件渲染让前端交互彻底告别了随意的文本拼接。所有的外化认知模块必须依托一个统管一切的治理层才能发挥威力这就是Harness工程的核心价值所在。Harness不是零散的零件集合它是将认知模块编织成连贯行为的控制中枢。一个成熟可靠的Harness架构必须在六个核心维度上进行精细化设计。智能体循环与控制流构建了感知、检索、规划、行动、观察的时间主轴并实施极其严格的边界控制设置最大步数限制和单步成本上限以防止资源枯竭。沙盒与执行隔离为智能体提供独立的文件系统快照和受限的网络访问这既是保护物理环境的安全防线也是为模型排除噪音干扰的认知边界。人类监督与审批门控在真实业务中不可或缺。系统需要在修改代码或转移资金等高危动作前设置物理拦截点强制等待人类操作员的授权确认。可观测性与结构化反馈是系统自进化的基础Harness结构化地记录每一次模型调用和决策分支满足人类安全审计需求并为模型微调提供高质量数据源泉。配置、权限与策略编码将业务治理规则外化按照用户、项目、组织三个层次叠加权限让同一个底层模型在不同配置下展现出截然不同的行为边界。上下文预算管理像操作系统的内存调度器一样运转动态决定多少Token留给历史总结多少留给接口描述基于当前任务阶段进行实时优先级驱逐。跨模块共生与演进前沿孤立的外化模块无法缔造真正的智能各个模块之间存在着紧密的相互强化与动态共生关系。从记忆到技能的经验蒸馏让海量成功的执行轨迹沉淀为结构化的可复用指导。从技能到记忆的执行记录反哺将每一次技能调用的遭遇写入外部状态赋予系统基于历史事实进行自我纠错的底气。技能中规划的复杂业务逻辑必须接受协议层的严格校验与权限判定才能从协议跃升为对物理世界的真实干预。当系统面临多条交互路径抉择时记忆系统提供的历史成功率和用户偏好数据直接主导了智能体的策略路由选择。随着认知外化逻辑向系统深水区迈进智能体技术正在展现出五个极具颠覆性的前沿演进趋势。向具身智能延伸的步伐正在加快。在机器人前沿领域高参数量语言模型充当大脑负责任务分解和状态维持底层的视觉-语言-动作模型VLA被降维成一个个外部技能模块充当小脑专门处理低延迟的物理抓取和精细位移控制。自进化Harness即将成为现实未来的系统将摆脱人工调优的束缚通过强化学习或程序合成技术根据海量执行日志自动修复调度漏洞、动态调整检索粒度甚至重构整个执行管道。系统复杂度的攀升迫使工程师进行收益与风险的深刻权衡。外部结构越庞大认知开销就越高过度检索极易引发信息淹没庞杂的技能库会让模型在选项海中迷失全局目标。记忆投毒、恶意技能注入和协议伪造等安全威胁正随着攻击面的扩大而变得异常棘手。行业正不可避免地从私有脚手架迈向共享基础设施。当多个智能体开始跨组织协作记忆库、开源技能包和标准化协议将不再是单一系统的私有财产。这种生态级别的学习扩散将催生出远超以往的群体智能同时也抛出了极其复杂的跨平台治理难题。传统的基准测试体系面临彻底重构仅仅衡量模型输出准确率已经毫无意义。行业迫切需要建立全新的评估维度专门测量外化架构的可维护性、上下文周转效率、故障恢复稳健性以及全链路的治理透明度。打造稳定可靠的智能体需要严丝合缝的系统工程。通过将记忆、技能和协议精准外化并在严密的Harness中加以治理约束技术先行者们正在为人工智能夯实一个具备自我进化能力的认知底座。未来的产业博弈不再局限于模型参数层面的军备竞赛更是构建和驾驭这种认知基础设施能力的全面较量。参考资料https://arxiv.org/pdf/2604.08224

人类专家90分碾压AI：新基准让高分大模型集体大跌眼镜

日常使用多模态大模型看视频时，大家常常觉得它似乎什么都懂一点，深究起来又有些答非所问。各大视频理解榜单上高分，真实体验起来又很拉跨，为什么？Video-MME-v2用一套全新的非线性关联计分机制把大模型拉回了现实。2024…...

2026/7/17 23:12:36 阅读更多 →

保研面试别踩坑：我用Notion+飞书文档搭建的自我介绍素材库与动态调整策略

保研面试动态素材库：用Notion打造可组合式自我介绍系统面对不同院校、不同时长的保研面试要求，传统"背稿式"准备方式往往捉襟见肘。我曾用3天时间参加了5所院校的密集面试，每场要求从1分钟英文自述到10分钟PPT展示各不相同。正是这…...

2026/7/11 1:10:33 阅读更多 →

告别硬件！用虚拟串口+VSPD+串口公爵，5分钟搞定CANoe RS232通信测试

零硬件环境下的CANoe RS232通信测试全攻略在汽车电子开发与测试领域，RS232通信协议依然扮演着重要角色。传统测试方法依赖物理串口硬件，不仅成本高，还存在设备兼容性和便携性问题。本文将介绍如何通过纯软件方案，快速搭建完整的R…...

2026/7/11 8:27:48 阅读更多 →

Go 微服务 API 版本管理：URL、Header 和 GraphQL 的演进策略

Go 微服务 API 版本管理：URL、Header 和 GraphQL 的演进策略一、改了 API 格式，App 没升级的用户全部崩溃移动端 App 的升级率是长期问题。API v1 发布半年后，仍有 15% 的用户在用 v1.0.0 版本。如果直接上线 v2 API 并下线 v1。这 15% 的…...

2026/7/16 22:19:51 阅读更多 →

一键解决DLL缺失问题：Visual C++运行库全家桶完整指南

一键解决DLL缺失问题：Visual C运行库全家桶完整指南【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 还在为"应用程序无法启动"、"缺少…...

2026/7/17 2:17:11 阅读更多 →