一句话讲清楚Stanford团队发布Meta-Harness让coding agent通过文件系统访问完整历史经验来自动优化LLM系统的harness代码在文本分类、数学推理、TerminalBench-2代码生成三大任务上全面超越手工设计方案。2026年AI领域在悄然转向。从Prompt Engineering到Context Engineering再到如今的Harness Engineering关注点从怎么问转到了怎么搭环境。Stanford AI Lab刚发的Meta-Harness论文踩在了这个节点上。Harness是什么简单来说harness是包裹在LLM外面的那层代码——它决定了存储什么信息、检索什么内容、以及向模型呈现什么上下文。根据论文数据改变同一个LLM的harness可以在同一基准上产生6倍的性能差距。换句话说模型本身的权重可能只决定了一半的表现而另一半取决于harness的设计。然而当前harness的设计仍然高度依赖人工——工程师们反复检查失败案例、调整启发式规则、在少量设计方案间迭代。Meta-Harness的核心问题是这个过程本身能否自动化为什么现有方法不够用在Meta-Harness之前已经有不少工作尝试自动化文本优化比如OPRO、TextGrad、AlphaEvolve、GEPA等。但这些方法与harness优化的场景存在根本性的不匹配。问题出在哪反馈压缩得太厉害。传统的文本优化方法要么只看当前候选方案要么只依赖标量分数要么把反馈压缩成简短的摘要。但在harness优化中一个关于存储什么、“何时检索”、如何呈现的决策可能在很多步推理之后才显现出效果。压缩反馈往往会丢失追溯下游失败原因所需的关键信息。论文Table 1给出了一个直观的对比传统文本优化方法每次迭代的上下文量级在0.002到0.026 MToken之间而Meta-Harness的单次评估可以产生高达10M Token的诊断信息——相差了将近三个数量级。Meta-Harness一个优化Harness的HarnessMeta-Harness的核心思路很简单给proposer完整的历史访问权限让它自己决定检查什么、诊断什么、修改什么。Meta-Harness搜索循环。Agent读取包含所有先前候选方案源代码、执行轨迹和分数的文件系统然后提出新的harness。具体来说Meta-Harness的工作流程分为三步Step 1Agent读取文件系统。每个被评估过的harness都对应一个目录里面存放着源代码、评估分数和执行轨迹包括prompt、工具调用、模型输出、状态更新等。文件系统通常远超proposer的上下文窗口所以proposer需要通过grep、cat等终端工具主动查询而不是一次性全部读入。Step 2Proposer提出新harness。与传统方法不同Meta-Harness的proposer本身就是一个coding agent论文中使用Claude Code Opus-4.6。它可以自己决定检查哪些先前的工件、诊断哪些失败模式、是做局部修改还是全面重写。Step 3评估并记录。新harness通过接口验证后在评估任务上运行所有日志存入文件系统循环继续。这个设计的关键在于Meta-Harness本身就是一个harness这也是名字的由来——它决定了proposer在搜索过程中能看到什么信息。但与传统方法相比它对proposer几乎不加限制让agent自己做诊断和决策。形式化目标harness优化的目标形式化如下其中 是固定的语言模型 是任务分布 是harness 是rollout轨迹 是任务特定的奖励函数。当存在多个目标如准确率和上下文成本时使用Pareto占优来评估候选方案。实验一在线文本分类论文首先在在线文本分类任务上验证Meta-Harness。任务设定是LLM逐个接收带标签的示例更新记忆然后在测试集上评估。数据集选择选择了三个难度高、领域差异大的数据集LawBench根据案件描述预测罪名215类Symptom2Disease根据症状描述预测疾病22类USPTO-50k根据产物分子预测前体反应物180类与手工设计Harness的对比左在文本分类任务上Meta-Harness超越所有先前的手工设计和文本优化方法。右在TerminalBench-2上Meta-Harness在所有Claude Haiku 4.5方案中排名第一。实验结果显示Meta-Harness发现的harness达到48.6%的准确率比当前最优的手工设计方案ACE高出7.7个点比MCE高出8.6个点。更关键的是这些提升不是通过堆上下文换来的Meta-Harness只使用了11.4K上下文token而ACE使用了50.8KMCE使用了28.5K。方案准确率上下文token(K)Zero-Shot27.40Few-Shot (all)40.812.3MCE40.028.5ACE40.950.8Meta-Harness48.611.4与文本优化方法的对比准确率-上下文token的Pareto前沿。Meta-Harness在所有对比方法中取得了更强的Pareto前沿。与Best-of-N、OpenEvolve、TTT-Discover等文本优化方法相比Meta-Harness仅用1/10的评估次数就匹配了对方的最终性能最终准确率则高出10个点以上。泛化能力有人会担心搜索出来的harness会不会过拟合特定的数据集论文在9个完全没碰过的OOD数据集上测了一下Meta-Harness达到73.1%的平均准确率超过ACE的70.2%在9个数据集中的6个上拿了最高分。实验二检索增强的数学推理第二个实验设置更有挑战性用检索增强来解决IMO级别的数学问题。为什么检索对数学推理有用但很难数学问题的求解往往复用可迁移的证明模式因此之前的推理轨迹理论上应该能帮助当前问题。但实践中朴素检索很少能以正确形式找到相关轨迹。成功的关键不在于是否添加检索而在于发现正确的检索策略。实验设定检索语料来自8个开源数据集的50万已解问题经过严格去重和去污染搜索集250道奥林匹克难度的数学问题评估集200道之前未见的IMO级问题来自IMO-AnswerBench、IMO-ProofBench、ArXivMath评估模型5个搜索期间未见的模型GPT-5.4-nano、GPT-5.4-mini、Gemini-3.1-Flash-Lite、Gemini-3-Flash、GPT-OSS-20B实验结果方法GPT-5.4nGPT-5.4mGem-3.1FLGem-3FGPT-20BAvg.无检索23.028.828.642.647.634.1Dense Retrieval (k1)27.124.531.342.346.934.4Dense Retrieval (k5)31.128.337.147.246.738.1BM25 Retrieval30.229.232.846.648.937.5Meta-Harness31.730.434.946.350.638.8Meta-Harness发现的检索策略在5个模型上的平均提升达到4.7个点超越BM25检索1.3个点并且避免了Dense Retrieval和Random Few-shot在某些模型上的性能回退。实验三TerminalBench-2上的Agentic Coding第三个实验是最具挑战性的在TerminalBench-2上评估agentic coding harness。这个基准包含89个需要长时程完全自主执行的复杂任务。实验结果HarnessOpus 4.6 通过率Claude Code58.0%Terminus 262.9%Terminus-KIRA74.7%Meta-Harness76.4%在Claude Opus 4.6上Meta-Harness发现的harness达到76.4%的通过率超越手工设计的Terminus-KIRA74.7%在TerminalBench-2排行榜上位列所有Opus 4.6方案的第二名。在较弱的Claude Haiku 4.5上改进更为显著Meta-Harness达到37.6%超过第二名Goose35.5%2.1个点。消融实验什么才是关键论文进行了一个重要的消融实验对比了不同信息供给条件下的效果信息类型准确率(中位)准确率(最佳)仅分数34.641.3分数摘要34.938.7完整Meta-Harness50.056.7结果表明完整访问执行轨迹是接口中最重要的组成部分。摘要并没有弥补缺失的信号甚至可能因为压缩了诊断性有用的细节而起到反效果。仅看分数的方案中位数准确率34.6加入摘要后反而可能降低到34.9而完整访问执行轨迹后中位数直接跳到50.0。Proposer的定性行为分析论文附录A记录了proposer在搜索过程中的具体行为能帮我们理解Meta-Harness为什么有效。在早期迭代中proposer同时尝试了结构性修复和prompt模板修改但发现两个候选方案都出现了性能回退。然后它主动假设回退是由共享的prompt干预引起的混杂效应将结构性修改从prompt重写中隔离出来最终转向一个更安全的增量修改方案。这个行为模式非常像人类工程师的调试思路读取大量代码和日志形成因果假设隔离变量迭代改进。Meta-Harness的proposer每轮迭代中位数会读取82个文件引用超过20个先前的候选方案。Harness Engineering从Prompt到系统的演进Meta-Harness刚好踩在2026年AI领域的一个转向节点上从Prompt Engineering到Harness Engineering。Prompt Engineering (2022-2024)关注如何精心设计单次指令。核心问题是怎么问。Context Engineering (2025)认识到单次prompt永远不够需要动态构建包含文档、历史、工具定义的上下文窗口。核心问题是给什么信息。Harness Engineering (2026)进一步认识到整个系统的架构——存储、检索、验证、重试、护栏——比任何单个prompt都重要。核心问题是如何构建运行环境。Meta-Harness是Harness Engineering范式下的代表性工作。它不再试图优化单个prompt而是搜索整个harness代码——包括prompt构建、检索策略、状态更新逻辑等所有方面。总结与展望Meta-Harness做了三件事1. 给予proposer对历史经验的完整访问权限。不压缩、不摘要让agent自己通过文件系统工具grep、cat按需读取源代码、分数和执行轨迹。这是与传统文本优化方法的根本区别。2. 将搜索任务委托给coding agent。不是用固定的搜索循环LLM作为算子而是让coding agent自己决定检查什么、诊断什么、修改什么。这让系统能够随着coding agent能力的提升而自动变得更强。3. 在三个不同领域验证了通用性。文本分类、数学推理、代码生成每个领域都展现出显著的提升说明这种方法的普适性。Rich Sutton在《The Bitter Lesson》里说过搜索空间一旦变得可访问更强的通用Agent就能超过手工设计的方案。Meta-Harness就是这个道理在harness优化领域的具体落地。下一步自然的方向是联合优化harness和模型权重——让策略塑造模型的学习内容反之亦然。同时论文也坦诚目前只使用了一个特别强的coding agentClaude Code更广泛的proposer agent对比研究还有待未来工作。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】