为什么简单的Agent循环会崩成slop？结构化验证才是解药

张

张建站

2026/7/5 2:14:45

10分钟阅读

在构建前沿机构级投资流程openforage时我们只用Agent就花掉了上万亿token。现在看来循环loops几乎是所有有意义agentic工程的核心。扔更多token能提升解的质量这点已经不是新鲜事。但很多人在实际落地长时运行的Agent会话有时长达一周时却发现天真的循环几乎必然产出大量无用slop——要么严重偏离原始意图要么充斥无法修复的bug。为什么因为在朴素的循环里同时发生了三件事而这三件事会把你的工程拖进深渊。为什么扔更多token有效先把基础说清楚和人类一样Agent第一次输出的结果几乎永远不是最好的。扔更多token能让Agent广度探索更大范围的解空间深度推理更多维度的权衡这能产生真正新颖、分布外out-of-distribution的方案。但前沿模型被训练成“token高效”和“快速响应”这与“多token高质量”直接冲突。于是我们发明了循环——既满足想快速聊天的人又让想解决难题的builder能轻松扔几十亿token。天真的循环为什么必然崩盘1. 错误会指数级 compounding早期Agent犯的错误会像在不稳的地基上建摩天大楼越往上越危险。一个早期做出的糟糕设计决策后续Agent会因为context compaction而“忘记”它只是妥协方案反而把它当作既定事实并在此基础上继续构建整个基础设施。这不是Agent笨而是上下文压缩让它失去了对“这是妥协”的记忆。2. 缺乏有意义的迭代很多聪明人困在自己脑袋里只用廉价的内心模拟和现实对抗结果影响力为零。Agent也一样。让它用相同上下文审查自己的工作几乎只能得到边际改进。人类和Agent都是从给定上下文对应的解分布中抽取方案。没有上下文变化就很难跳出当前解的附近。你有没有过这种经历刚写完/画完/做完一个东西时觉得“这是我目前最好的”几天后回头看却觉得“这是垃圾”那是因为你给了自己新的上下文不同日子、不同心境从而从不同的解分布中重新抽取。朴素循环里的Agent做不到这一点。3. 没有北极星North Star没有明确的验证目标和实现方向Agent会无限漂移。每一次上下文压缩都让它离原始意图更远。最终你得到的可能是一幅印象派小船而你本来要的是能真正航行的船。更好的循环该怎么写要解决以上三个问题我们需要同时实现三件事尽早拦截错误阻止它们 compounding给Agent提供有意义的迭代引入不同上下文明确的优化目标让它真正能hill-climb提供一个清晰的北极星验证Verification恰好同时解决这三件事。核心做法是在实现Agent完成工作后创建一个全新上下文、未被污染的验证Agent让它审查实现Agent的工作。早做在早期就捕获误解和bug防止它们变成后续Agent不再认为是“妥协”的永久设计。常做频繁反馈让实现不断迭代。这既是“扔更多token”的机制也是防止spec drift的北极星。把心态调整为你想要的解在第一百次迭代之后。验证Agent要尽可能频繁介入。验证虽然很贵token消耗大但频率和强度的权衡正是harness优化的核心。验证做得越好、越频繁最终方案质量就越高。什么才算好的验证好的验证必须有有意义的rubric评分标准。你几乎总应该花时间设计清晰的验证维度。例如验证“代码整洁度”时你可能关心代码可扩展性变量命名模块化程度有意义的规范化在每个维度下再进一步拆解出可量化的细粒度字段并定义如何打分、如何聚合成分数。没有rubric验证就会变得极度模糊迭代也会充满噪声。此外至少有一个主要验证维度必须直接绑定到项目规格/问题本身——“这个方案在多大程度上解决了我的原始问题/达成了spec”。这才是真正的北极星。停止条件Stopping Criteria你可以组合使用固定阈值总分超过90分就停改进阈值连续几次改进小于10%就停早停连续N次尝试无改进就停定义“好分数”的同时也自然定义了循环的终止点。规范的Agentic循环Canonical Loop是否想要构建某物设计清晰的验证Rubric设定“好”的阈值/停止条件实现Agent执行验证Agent早且频繁审查新鲜上下文验证通过?结束循环输出最终方案把验证反馈注入实现Agent这就是最基础却极其实用的结构。验证的层级与实践意义验证可以设计得非常强大多层级、不同模型角色、校准机制等足以对抗“agentic slop炮”。但即使只是一个设计良好的基础验证系统也能让你走得很远。在真实构建机构级投资流程的过程中我们深刻体会到循环本身不是魔法结构化的验证才是让循环真正工作的引擎。它把“扔更多token”从赌博变成了可控的、持续收敛的工程过程。实践建议下次你用Agent做任何非 trivial 的任务时先花15-30分钟设计一套rubric至少包含1个直接绑定spec的维度 2-3个质量维度。然后把验证频率调高到“早且频繁”观察最终输出质量和迭代次数的变化。你目前正在构建的Agent工作流里最该加入验证机制的是哪个环节我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

量化模型的隐性代价：从 NVIDIA NIM GLM-5.2 说起

中国大模型社区的开源传统由来已久。从 2022 年 ChatGLM-6B 点燃第一把火，到 ChatGLM-130B、GLM-4 系列的持续迭代，国内开发者一直可以通过完整模型权重在本地构建自己的推理服务。最新发布的 GLM-5.2 —— 一个 753B 参数的 MoE 混合专家模型&#xff0…...

2026/7/5 2:10:37 阅读更多 →

CLion中文乱码终极解决方案

CLion 中文字符乱码的核心原因是源代码文件编码、控制台输出编码、系统区域编码或编译器环境编码不一致。以下是具体原因及对应的解决方案。一、根本原因分析乱码通常由以下环节的编码不匹配导致： 环节常见编码不匹配后果1. 源代码文件UTF-8, GBK编译器按错误…...

2026/7/5 2:10:23 阅读更多 →

2026 零食店连锁收银系统哪家好

开一家零食店，选址和装修往往是最先被关注的环节，但真正决定门店能否长久盈利的，其实是背后那套看不见的收银与管理系统。很多创业者在开业初期为了省钱，随便找套免费软件或者买台普通电脑装个通用收银程序，结果运营几…...

2026/7/5 2:09:14 阅读更多 →

解锁AMD Ryzen处理器深层性能：SMU Debug Tool完全指南

解锁AMD Ryzen处理器深层性能：SMU Debug Tool完全指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gi…...

2026/7/5 0:02:34 阅读更多 →