智能体工程8个层级:从代码补全到自主团队
大家好我是玄姐。PSOpenClaw 火了那么 OpenClaw 在企业如何落地有哪些使用场景具体的实践经验是什么下周二会开场直播详细讲解欢迎点击预约直播见。AI 的编程能力正在超越我们有效运用它的能力。这就是为什么各大模型在 SWE-bench 上的刷分并没有转化为工程领导真正关心的生产力指标。这个鸿沟不会一夜之间消失它需要逐级攀登共 8 个层级。每一层的跃升都会带来产出的质变而且模型能力的每一次提升都会放大这些收益。更值得关注的是多人协作效应你的产出效率很大程度上取决于团队中最慢的那个人。如果你是 Level 7 的高手能在睡梦中让后台 Agent 提交多个 PR但如果你的同事还在 Level 2 手动审查代码你的吞吐量就会被严重拖累。因此提升整个团队的层级符合每个人的利益。一、Level 1 2代码补全与 Agent IDE这是起点。GitHub Copilot 的 Tab 补全曾让经验丰富的开发者通过搭建代码骨架让 AI 填充细节。但对于 Agentic Engineering 的新人来说这个阶段往往被直接跳过。Cursor 等 AI 原生 IDE 改变了游戏规则将聊天与代码库连接让多文件编辑变得简单。但天花板始终是上下文Context。模型只能看到它能看到的东西而往往它要么没看到该看的要么看了太多不该看的。这个阶段的大多数开发者也在尝试各种计划模式Plan Mode将模糊的想法转化为 LLM 的结构化执行步骤。这在早期是合理的控制手段但在更高层级我们对计划模式的依赖会越来越少。二、Level 3上下文工程Context Engineering这是 2025 年的热门词汇。当模型能够可靠地遵循合理数量的指令并配合恰到好处的上下文时上下文工程就变得至关重要。噪声上下文和欠指定上下文同样糟糕。关键在于提高每个 token 的信息密度每个 token 都要为它在提示词中的位置而战。在实践中上下文工程比你想象的涉及面更广系统提示词和规则文件.cursorrules、CLAUDE.md工具描述的方式模型通过描述决定调用哪个工具管理对话历史防止长会话中的失忆决定每轮暴露哪些工具太多选项会压垮模型就像压垮人一样现在上下文工程的说法变少了因为新型模型对噪声更宽容上下文窗口也更大。但在以下场景它依然关键小模型语音应用常用小模型上下文大小直接影响首 token 延迟高 token 消耗的工具Playwright MCP、图像输入会快速消耗 token让你在 Claude Code 中提前进入紧凑会话模式拥有数十个工具的 Agent模型可能花费更多 token 解析工具 schema 而非实际工作核心转变从过滤掉坏上下文转向确保正确的上下文在正确的时间出现。三、Level 4复利工程Compounding Engineering上下文工程优化当前会话复利工程则优化未来的每一个会话。这是由 Kieran Klaassen 推广的概念让很多人意识到氛围编程Vibe Coding不仅能做原型。这是一个计划-委派-评估-固化的循环计划提供足够上下文让 LLM 成功委派让 Agent 执行评估检查结果固化记录经验什么有效、什么出错、下次遵循什么模式固化步骤是关键。LLM 是无状态的如果你昨天刚移除一个依赖除非你明确告诉它否则明天它会重新引入。最常见的固化方式是更新 CLAUDE.md或等效规则文件让经验融入未来会话。但要注意不要把所有内容都塞进规则文件指令过多等于没有指令。更好的做法是创建让 LLM 能自主发现上下文的环境比如维护一个随时更新的 docs/文件夹Level 7 会详述。复利工程的实践者对输入 LLM 的上下文极度敏感。当 LLM 犯错时他们本能地思考缺失的上下文而非质疑模型能力。这种本能是让 Level 5-8 成为可能的基础。四、Level 5MCP 与 SkillsLevel 3-4 解决上下文问题Level 5 解决能力问题。MCPModel Context Protocol和自定义 Skills 让 LLM 能访问数据库、API、CI 流水线、设计系统、Playwright 浏览器测试、Slack 通知等。模型不再只是思考代码库而是能操作代码库。实践案例 作者的团队共享一个 PR 审查 Skill它会根据 PR 性质条件启动子 Agent集成安全检查数据库集成安全性复杂度分析标记冗余或过度工程Prompt 健康检查确保 Prompt 遵循团队标准格式运行 linter 和 Ruff为什么要在审查 Skill 上投入这么多因为当 Agent 开始批量产出 PR 时人工审查成为瓶颈而非质量门禁。Latent Space 的观点是传统的代码审查已死自动化、一致性的 Skill 驱动审查正在取代它。MCP vs CLI 的趋势越来越多团队让 LLM 使用 CLI 工具而非 MCP原因是 token 效率。MCP 服务器每轮都会将完整工具 schema 注入上下文无论是否使用。而 CLI 只将相关输出带入上下文。作者大量使用 agent-browser 而非 Playwright MCP 正是为此。关键提醒Level 3-5 是后续所有层级的基础。如果上下文嘈杂、提示词欠指定、工具描述糟糕Level 6-8 只会放大混乱。五、Level 6Harness 工程与自动化反馈循环这是火箭真正开始发射的地方。上下文工程是策展模型看到什么Harness 工程则是构建让 Agent 无需人工干预就能可靠工作的完整环境、工具和反馈循环。给 Agent 反馈循环而不仅是编辑器。OpenAI 的 Codex 团队将 Chrome DevTools、可观测性工具和浏览器导航接入 Agent 运行时让它能截图、驱动 UI、查询日志、验证修复。给定一个 PromptAgent 能复现 bug、录制视频、实现修复然后验证、开 PR、响应审查、合并只在需要判断时升级。作者团队构建了语音和聊天 Agent 用于技术支持为此开发了 CLI 工具 converse让任何 LLM 能与后端端点进行多轮对话。LLM 修改代码后用 converse 在实时系统上测试对话并迭代。这些自我改进循环有时会持续数小时。核心概念反向压力Backpressure自动反馈机制类型系统、测试、linter、pre-commit hooks让 Agent 能检测和纠正错误无需人工干预。想要自主性就需要反向压力否则会沦为垃圾制造机。安全层面也是如此Vercel CTO 认为 Agent、生成的代码和密钥应处于不同的信任域因为日志文件中的 Prompt 注入可能诱骗 Agent 泄露凭证。安全边界是一种反向压力它限制 Agent 能做什么而非仅限制它应该做什么。两个关键原则为吞吐量设计而非完美如果要求每次提交都完美Agent 会在同一 bug 上反复纠缠。更好的做法是容忍小的非阻塞错误在发布前做最终质量把关。约束 指令步骤式提示先做 A再做 B已过时。定义边界比给清单更有效因为 Agent 会执着于清单而忽略清单外内容。更好的 Prompt 是这是我要的做到通过所有测试为止。六、Level 7后台 AgentBackground Agents争议观点计划模式正在消亡。Claude Code 的创造者 Boris Cherny 今天仍有 80% 的任务从计划模式开始但随着新一代模型的 one-shot 成功率持续提升计划模式作为独立的人机协作步骤将逐渐消失。不是因为计划不重要而是因为模型已能自主做好计划。大前提你必须完成了 Level 3-6 的工作。如果上下文干净、约束明确、工具描述清晰、反馈循环紧密模型无需你审查就能可靠计划。否则你仍需 babysit。后台 Agent 的关键在于如果 Agent 能生成可靠计划并无需你签字就执行它就能异步运行让你去做其他事。这是从我在多标签 juggling到工作在我不知情时发生的关键转变。Ralph 循环一个反复运行编码 CLI 直到完成所有 PRD 条目的自主循环每次迭代都生成带有干净上下文的新实例。但实现好的 Ralph 循环很难PRD 的任何欠指定都会反噬。你可以并行运行多个 Ralph 循环但 Agent 越多你越会发现时间花在协调、排序、检查输出上你不再写代码而成了中层管理者。你需要一个编排器 Agent 来处理调度让你专注于意图而非后勤。Dispatch 工具作者构建的 Claude Code Skill将你的会话变成指挥中心。你在干净的会话中而工作者在隔离上下文中处理重活。调度器负责计划、委派和跟踪保留你的主上下文窗口用于编排。多模型策略最好的工程团队不是由克隆人组成的。同理用不同模型做不同事Opus 实现、Gemini 探索研究、Codex 审查累积输出强于任何单一模型。关键解耦实现者与审查者同一模型实例实现和评估自己的工作是有偏见的会忽略问题并声称所有任务完成。让不同模型或不同 Prompt 的实例做审查信号质量会大幅提升。CI 与 AI 的结合一旦 Agent 能无人值守运行就能从现有基础设施触发。比如文档 Bot 在每次合并后重生成文档并提 PR 更新 CLAUDE.md安全审查 Bot 扫描 PR 并开修复依赖升级 Bot 真正升级包并运行测试而非仅标记。七、Level 8自主 Agent 团队Autonomous Agent Teams尚未有人完全掌握但少数团队正在探索。这是活跃的边疆。Level 7 是编排器 LLM 以 hub-and-spoke 模式调度工作者 LLM。Level 8 移除这个瓶颈Agent 直接相互协调认领任务、分享发现、标记依赖、解决冲突无需通过单一编排器路由一切。Claude Code 的实验性 Agent Teams 功能是早期实现多个实例在共享代码库上并行工作队友在各自上下文窗口中直接相互通信。Anthropic 用 16 个并行 Agent 构建了能从源码编译 Linux 的 C 编译器Cursor 用数百个并发 Agent 运行数周从零构建 Web 浏览器并将自己的代码库从 Solid 迁移到 React。但细看仍有裂缝Cursor 发现没有层级时Agent 变得风险厌恶并在无进展时空转Anthropic 的 Agent 持续破坏现有功能直到加入 CI 流水线防止回归。多 Agent 协调是难题目前无人接近最优解。作者认为模型对大多数任务的这种自主性级别尚未就绪且即使够智能它们仍太慢、太耗 token在经济上不可行除了编译器、浏览器构建等登月项目。对日常工作的 leverageLevel 7 才是当下的甜点。Level 8 终将成为主流模式但现在应该把精力放在 Level 7除非你是 Cursor突破本身就是业务。八、Level ?未来展望一旦你能流畅编排 Agent 团队界面就无需局限于文本。语音对语音甚至思维对思维的交互对话式 Claude Code而不仅是语音转文本输入是自然的下一步。看着你的应用口头描述一系列改动然后看着它们在你眼前发生。有一派人在追逐完美的一次性生成陈述需求AI 一次 pass 完美实现。问题在于这预设了人类确切知道自己要什么我们从来不确切知道。软件始终是迭代的只是会变得更容易、超越纯文本交互、速度更快。九、结语你在哪一级层级关键特征你的检查点1-2Tab 补全/Agent IDE还在手动点击 Tab3上下文工程每个 token 都在战斗吗4复利工程你有CLAUDE.md或规则文件吗5MCP SkillsAgent 能操作数据库/发 Slack 吗6Harness 工程Agent 能自我修复吗7后台 Agent你睡觉时 Agent 在工作吗8自主团队多 Agent 直接对话吗所以你在哪一级你正在做什么来攀登下一级PSOpenClaw 火了那么 OpenClaw 在企业如何落地有哪些使用场景具体的实践经验是什么下周二会开场直播详细讲解欢迎点击预约直播见。好了这就是我今天想分享的内容。如果你对构建企业级 AI 原生应用新架构设计和落地实践感兴趣别忘了点赞、关注噢~—1—加我微信扫码加我有很多不方便公开发公众号的我会直接分享在朋友圈欢迎你扫码加我个人微信来看加星标★不错过每一次更新⬇戳”阅读原文“立即预约