一、缘起一篇博客和一个朋友的微信写完上一篇 Harness Engineering 之后本来以为这条线告一段落了。结果两件事把我重新拉回来。第一件事是 4 月初 Medium 上的一篇 Postmortem标题挺扎眼《The Agent That Burned $4,200 in 63 Hours》。一个创业团队的 Agent 周末跑同步任务没人盯着循环了 63 小时烧掉 4,200 美元。原因蠢得令人心碎——Agent 调一个外部 API 拿到 429限流它思考完之后决定再试一次然后又被 429 拒绝再决定再试一次。每一轮思考都把上一轮的失败原文喂回上下文里学习每一轮的输入 token 都比上一轮长。从第一小时的 $42到第四小时的 $200到第十二小时的 $1,000最后整个周末烧掉了一个工程师两个月的工资。作者那段总结我一直记着那个周末没了他的过桥融资。这次事故甚至蠢到不算事故——一个最简单的、所有自治系统都会犯的错误。它只是还没轮到所有人罢了。第二件事更近就是我们公司的一个朋友周末发微信跟我吐槽说他们团队 Q1 被裁了三个工程师公司的逻辑是反正都用 AI 写了。结果上个月对账一个高级开发的 Token 账单比他自己的月薪还高。他原话“我现在不知道是该庆幸自己留下了还是应该担心下一个被砍的就是我——因为现在账怎么算都是负的。”把这两件事放在一起看我突然意识到一个问题——上一篇文章里我谈 Harness Engineering 的 Cost Envelope是站在怎么把 Agent 跑稳的工程视角。但还有一个更根本的视角我没碰Token 这个东西到底适不适合作为一种替代人力的成本结构这篇文章想试着把这个问题讲清楚。不打算搞经济学论文就是结合最近读的几个公开案例 我们团队这一年的体感试着回答一个问题什么样的公司不适合把 Token 当作降本增效的手段二、先把账算清楚Token 不是更便宜的人2.1 大家都默认了一个等式但这个等式根本不成立用 AI 替代工程师这套叙事背后藏着一个等式1 个工程师的产出 ≈ 等价 Token 数量 × 模型能力只要 Token 单价持续下降模型能力持续上升这个等式右边迟早会比左边便宜——所以裁人换 AI 是个时间问题。听着很顺但实操根本不是这样。NVIDIA CEO 黄仁勋在 GTC 2026 上有句更刺激的我有一个 50 万美元年薪的工程师如果他没有花掉 25 万美元在 Token 上我会感到深度不安。注意这句话的反向语义——他不是在说Token 便宜所以可以替代人他在说Token 是给你最好的工程师配的弹药让他更猛而不是替代他。一字之差这两个判断的财务含义南辕北辙。很多团队是把第二句读成了第一句然后开始干。2.2 几组刚出炉的真实数据光讲概念太虚把最近几个月看到的几组数字摆上来来源数字上下文Medium Postmortem$4,200 / 63h单个 Agent 卡在 429 重试循环无人值守DEV Community$47,000 / 11d4 个 LangChain Agent 互相 ping-pong无预算上限GitHub Copilot 2026.04 公告Token 消耗同比 340%Agent 自治式工作消耗是预期的8 倍被迫暂停企业版新签Hacker News 调研贴重度 Agent 用户$500–2000/月“10% 的 Claude Code 用户消耗了 90% 的 Token”Morph 报告70%一个 FastAPI 项目 42 次 Agent 跑下来70% 的 Token 是浪费的Anthropic 官方90% 用户$12/天但剩下 10% 把均值拉得很难看数据来源见文末参考资料这几组数据放一起看结论很清楚——Token 成本根本不是一条平稳的曲线它是一条带胖尾巴的指数曲线。90% 的人用得很省10% 的人轻松烧掉一个工程师的工资。问题在于你事前根本不知道你的项目会落在哪一边。2.3 为什么 Token 成本这么不可预测这才是问题的核心。我整理了一下近期几个 Postmortem 的复盘内容跟我们团队自己的体感对比发现 Token 经济学有四条反直觉的特性——理解这四条之前谈用 AI 替代人基本是耍流氓。特性 1上下文累积让单次调用成本是 O(N²)这是最容易被忽视的一点。Agent 每一轮都会把之前的对话历史 工具调用结果原封不动塞回模型。第 5 轮你以为是5 次 API 调用——实际上是5 10 20 40 80这种几何级数。开始时一次调用 5K token跑到第 20 步可能单次就吃 80K。这就是为什么 staging 环境跑得好好的 Agent到生产里成本能暴涨一个量级。特性 2输出 token 比输入 token 贵 3-5 倍Anthropic 的 Sonnet 4.5 输入 $3 / 100 万输出 $15 / 100 万——价差 5 倍。Opus 4.6 也是类似的比例。问题是模型不会自动闭嘴给它越多模糊的上下文它越倾向于边想边说——“让我看一下这个文件…我注意到这里…我觉得应该这样改…”。Morph 那篇文章里有一组对比特别说明问题同一个任务输入精简后总 token 数反而上升了 20%但总成本下降了 58%——因为输出 token 数从 504 降到 189。换句话说你给的输入越准模型的输出越短钱花得越少。特性 3循环是一个最暴利的成本放大器这就是开头那个 $4,200 周末事故的本质。失败一次的成本是 $0.05失败 100 次的成本不是 $5而是接近 $50——因为每次失败的错误信息都会被塞进下一次的上下文里帮助 Agent 学习。开头那个 Postmortem 的作者把它总结得很到位Agent 既不知道自己累计花了多少钱也不知道自己已经在同一个操作上失败了 300 次更不知道下一次大概率还会失败——它每一轮都是从零开始的。特性 4长尾分布Anthropic 自己的数据——90% 的开发者每天花费 $12但剩下 10% 在哪个区间$50? $200? $500? 这个数据他们没公开但 Hacker News 上有人晒出 $15,000/月的账单。FinOps Foundation 2026 的调研更有意思受访的 1,192 家公司里38% 的工程主管已经在为每个开发者付 $101–500/月21% 已经超过 $500/月。而且这个数字预计到 2026 年底会涨到 AI 工具占工程总 OpEx 的20-30%。这四条特性凑在一起得出一个结论Token 不是一种便宜的人力替代品它是一种高方差的、依赖工程基建去驯化的、能反咬主人一口的算力。三、把裁员省下的工资和AI 烧掉的 Token放进同一张图光摆数字还不够得把这事画成一张能看的图。我做了个简化模型帮自己想清楚到底什么情况下裁员换 AI是赚的、什么情况下是亏的理想剧本和实际剧本差的不只是数字——差的是几个隐形假设假设理想剧本实际发生的事Token 成本可预测假设线性实际指数胖尾10% 任务吃掉 90% 预算留下来的工程师能镇住 AI假设是剩下都是高手实际可能被裁的是写 Harness 的那批人产出质量不变假设模型够强实际质量回流rework6 单位产出还包含返工可观测性已就位假设出问题能发现实际告警链路根本没搭事后看账单才知道知识传承还在假设代码在仓库里实际隐性知识跟着裁掉的人一起走了裁员的钱是确定的、立刻到手的Token 的成本是不确定的、滞后到手的。这两个时间差让公司财务上看起来很美但跑两三个月就会反向打脸。四、先说哪些公司适合——这部分很短为了不显得我是在唱衰 AI Coding先说哪些公司确实适合用 Token 替代部分人力。把适合的特征列出来反过来不适合的就清楚了。适合的公司大致有几个共同点业务边界清晰、规则可枚举。比如做 SaaS 的、做模板代码生成的、做数据迁移工具的——任务的输入输出都很结构化Agent 不容易跑偏。已经有成熟的 CI/CD 和工程基建。Stripe 的 Minions 之所以能跑起来前面铺垫了多年的内部 Linter、测试框架、CodeReview 流程。有专门的人在做 Harness Engineering。也就是说虽然砍了写代码的人但养了写规则、写测试、做可观测性的人——团队的总人头数可能没怎么降结构变了。业务对延迟和成本不敏感。比如做 ToB 长合同、营收稳定月度多花 $50K 在 Token 上不会动摇 cash flow。代码资产是长期负债而非长期资产。比如那种内部工具、一次性脚本、营销活动落地页——代码本身没什么长期价值AI 写得糙也无所谓。OpenAI 那个5 个月 100 万行代码、3-7 个工程师的案例5 条全占。Stripe 的 Minions前 4 条全占。他们之所以能跑不是因为模型变强了是因为他们花了多年时间把 Harness 搭出来了。下面要说的就是不具备这些前提的那些公司。五、四类不适合走Token 替代人路线的公司不适合用 Token 替代人力的公司第一类 老系统繁重代码量超过 50 万行跨服务调用频繁Token 一进去就指数膨胀第二类 Harness 没搭没有 Cost Envelope没有 ObservabilityAgent 烧钱完全靠运气第三类 现金流敏感营收波动大经不起单月账单暴增Token 长尾分布无法承担第四类 隐性知识浓合规/安全要求高集体记忆无法文档化AI 不知道为什么不能这样下面逐个说。5.1 第一类老旧系统多、代码上下文巨复杂的公司我们公司的系统就有这个特点——一个十年的电商核心 一堆收购合并进来的微服务几十个数据库、上百张表业务规则散落在 SQL、定时任务、MQ 消费者、配置中心里。这种代码库对 Token 来说是个噩梦。原因前面讲过输入 Token 的准决定了输出 Token 的少。但老系统的准几乎不可能——AI 想理解一个改动的影响范围得读 10 个文件读完发现还得读上游 5 个上游里又有 3 个引用了一段历史悠久的 utility…一次理解上下文的过程能轻松吃掉 50K input token而真正生成的修复代码可能就 50 行。我们做过一个对比测试。同样一个修一个简单的小 Bug任务项目类型平均 Token 消耗平均成本新启动的 Spring Boot Demo约 5K 行~12K tokens~$0.05我们的 calora-ai 模块约 15 万行~85K tokens~$0.40我们的 calora-portal 单体约 80 万行~280K tokens~$1.5080 万行的老单体单次 Bug 修复成本是新项目的 30 倍。而且这还只是普通 Bug。一个跨模块的重构我们试过一次单次任务花了 $40。这种情况下用 AI 替代写老系统的工程师的财务模型根本立不住——你裁的人月薪可能就 1.5-2 万人民币按国内中等水平AI 在他原来负责的代码库里跑两次大改造就把工资烧没了。更糟的是 GitHub Copilot 自己都承认的200K Token 规则——一旦输入超过 200K因为 caching 机制变化成本会接近翻倍。老系统天然就在这条线附近游走。判断标准很简单你的项目代码量超过 50 万行、模块超过 10 个、跨服务调用频繁、技术栈混杂比如混合 Java Python Node——这种公司千万别想着裁掉一半人换 AI先想想怎么把 Harness 搭起来再说。5.2 第二类Harness 还没搭、就先动刀子的公司这是最危险的一类也是开头那个朋友所在公司的情况。我上一篇文章把 Harness Engineering 拆成五个组件——Context Engineering、Architectural Constraints、Verification Loops、Cost Envelope、Observability。坦白说我自己只做到了三个半剩下两个还没搞利索。但有一点很清楚Harness 这五件东西在裁员换 AI之前必须先到位。尤其是 Cost Envelope 和 Observability。为什么因为人力成本是有自然上限的——再贵的工程师也不会突然某个月薪资涨 10 倍。但 Token 成本没有任何天然上限。没有 Cost Envelope 的 AI 团队相当于一个不限额度的信用卡放在一个不知道刷卡会扣钱的人手里。最近那个 $47,000 / 11 天的案例Postmortem 里给出的原因清单太典型了几乎可以照着抄成所有失败团队的体检报告Harness 没搭就裁人换 AI等同于做了一个反向杠杆——你把成本可控但产出有限的工程师换成了产出更高但成本不可控的 AI风险结构变了但你的财务模型和应急预案没变。我观察到一个很扎心的规律——很多公司裁员的对象恰恰是那些原本可能去搭 Harness 的人。资深工程师贵啊先砍。结果留下的初中级工程师虽然便宜但他们既不知道怎么搭 Cost Envelope也不知道 Observability 从哪儿下手。AI 跑飞了之后他们只能等账单出来才发现。判断标准问自己三个问题——我们能在每个 Agent 任务上实时看到 token 消耗吗不是月底看账单是实时我们对单个任务的 token 上限自动熔断了吗不是只告警我们对每个 Agent 的是否处于循环有检测吗不是凭体感三个问题里有一个答没有——你不在用 AI 替代人的赛道上你在给 OpenAI 烧钱的赛道上。5.3 第三类业务波动大、预算敏感的公司这一类容易被忽视。很多人以为用 AI 替代人的核心问题是技术——其实更现实的问题是财务节奏对不上。工资是按月固定支出可预测、可规划、可砍最多月薪 ×N 的赔偿金。但 Token 账单是按消耗计算它有几个特点滞后性你这个月烧了多少下个月才出账单。峰值不可控一次失败的 Agent 任务可能在几小时内吃掉一周的预算。不可逆性钱花出去就没了不像养一个工程师还能慢慢学技能、转岗位。我帮另一个朋友的创业公司算过一次账。他们月营收波动很大从 30 万到 80 万人民币不等。如果按裁掉两个开发月省 4 万的方案看起来很好。但他们 AI 用的是 Claude Sonnet按我估算一个月活跃开发场景下的 Token 消耗P50 大概 $400/月P99 可能到 $3000/月——也就是说最坏的月份 Token 账单约 2 万会吃掉裁员节省额的一半加上一次 Agent 跑飞的事故就直接打平甚至倒贴。而他作为创业公司的 CEO最怕的不是成本高是成本不可预测——因为他的现金流压根经不起一次月度账单暴增。判断标准公司营收是不是季节性波动 30%现金流储备能不能扛住某个月成本突然翻倍财务系统能不能做到按 Agent / 按任务维度的成本归因如果你不是 Stripe、OpenAI、Meta 这种反正预算无限的公司Token 这种波动型成本就不应该作为核心成本结构——它适合作为人力的补充但不适合作为人力的替代。5.4 第四类隐性知识浓、合规/安全要求高的公司这是最容易被低估的一类。工程师的价值远不止写代码——还包括知道为什么这段代码不能这样写哪怕代码上看起来更简洁知道哪些是历史包袱不能动哪怕看起来很丑知道业务方真正想要的是什么哪怕需求文档写的不是这样知道某个看似无害的改动会触发哪些合规审查这些知识有个共同特征——它们不在代码里也不在文档里它们在人的脑子里。我们最近就栽了一个跟头。有一个跟用户隐私相关的接口AI 想做一个看起来很合理的优化——把用户的某个偏好字段从加密存储改成明文理由是查询性能更好。这个改动从 PR 看完美无瑕测试也都过了。如果不是 Code Review 阶段一个老同事看到了拍桌子说这个字段是 GDPR 合规要求必须加密的差点就上了线。这件事让我特别清醒AI 知道如何写代码但不知道为什么不能写。后者高度依赖隐性知识——团队的历史、行业的潜规则、监管的红线、客户曾经的投诉、某次未遂事故的教训。NVIDIA 黄仁勋那套$500K 工程师配 $250K Token的逻辑它默认的前提是——这 $500K 的工程师还在。Token 是给他配的弹药让他能管 100 个 AI Agent。但如果你把他裁了这 $250K 的 Token 落在一个不熟悉业务、没踩过坑的新人手里反而会触发更多的看起来合理但实际是雷的代码。判断标准公司有没有合规要求金融、医疗、政府、出海 GDPR、数据安全法公司核心业务逻辑里有没有老人才知道的潜规则团队有没有形成的集体记忆某次事故、某次客户投诉只要任何一条命中裁员换 AI 就是在做一笔风险极不对等的交易——你省下的是月薪 ¥20-30K可能换来的是一次合规罚款 ¥xxx 万、或者一次业务事故。六、那这些公司就不能用 AI 了吗当然能用只是不要走裁员换 AI那条路。我自己摸索了大半年的体感是——把 AI 的角色定位从替代人改成放大人整个财务模型和组织模型都顺了。维度替代人模式放大人模式人员决策裁员、缩编不裁但提高人均产出标准Token 预算试图与省下的工资对冲视为工程师的工具津贴失败处理出事了责备 AI / 责备工程师出事了改 Harness衡量标准人力成本下降单工程师交付量上升组织风险高隐性知识丢失低人还在NVIDIA 那套50 万年薪 25 万 Token 预算的逻辑在这套框架下就立得住——不是因为 Token 替代了人是因为 Token 让一个人变成了 100 个人。前提是这个人还在。我把它理解成一个挺直观的物理类比Token 不是廉价劳动力Token 是放大器。放大器能把 1W 信号变成 100W但如果输入是噪声输出就是更大的噪声。放大器接什么样的输入信号最划算接资深工程师的信号他们知道要让 AI 干什么、不干什么、怎么验接已经搭好 Harness 的环境约束清晰、验证自动、成本可控、行为可观测接边界清晰的任务模板代码、单元测试、文档生成、数据迁移、低风险重构接错了信号会怎样开头那个 $4,200 的周末就是答案。七、给具体公司的 Checklist如果你是技术负责人正在考虑是不是该裁一些人然后让 AI 接手——下面这个 Checklist 拿去用过不了就先别动5 个先不要1 个可以。这个比例可能会让一些 CTO 不爽——感觉我在唱衰 AI Coding。但我的诚实想法是——这个比例反映了我观察到的现实。真正能跑通AI 替代人模型的公司是少数大多数公司更适合的姿势是AI 放大人。八、四篇连起来再看一次写到这里回头串一下这四篇博客整个故事其实越来越完整了如果说前三篇都在回答如何让 AI 写出可控、可靠的代码——这第四篇试图回答的是更前置的一个问题这家公司是不是真的应该用 AI 替代人工程问题往往是有解的——只要你舍得花时间花钱搭 Harness。但商业问题没有标准答案——它取决于你的现金流、你的代码资产、你的团队结构、你的合规要求。把工程结论直接套到商业决策上是这一波AI 裁员潮踩坑最深的根源。九、写在最后Token 经济学这件事让我想起前几年的两个时刻。第一个时刻是 2018 年前后“上云开始流行。当时很多公司一头扎进去把自建机房全砍了结果两年后发现云账单比物理机人力运维还高又灰头土脸搞混合云。本质上是没算清楚一个问题——云的成本结构是按用量计算不是按节省计算。如果你的业务模式天然不适合按需付费”那它怎么都不会便宜。第二个时刻是 2020 年微服务大潮。很多公司觉得拆了就是先进把单体砍成 50 个微服务然后被服务治理、链路追踪、运维复杂度搞死了——又默默合并回去。本质上还是没算清楚——微服务节省的是研发耦合的成本但增加的是系统复杂度的成本。如果你的团队规模本来就小研发耦合根本不是瓶颈拆了纯亏。现在这一波AI 替代人套路一模一样——只算了 AI 节省的人力没算 Token 增加的成本、没算 Harness 缺失的代价、没算隐性知识丢失的风险。三五年后回头看大概率会有一批公司复盘说我们当初不应该砍那么狠。第三篇文章末尾我引用了 Mitchell Hashimoto 的那句话——“我是个软件手艺人做这行就是因为热爱”。今天再加一句我自己的Token 是好东西但 Token 不是人。把 Token 当人用账早晚要还。赛车这个比喻我前几篇用得有点滥。这篇就不用赛车了换一个——Token 像是给厨房的明火加了个燃气助力器本来一灶能做一桌菜现在能做十桌。但你不能因此就把厨子全裁了让燃气自己烧——那不是降本那是放火。参考资料The Agent That Burned $4,200 in 63 Hours — Sattyam Jain, Medium, 2026.04The $47,000 Agent Loop: Why Token Budget Alerts Aren’t Budget Enforcement — DEV CommunityGitHub Halts New Sign-Ups and Adds Usage Limits Amid Soaring Demand — World Today News, 2026.04The Real Cost of AI Coding in 2026: Pricing, Token Waste, and How to Cut It — MorphThe Real Cost of AI Coding Agents in 2026 — Kumar GaurawAre AI tokens the new signing bonus or just a cost of doing business? — TechCrunch, 2026.03How Token-Based AI Coding Tools Impact Engineering Budgets — Exceeds AI BlogThe Economics of AI-Driven Software Development — Jonathan Fulton, MediumMore tokens, less cost: why optimizing for token count is wrong — Hacker News 讨论Ask HN: How much are you spending on AI coding at work? — Hacker News 讨论How to Stop AI Agent Cost Spirals Before They Start — DEV CommunityState of FinOps 2026 — FinOps Foundation 调研