背景当使用 AI agent 时我们都希望 Agent 能够24小时的在后台替我们打工。但是你有没有遇到这些情况AI 乱改你的内容AI 最终的交付没有达到你想要的目标你发现其实 AI 压根儿没有完成这件事的能力但是你的 token 烧了一晚上。AI 一直在跑但是一直看不到实际指标提升。想把 AI 丢后台一整晚自己跑任务以下几点缺一不可目标可达目标必须在当前模型、工具链、数据质量、评估器口径和系统能力范围内。如果瓶颈是模型根本看不懂视频、评估器不稳定、数据本身无效、工具链拿不到必要信息那么继续尝试只是在无意义的消耗 token。先判断“这个问题能不能靠 prompt / 配置 / 流程优化解决”再决定是否进入迭代。目标可量化要有明确验收线例如准确率 ≥ xx%、相比基线最多低 xx pp、token 至少减少 xx%。不能只说“效果好一点”“尽量别变差”。边界不可破坏明确哪些内容绝对不能动例如哪些内容不能改哪些能容可以改但是要符合什么样的规范。防止 AI 为了达成指标把产品关键约束删掉。过程可追踪AI 必须能拿到实验结果、错误分布、badcase、diff、trace。没有反馈链路就只能靠感觉改优化会漂。验证要严格不能靠估计、样例、局部观察下结论。要用同一口径跑实验。给 AI 做优化不是让它无限尝试而是先确认目标可达再用量化目标、硬性边界、可追踪反馈和严格验证把它关进一个有效搜索空间里。