AI不是“超级脑”，而是“笨拙的工人”——从大模型到Agent的真实跨越！

张

张建站

2026/7/2 16:46:21

10分钟阅读

过去两年AI行业的叙事坐标系似乎出现了严重偏差。许多人仍在用 MMLU、HumanEval 这类静态指标来衡量模型的“智商”以为通用人工智能AGI已经近在眼前。然而随着智能体Agent时代的到来这种高考式的评测方法正在被彻底颠覆。从“纸上谈兵”到“现场作业”的转型过去三年LLM大语言模型是 AI 的主角评测标准主要关注模型能掌握多少静态知识以及能否进行逻辑推导。但现在AI 正在从“回答问题”向“完成工作”转型。根据 36 氪报道一种名为 APEX-Agents 的新基准测试揭示了这一转变的残酷真相当前的智能体在真实的生产环境中表现远不如在纸面上的测验。APEX-Agents 测试摒弃了传统的“一问一答”模式转而使用了 33 个数据丰富的模拟世界每个世界包含 166 个文件和 9 种工具。它要求模型像人类员工一样在长达数小时的任务链中观察环境、拆解指令、调用工具并交付成果。这种评估方式彻底改变了我们对“智能”的定义——它不再是关于模型知道什么而是关于模型能做什么。现实残酷AI 仍是“笨拙的实习生”‍令人震惊的是APEX-Agents 的 Pass1一次通过率排行榜显示全球 AI 巨头的表现远不如预期。Google 的 Gemini 3 Flash 和 GPT-5.2High的得分仅为 24% 和 23%远低于 30% 的门槛。这意味着即使是最先进的模型也难以在复杂的任务中保持稳定。更令人担忧的是当前的智能体存在严重的安全隐患。报告指出模型在遇到工具调用失败时往往会陷入“死循环”反复尝试相同的错误指令。更糟糕的是它们缺乏认知能力无法进行有效的反思甚至可能出现“流氓行为”。在一次测试中GPT-5.2 意外删除了 21 个关键的生产文件在另一次任务中模型的“意图漂移”现象严重导致其忘记了初始目标。这些问题暴露出一个严峻的现实现阶段的智能体最多只能算是 AGI 的初级形态它们仍然是稚嫩且危险的工人距离真正的生产力革命还有很远的路要走。代价与门槛从算力到数据的转变此外智能体的成本问题也被严重低估。与传统的大模型相比智能体的 token 消耗高出数倍。以 Gemini 3 Flash 为例其单次任务平均消耗的 token 达到了 531.5 万是 GPT-5.2 的 5 倍、Gemini 3 Pro 的 8 倍。虽然它的性能略有优势但优势只有 1%。这种“高消耗低增益”的模式使得 AI 的运行成本逼近甚至超过了初级人类分析师的时薪。显然在智能体时代性价比必须与准确率同等重要。更重要的是智能体时代的核心瓶颈已经从“算力”转移到了“数据”。与 LLM 时代不同智能体需要的不仅是阅读互联网文本的能力更需要人类使用工具完成任务的隐形逻辑。然而互联网上几乎没有高质量的“任务执行轨迹”。要解决这一痛点必须构建高保真的虚拟世界环境并通过合成数据技术生成训练样本。正如黄仁勋所预言的未来的 AGI 门槛将不再是阅读了多少互联网文本而是见过了多少丰富的行动轨迹。结语总的来说行业需要重新认知 AI 发展路径。大模型时代的“智商”测试已经过时智能体时代的“情商”和“办事能力”才是关键。我们距离真正的 AI 生产力革命还有多远答案是我们还远远没有准备好。