Agent的核心：ReAct循环，让AI不再瞎编，而是真的“干活”

张

张建站

2026/6/2 16:09:58

10分钟阅读

Agent的核心ReAct循环让AI不再瞎编而是真的“干活”如果你用过ChatGPT这类大模型大概率踩过这样的坑问它“查下竞争对手A的定价策略”它甩给你一堆“成本加成法、竞争定价法”的理论问它“API为啥返回500错误”它罗列“数据库连接失败、内存不足”等通用原因却没命中你实际的空指针问题。问题出在哪大模型天生是“一口气说完”的——它不会中途停下来验证、不会主动查新信息更不会修正自己的错误。而解决这个问题的核心就是ReAct循环Reasoning Acting推理行动也是现代Agent的“心脏”。先看个真实对比普通LLM vs ReAct Agent同样是“调查竞争对手定价”两者的表现天差地别普通ChatGPT的回答定价策略通常包括成本加成法、竞争定价法、价值定价法……不同企业会根据自身成本、市场竞争情况选择不同策略。听起来全对但毫无用处——你要的是“竞争对手A卖多少钱、有哪些套餐”不是“定价策略百科”。ReAct Agent的操作流程[第1轮] 思考用户没说具体是哪家竞争对手先确认对象不然查的都是无效信息。行动追问用户“你指的竞争对手是哪几家给名字/官网” 观察用户回复“主要看竞争对手A” [第2轮] 思考有名字了先搜官网定价页优先官方信息。行动调用搜索工具关键词“竞争对手A pricing” 观察找到官网定价页两篇评测文章 [第3轮] 思考读取官网定价页提取准确数字和套餐差异。行动调用网页读取工具访问定价页观察基础版$29/月专业版$99/月企业版需联系销售 [第4轮] 思考整理信息对比自家定价生成分析报告。行动输出带来源链接的分析报告观察任务完成核心差异很明显ReAct不是“一口气蒙答案”而是边想边做、做完再想——把“猜”变成了“查证据可回滚”。它依然可能犯错但你能清楚看到错在哪也能轻松拉回正轨。ReAct的本质为什么这个循环有效大模型有两个天生缺陷而ReAct刚好能补上LLM天生缺陷表现ReAct的解决方式信息过时只能用训练数据里的旧知识行动阶段调用搜索/API获取最新信息无法验证说完就完容易编造细节每一步都有观察记录能追溯、能修正ReAct的核心逻辑其实特别简单普通LLM问题 → 一口气生成答案 ReAct Agent问题 → 想一步 → 做一步 → 看结果 → 再想 → 再做 → … → 答案这个逻辑来自2022年的《ReAct: Synergizing Reasoning and Acting in Language Models》论文核心发现就一句话推理和行动交织进行比单独推理或单独行动都强。只推理不行动比如Chain-of-Thought想得再周全也拿不到新信息只行动不推理比如直接调工具瞎调用工具不知道为什么要调推理行动ReAct想清楚“为什么做”做完看结果再决定下一步。拆解ReAct循环三步走每步都有讲究ReAct的循环就三步Reason思考→ Act行动→ Observe观察每一步都有核心原则错了就容易出问题。1. Reason思考只想“下一步”输入是“用户目标历史观察结果”输出是“下一步要做什么为什么”。关键原则别让LLM想太远它会发散。只让它基于当前信息判断“下一个动作是什么”——想太多反而容易跑偏。2. Act行动一轮只做一个关键动作输入是思考阶段确定的动作输出是执行结果。关键原则前期调试时动作越小越好比如先搜、再读、再整理容易定位问题流程跑顺了再考虑并行调工具提速。常见的行动类型追问用户、网页搜索、读文件、调API、执行代码等。3. Observe观察客观记录不做判断输入是行动的执行结果输出是结构化的观察记录。关键原则只记事实不做主观判断比如“搜索结果没用”——判断留给下一轮的思考阶段避免提前带偏。生产落地让ReAct循环“停得下来”ReAct最关键的问题之一是“什么时候停”停太早任务没完成停太晚Token烧光、成本失控。两类核心终止条件必配硬护栏优先级最高预算耗尽Token/成本上限、超时端到端时延上限、用户主动中断——这些是生产环境的“保命符”必须先配。柔性判断任务完成LLM明确表示搞定、结果收敛连续两次观察没新进展、最大轮数兜底比如10-15轮。举个Shannon框架里的配置例子Go代码核心逻辑一看就懂funcshouldStop(state*ReactState)bool{// 硬护栏用户中断/预算超/超时立刻停ifstate.UserCanceled||state.TokensUsedstate.Config.TokenBudget||time.Since(state.StartTime)state.Config.Timeout{returntrue}// 兜底达到最大轮数ifstate.Iterationstate.Config.MaxIterations{returntrue}// 防偷懒没到最小轮数继续比如至少调1次工具ifstate.Iterationstate.Config.MinIterations{returnfalse}// 柔性判断任务完成/结果收敛returncontainsCompletionSignal(state.LastThought)||isResultConverged(state.Observations)}生产环境必配的3个关键配置MaxIterations防无限循环比如Agent反复搜同一个关键词卡20轮还没结果建议设10-15轮MinIterations防LLM偷懒比如第一轮就编答案没调任何工具建议至少设1轮ObservationWindow控成本只保留最近5条观察记录老记录做摘要压缩避免上下文越长、Token越贵。ReAct落地4个最容易踩的坑附解决办法坑1无限循环症状Agent反复做同一件事比如搜同一个关键词读同一个广告页停不下来。解决加MaxIterations硬限制检测连续两次观察的相似度相似就换策略Prompt里提醒“发现结果重复立刻换方法”。坑2过早放弃症状Agent第一轮就说“完成了”但根本没调工具、没查信息。解决加MinIterations强制调工具Prompt里明确“必须用工具获取信息不能直接回答”。坑3Token爆炸症状几轮下来上下文暴涨费用失控。解决限制ObservationWindow老观察做摘要配BudgetAgentMaxToken上限。坑4思考和行动脱节症状LLM想的是“搜定价”实际却调了“读日志”工具。解决Act阶段的Prompt里明确引用Reason结果“你刚才的思考是{thought}请严格执行对应的行动”。不同框架怎么实现ReActReAct是通用模式不是某款框架专属核心逻辑都一样只是实现细节不同框架实现方式适用场景LangChaincreate_react_agent()快速做原型生态丰富LangGraph状态图节点生产系统可视化调试OpenAIFunction Calling原生支持延迟低AutoGPT自定义循环高度自主但稳定性差选框架的核心原则快速原型用LangChain生产系统优先LangGraph或自建追求低延迟选OpenAI原生Function Calling。最后ReAct不是魔法但足够实用ReAct不是“让AI变正确”的魔法它的核心价值是把大模型的“黑箱回答”变成“可追溯、可修正、有证据”的行动链。记住这5个核心要点就能用好ReActReAct是“推理行动”的交织循环不是一次性生成答案核心三步思考只想下一步→ 行动一轮一个动作→ 观察客观记录解决了LLM“信息过时、无法验证”的核心缺陷终止条件要配“硬护栏预算/超时柔性判断完成/收敛”生产落地必配MaxIterations/MinIterations/ObservationWindow。下一篇我们会聊Agent的“手脚”——工具调用毕竟光有思考的循环没有动手的能力Agent还是干不成事。

3种Unity游戏去马赛克方案：从新手到高手的完整指南

3种Unity游戏去马赛克方案：从新手到高手的完整指南【免费下载链接】UniversalUnityDemosaics A collection of universal demosaic BepInEx plugins for games made in Unity3D engine 项目地址: https://gitcode.com/gh_mirrors/un/UniversalUnityDemosaics …...

2026/6/2 16:02:20 阅读更多 →

别再让LLM胡说八道了！手把手教你用知识图谱（KG）给它“上规矩”

知识图谱如何为大型语言模型装上“事实刹车系统”当ChatGPT告诉我们"拿破仑在2023年发布了新专辑"时，我们既被其流畅的表达所迷惑，又为它一本正经地胡说八道感到无奈。这种被称为"幻觉"的现象，正是当前大语言模型&#x…...

2026/6/2 16:01:05 阅读更多 →

基于树莓派的智能酒盒物联网系统：从传感器到Web控制全栈实践

1. 项目概述与核心思路几年前，我为了给家里的藏酒找个更“聪明”的管家，琢磨着能不能自己动手做一个。市面上那些智能酒柜要么太贵，要么功能死板，没法按我的需求定制。正好手头有块吃灰的树莓派4B，一个念头就冒出来了&…...

2026/6/2 15:59:03 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/2 7:26:22 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/6/2 0:45:14 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/6/1 20:29:35 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/6/2 6:08:03 阅读更多 →