为什么 Agent 需要自我反思能力？

张

张建站

2026/6/11 2:09:30

10分钟阅读

为什么 Agent 需要自我反思能力关键词人工智能Agent、自我反思、强化学习、元学习、大语言模型、自主学习、环境适应摘要想象一下你养了一只只会按死记硬背学会的指令做事的小猫遇到新的玩具猫抓板放歪、猫粮洒了一点它要么不知所措要么只会用原来的笨办法——比如对着歪的猫抓板原地打滚、对着洒了的猫粮叫一声就跑开。如果这只小猫能像人类小朋友一样发现问题时停下来想一想“刚才的做法哪里不对下次换个方式会不会更好”它会不会变得更聪明、更可爱同样的道理在人工智能AI的世界里只会执行预设指令或简单环境中强化出来的策略的Agent就像那只“笨笨的小猫”——遇到真实世界的复杂多变场景很容易“掉链子”。而拥有自我反思能力的Agent就像进化出了“会思考的小脑瓜”的小猫甚至是能解决复杂数学题的小学生它能在执行任务的过程中、或者执行完任务后停下来检查自己的行为、反思自己的决策、调整自己的策略、甚至重新定义自己的目标。本文将像搭积木一样一步一步带你探索什么是具有自我反思能力的Agent它的核心概念有哪些为什么简单的Agent不够用必须要有自我反思自我反思能力的数学模型和算法原理是什么大语言模型LLM时代下自我反思能力又有了哪些新玩法最后我们还会动手写一个简单的Python代码实现一个拥有“初级自我反思小脑瓜”的Agent背景介绍目的和范围目的本文的核心目的是彻底搞懂“自我反思能力”对人工智能Agent的核心价值打破“Agent只要能跑通任务就行”的误区让读者无论是AI小白、还是有一定基础的程序员、或者是想研究AI的学生都能明白自我反思能力是Agent从“工具级”走向“通用级”甚至“自主级”的关键跳板。同时本文还会用小学生能听懂的生活例子解释清楚自我反思Agent的所有核心概念梳理出自我反思能力的发展历史脉络讲解自我反思能力的核心数学模型比如元强化学习、贝叶斯自我评估等用Python 大语言模型可选比如调用本地的Ollama或在线的OpenAI API精简版写一个完整的、可运行的初级自我反思Agent分析自我反思能力的实际应用场景、未来发展趋势和面临的挑战。范围为了让文章既专业又易懂本文会聚焦在“通用AI方向的自主Agent”的自我反思能力不会深入讨论工业控制领域那种“只能在极其固定场景下做简单自检的Agent”比如工厂里的机械臂自检是否卡顿这种更偏向“故障检测”不属于本文说的“主动式、有思考性的自我反思”。另外本文涉及的数学模型会尽量用生活例子类比只保留最核心的公式骨架不会让数学不好的读者感到头疼涉及的代码会写得非常详细每一行都有注释甚至会简化到大语言模型API的调用只用最简单的参数方便大家动手复制运行。预期读者本文的预期读者非常广泛主要包括AI小白/爱好者对人工智能感兴趣但可能连“Agent是什么”都不太清楚的朋友——没关系我们会从最基础的概念讲起程序员/软件工程师想了解如何用代码实现一个具有自我反思能力的简单Agent或者想把自我反思能力应用到自己的项目中比如聊天机器人、任务调度系统等的朋友AI专业的学生/研究者想梳理自我反思能力的发展脉络、数学模型和核心算法或者想找一些初级研究方向的朋友产品经理/创业者想了解自我反思能力能给AI产品带来什么新功能、新价值的朋友。文档结构概述本文的结构就像搭一个“自我反思Agent”的积木房子地基先讲清楚什么是Agent什么是“没有自我反思的笨Agent”引出“为什么笨Agent不够用”的问题对应章节2主体框架详细讲解自我反思Agent的核心概念、核心概念之间的关系、数学模型和算法原理对应章节3、4、5内部装饰和功能实现用Python 大语言模型写一个完整的初级自我反思Agent包括开发环境搭建、系统功能设计、系统架构设计、系统接口设计、核心代码实现和最佳实践对应章节6、7房子的用途和未来规划讲自我反思Agent的实际应用场景、未来发展趋势和面临的挑战对应章节8、9收尾和互动总结全文提出一些思考题列出常见问题与解答和扩展阅读资料对应章节10、11、12、13。术语表为了让大家能看懂后面的内容我们先把一些最核心的术语列出来用通俗易懂的语言解释清楚后面遇到复杂术语时也会随时补充解释。核心术语定义Agent智能体小学生能懂的解释Agent就像一个虚拟的小助手/小宠物/小机器人它生活在一个“虚拟世界”或者真实世界的数字投影里有自己的“眼睛”感知环境的能力、“手和脚”执行动作的能力、“简单的脑子”做出决策的能力它的目标是完成主人给它的任务或者自己设定的任务。专业定义Agent是一个能够自主感知环境、自主做出决策、自主执行动作、并能根据环境反馈调整自身行为以达成目标的计算实体。自我反思能力Self-Reflection小学生能懂的解释自我反思能力就像小助手/小宠物/小机器人的“第二大脑”或者“镜子”——它能在做事的时候或者做完事之后“照照镜子”看看自己刚才的行为好不好“问问第二大脑”刚才的决策对不对然后根据“镜子里的样子”和“第二大脑的建议”调整自己接下来的行为、甚至重新制定做事的计划、或者重新思考主人给的任务到底对不对。专业定义自我反思能力是Agent的一种元认知能力Meta-Cognition它是指Agent能够对自身的认知过程、决策过程、执行过程和最终结果进行主动的、结构化的、有目的的评估、分析和调整的能力。元认知Meta-Cognition小学生能懂的解释元认知就像**“对思考的思考”——比如你做数学题的时候不是直接埋头做题而是先停下来想一想“这道题属于什么类型我之前有没有做过类似的题我应该用什么方法来做”做的过程中还要想一想“我刚才的步骤有没有错要不要换一种方法试试”做完之后还要想一想“这道题我做对了吗有没有更简单的方法”——这些“对自己思考过程的思考”就是元认知。专业定义元认知是指个体对自身认知活动的自我意识、自我监控和自我调节**的能力它包括元认知知识知道自己有什么能力、知道什么方法有用、元认知体验做事情时的感受比如“我觉得这道题有点难”和元认知监控对认知过程的控制比如“换一种方法试试”三个部分。强化学习Reinforcement Learning, RL小学生能懂的解释强化学习就像训练小狗——小狗做对了动作比如坐下、握手你就给它一块零食奖励小狗做错了动作比如随地大小便你就轻轻拍它一下惩罚。经过多次训练小狗就会记住“做什么动作能得到零食做什么动作会被拍”以后就会尽量做能得到零食的动作。强化学习里的Agent就像这只小狗虚拟世界就像你家奖励和惩罚就像零食和拍一下。专业定义强化学习是一种机器学习方法它让Agent在与环境的交互中通过试错Trial and Error的方式学习最优策略Policy——策略是指Agent根据当前环境状态State选择动作Action的规则Agent每执行一个动作环境就会给它一个奖励信号Reward并转移到下一个状态Agent的目标是最大化长期累积奖励Cumulative Reward。元强化学习Meta-Reinforcement Learning, Meta-RL小学生能懂的解释元强化学习就像训练一只“会学习新技能的小狗”——你先教它很多不同的技能比如坐下、握手、打滚、捡球而且每次教新技能的时候你都故意只给它很少的零食很少的试错机会。经过多次这样的训练这只小狗就会学会“如何快速学会新技能”——以后你再教它一个全新的技能比如装死它只需要试一两次就能学会元强化学习里的Agent就像这只“会学习的小狗”它学习的不是某一个具体的技能而是“学习技能的方法”。专业定义元强化学习是强化学习的一个子领域它的目标是让Agent学会“如何学习”Learn to Learn——也就是说Agent不是在单个任务上学习最优策略而是在一系列相关任务任务分布Task Distribution上学习一个“元策略”Meta-Policy元策略可以让Agent在遇到一个全新的、从未见过的任务来自同一个任务分布时只需要通过很少的交互Few-Shot Learning就能快速学习到该任务的最优策略。大语言模型Large Language Model, LLM小学生能懂的解释大语言模型就像一个读过全世界所有书、看过全世界所有文章、听过全世界所有对话的超级学霸——你问它任何问题只要是用文字或语音问的语音最后也会转成文字它都能根据自己读过的所有东西给你一个听起来很有道理的答案而且你还可以让它帮你写作文、写代码、讲故事、翻译等等它几乎无所不能专业定义大语言模型是一种基于Transformer架构的、参数规模非常大通常从数十亿到数万亿不等的预训练语言模型——它通过在海量的文本数据比如维基百科、书籍、新闻、社交媒体帖子、代码仓库等上进行自监督学习Self-Supervised Learning学习到了语言的语法、语义、逻辑、常识和各种专业知识它可以通过“提示词工程Prompt Engineering”或“微调Fine-Tuning”的方式完成各种不同的自然语言处理NLP任务和跨模态任务比如图文生成、文生视频等。相关概念解释环境Environment小学生能懂的解释环境就是Agent生活的“地方”——比如小狗生活的你家或者虚拟小助手生活的“手机APP界面”或者自动驾驶汽车生活的“真实的道路”。专业定义环境是Agent之外的所有事物的总和它可以是真实的比如道路、工厂也可以是虚拟的比如电子游戏、仿真平台环境有自己的状态StateAgent可以感知到部分或全部状态Agent执行动作Action后环境会根据自己的“规则”Transition Function转移到下一个状态并给Agent一个奖励信号Reward。状态State小学生能懂的解释状态就是环境“当前的样子”——比如你家的状态可能是“客厅的灯亮着电视开着小狗在沙发上睡觉猫粮碗里有半碗粮”虚拟小助手帮你订外卖时的环境状态可能是“你打开了美团APP搜索了‘麻辣烫’页面显示了10家麻辣烫店”。专业定义状态是对环境当前所有相关信息的完整描述不过在实际应用中Agent通常只能感知到部分状态这时候我们把Agent能感知到的部分状态称为“观测Observation”状态可以用向量、矩阵、图像、文本等不同的形式表示。动作Action小学生能懂的解释动作就是Agent能做的“事情”——比如小狗能做的动作有“坐下、握手、打滚、捡球、叫一声、跑开”虚拟小助手帮你订外卖时能做的动作有“点击第一家麻辣烫店、点击第二家麻辣烫店、点击‘筛选’按钮、点击‘下单’按钮”。专业定义动作是Agent可以作用于环境的操作动作空间Action Space是Agent所有可能动作的集合动作可以是离散的比如点击不同的按钮也可以是连续的比如自动驾驶汽车的方向盘转角、油门大小。奖励Reward小学生能懂的解释奖励就是环境给Agent的“反馈”——比如小狗做对了动作你给它的零食就是“正奖励”小狗做错了动作你轻轻拍它一下就是“负奖励”或者叫“惩罚”虚拟小助手帮你订到了满意的麻辣烫环境给它的正奖励可能是“100分”订到了难吃的麻辣烫负奖励可能是“-50分”什么都没订到奖励可能是“0分”。专业定义奖励是环境给Agent的标量反馈信号它用来衡量Agent执行动作后的“好坏程度”奖励函数Reward Function是从“当前状态、Agent执行的动作、下一个状态”到“奖励值”的映射Agent的目标是最大化长期累积奖励通常是折扣累积奖励Discounted Cumulative Reward因为未来的奖励不如现在的奖励重要。策略Policy小学生能懂的解释策略就是Agent的“做事规则”——比如小狗的策略可能是“如果主人说‘坐下’我就坐下如果主人手里拿着零食我就盯着零食看如果我随地大小便主人就会拍我所以我尽量不在家里随地大小便”虚拟小助手帮你订外卖时的策略可能是“先看评分最高的麻辣烫店再看销量最高的再看距离最近的然后点击综合排名第一的那家店”。专业定义策略是Agent根据当前状态或观测选择动作的规则策略可以是确定性的Deterministic Policy给定一个状态Agent只会选择一个固定的动作也可以是随机性的Stochastic Policy给定一个状态Agent会按照一定的概率分布选择不同的动作策略通常用π表示确定性策略表示为aπ(s)随机性策略表示为π(a|s)P(Aa|Ss)。缩略词列表缩略词全称中文翻译AIArtificial Intelligence人工智能Agent——智能体RLReinforcement Learning强化学习Meta-RLMeta-Reinforcement Learning元强化学习LLMLarge Language Model大语言模型NLPNatural Language Processing自然语言处理Transformer——Transformer架构一种深度学习架构Prompt——提示词用来引导大语言模型生成内容的输入文本Fine-Tuning——微调在预训练模型的基础上用少量特定领域的数据继续训练以适应特定任务Few-Shot Learning——少样本学习只用很少的样本就能学习到新任务的能力State——状态Observation——观测Agent能感知到的部分状态Action——动作Reward——奖励Policy——策略问题背景没有自我反思的“笨Agent”到底哪里不好故事引入三只小猫的故事为了让大家更直观地理解“没有自我反思的笨Agent”的问题我们先来讲一个三只小猫抓老鼠的故事——这三只小猫分别代表了三种不同类型的Agent其中前两种是“没有自我反思的笨Agent”第三种是“有自我反思的聪明Agent”。第一只小猫只会死记硬背的“记记猫”记记猫的主人是一个非常勤劳的人他每天都会把家里的布局固定下来——老鼠洞固定在厨房的墙角老鼠夹固定在老鼠洞旁边的桌子腿上猫粮碗固定在客厅的沙发旁边猫抓板固定在阳台的窗户下面。主人每天都会教记记猫抓老鼠“记记啊每天晚上10点你就蹲在厨房老鼠洞旁边的桌子腿后面——记住一定是桌子腿后面哦不能让老鼠看到你等老鼠从洞里出来你就立刻扑过去把它抓住”记记猫非常听话它把主人的话一字不差地记在了脑子里——就像我们背课文一样背得滚瓜烂熟。接下来的一个星期每天晚上10点记记猫都会准时蹲在厨房老鼠洞旁边的桌子腿后面等老鼠出来——结果呢它每天都能抓住一只老鼠主人非常高兴每天都给它买最好的猫粮和最漂亮的猫抓板。可是好景不长有一天主人的朋友来家里做客朋友不小心把桌子腿碰歪了——桌子腿不再在老鼠洞旁边了而是移到了离老鼠洞有两米远的地方。当天晚上10点记记猫还是像往常一样准时蹲在了原来的桌子腿位置后面——可是那里现在什么都没有了只有空荡荡的地板老鼠从洞里出来看到记记猫蹲在空荡荡的地板上忍不住“吱吱吱”地笑了起来然后大摇大摆地走到客厅的沙发旁边偷吃了记记猫的猫粮记记猫呢它完全不知道该怎么办——它脑子里只记住了“每天晚上10点蹲在原来的桌子腿后面等老鼠出来”现在桌子腿移走了它的“死记硬背的规则”不管用了它只能蹲在原地“喵喵喵”地叫个不停直到主人起床发现了这件事。第二只小猫只会简单试错的“试试猫”试试猫的主人和记记猫的主人不一样——他不喜欢教小猫死记硬背他喜欢让小猫自己试错。主人给试试猫布置了一个“抓老鼠训练场”——训练场里有很多不同的位置可以蹲有很多不同的时间可以等老鼠出来主人给试试猫定了一个“奖励规则”如果试试猫抓住了老鼠就给它一块小鱼干正奖励如果试试猫没抓住老鼠就不给它小鱼干零奖励如果试试猫被老鼠夹夹到了就轻轻拍它一下负奖励。试试猫非常聪明或者说非常调皮它开始在训练场里随便试——一会儿蹲在老鼠洞前面一会儿蹲在冰箱上面一会儿在早上8点等老鼠一会儿在晚上12点等老鼠甚至有时候还会去碰老鼠夹经过了整整一个月的试错试试猫终于找到了一个“还算不错的策略”——每天晚上10点左右蹲在老鼠洞旁边的冰箱后面因为冰箱后面能挡住老鼠的视线而且不会碰到老鼠夹等老鼠出来然后立刻扑过去接下来的一个星期试试猫每天都能抓住一只老鼠——主人非常高兴每天也给它买最好的猫粮和最漂亮的猫抓板。可是好景也不长有一天主人觉得训练场里的冰箱太占地方了就把冰箱移到了客厅——冰箱不再在老鼠洞旁边了当天晚上10点左右试试猫还是像往常一样准时蹲在了原来的冰箱位置后面——可是那里现在也什么都没有了老鼠从洞里出来又忍不住“吱吱吱”地笑了起来然后又大摇大摆地走到客厅的沙发旁边偷吃了试试猫的猫粮试试猫呢它也完全不知道该怎么办——它之前花了一个月的时间才找到的“冰箱后面”的策略现在不管用了它只能重新开始试错——一会儿蹲在这里一会儿蹲在那里一会儿在这个时间等一会儿在那个时间等——结果呢它花了整整两个星期才找到一个新的“还算不错的策略”而在这两个星期里老鼠已经偷吃了它好多好多的猫粮第三只小猫会自我反思的“想想猫”想想猫的主人和前两只小猫的主人都不一样——他既不喜欢教小猫死记硬背也不喜欢让小猫随便试错他喜欢教小猫停下来想一想。主人给想想猫布置的“抓老鼠训练场”和试试猫的一样——有很多不同的位置可以蹲有很多不同的时间可以等老鼠出来奖励规则也一样抓住老鼠给小鱼干没抓住不给被老鼠夹夹到轻轻拍一下。不过主人给想想猫加了一个**“睡前反思时间”**——每天晚上睡觉前主人都会问想想猫三个问题“想想啊今天你抓老鼠的结果怎么样有没有抓住有没有被老鼠夹夹到”评估结果“想想啊今天你为什么会得到这个结果你蹲的位置对不对你等的时间对不对你扑过去的时机对不对”分析原因“想想啊明天你打算怎么抓老鼠要不要换一个位置要不要换一个时间要不要换一个扑过去的时机”调整策略想想猫非常聪明它把主人的这三个问题牢牢地记在了脑子里——每天晚上睡觉前它都会认真地回答这三个问题然后把答案也记下来。第一天想想猫随便蹲在了老鼠洞前面结果被老鼠发现了老鼠没出来——它睡前反思的时候回答了三个问题“今天的结果不好没抓住老鼠。”评估结果“为什么没抓住因为我蹲在了老鼠洞前面老鼠一出来就看到我了所以不敢出来。”分析原因“明天我打算换一个位置——蹲在老鼠洞旁边的某个能挡住我身体的地方比如桌子腿后面或者冰箱后面。”调整策略第二天想想猫蹲在了桌子腿后面结果不小心碰了一下桌子腿发出了“咚咚”的声音老鼠又没出来——它睡前反思的时候又回答了三个问题“今天的结果还是不好没抓住老鼠。”评估结果“为什么没抓住因为我碰了一下桌子腿发出了声音老鼠听到声音就不敢出来了。明天我蹲的时候要小心一点不要碰任何东西。”分析原因“明天我还是蹲在桌子腿后面但是要小心一点不要碰桌子腿另外我还要看看老鼠一般什么时候出来——今天我是晚上9点等的明天我试试晚上10点。”调整策略第三天想想猫小心地蹲在了桌子腿后面等的时间是晚上10点——结果呢它刚蹲了5分钟老鼠就从洞里出来了它立刻扑过去一下子就抓住了老鼠主人非常高兴给了它两块小鱼干想想猫睡前反思的时候又回答了三个问题“今天的结果太好了抓住了一只大老鼠得到了两块小鱼干”评估结果“为什么能抓住因为我蹲的位置对桌子腿后面能挡住身体等的时间对晚上10点老鼠出来觅食的时间而且我很小心没有碰任何东西没有发出声音。”分析原因“明天我还是用这个策略——晚上10点小心地蹲在桌子腿后面等老鼠出来不过我也要注意如果桌子腿或者环境有什么变化我要及时调整策略。”调整策略注意事项接下来的一个星期想想猫每天都能抓住一只老鼠——主人非常高兴每天都给它买最好的猫粮和最漂亮的猫抓板。可是有一天主人的朋友来家里做客不小心把桌子腿碰歪了——移到了离老鼠洞有两米远的地方当天晚上10点想想猫来到了厨房——它没有立刻蹲在原来的桌子腿位置后面而是先观察了一下环境“咦原来的桌子腿怎么移走了现在老鼠洞旁边有没有其他能挡住我身体的地方”它看了看周围发现老鼠洞旁边的橱柜后面可以挡住身体——于是它小心地蹲在了橱柜后面等的时间还是晚上10点。结果呢它刚蹲了3分钟老鼠就从洞里出来了它立刻扑过去又一下子就抓住了老鼠主人非常惊讶“想想啊你怎么这么聪明桌子腿移走了你居然这么快就找到了新的位置”想想猫呢它只是“喵喵喵”地叫了两声然后就去吃它的小鱼干了——因为它知道这都是**“睡前反思时间”** 的功劳问题背景分析从三只小猫的故事看“笨Agent”的局限性刚才的三只小猫的故事其实就是三种不同类型的Agent在真实/虚拟环境中的表现记记猫代表的是基于规则的AgentRule-Based Agent——它的所有行为都是由人类程序员预先写好的规则决定的它只会死记硬背这些规则不会根据环境的变化做任何调整试试猫代表的是传统的强化学习AgentTraditional RL Agent——它没有预先写好的规则而是通过与环境的交互、试错的方式学习最优策略但是它的学习过程非常慢需要大量的交互数据而且一旦环境发生变化它之前学习到的策略就会完全失效需要重新开始学习想想猫代表的是具有自我反思能力的AgentSelf-Reflective Agent——它既可以是基于规则的也可以是基于强化学习的还可以是基于大语言模型的但是它有一个核心的特点它能对自身的认知过程、决策过程、执行过程和最终结果进行主动的、结构化的、有目的的评估、分析和调整。接下来我们就从专业的角度详细分析一下前两种“笨Agent”基于规则的Agent和传统的强化学习Agent的局限性——这些局限性正是为什么Agent需要自我反思能力的核心原因局限性一基于规则的Agent——“死记硬背无法适应变化”基于规则的Agent是最早出现的Agent类型它的核心思想是“用人类的知识和经验预先写好一系列的‘如果-那么’If-Then规则Agent只需要按照这些规则执行动作就行”。比如刚才的记记猫的规则就是If现在的时间是晚上10点Then蹲在厨房老鼠洞旁边的桌子腿后面If看到老鼠从洞里出来Then立刻扑过去。基于规则的Agent有一些优点可控性强Agent的所有行为都是由人类程序员预先写好的规则决定的人类完全知道Agent会做什么不会做什么执行效率高Agent不需要学习只需要根据当前的环境状态匹配对应的规则然后执行动作就行执行速度非常快实现简单对于一些极其固定、极其简单的场景比如自动售货机的Agent——如果用户投了5块钱按下了可乐的按钮那么就弹出一瓶可乐如果用户投的钱不够那么就提示用户再投钱基于规则的Agent实现起来非常简单成本也很低。但是基于规则的Agent的局限性也非常明显甚至可以说是“致命的”——这些局限性在刚才的三只小猫的故事里已经体现得淋漓尽致了无法适应环境的变化这是基于规则的Agent最大的局限性——比如记记猫的规则里只写了“蹲在原来的桌子腿后面”一旦桌子腿移走了它的规则就完全失效了它就会不知所措在真实世界里环境是无时无刻不在变化的——比如自动驾驶汽车的道路上可能会突然出现一个行人、一个障碍物、或者天气突然变了下雨、下雪、大雾比如聊天机器人的用户可能会问一些预先没有想到的问题这些变化基于规则的Agent是完全无法适应的规则的数量会随着场景的复杂度呈指数级增长对于一些极其复杂的场景比如自动驾驶、通用人工智能人类根本不可能预先写好所有的“如果-那么”规则——因为场景的复杂度越高可能出现的环境状态就越多对应的规则数量就会呈指数级增长比如如果环境有10个状态变量每个变量有10种可能的取值那么环境的总状态数就是10^10100亿人类根本不可能写好100亿条规则无法处理“模糊”的问题人类的知识和经验很多都是“模糊的”、“不确定的”——比如“如果天气有点冷那么就多穿一点衣服”这里的“有点冷”和“多穿一点”都是模糊的概念基于规则的Agent很难用“如果-那么”的规则来处理这些模糊的问题无法学习新知识和新技能基于规则的Agent的所有知识和技能都是由人类程序员预先写好的它不会自己学习——如果人类程序员没有写好某个规则那么Agent就永远不会做对应的事情比如如果你教自动售货机的Agent只卖可乐和雪碧那么它就永远不会卖果汁除非人类程序员修改它的规则。局限性二传统的强化学习Agent——“试错太慢容易遗忘无法泛化”为了解决基于规则的Agent的局限性科学家们发明了强化学习Reinforcement Learning, RL——强化学习的核心思想是“让Agent通过与环境的交互、试错的方式学习最优策略不需要人类预先写好规则”。比如刚才的试试猫就是一个传统的强化学习Agent——它没有预先写好的规则而是通过与“抓老鼠训练场”的交互、试错的方式花了整整一个月的时间才学习到一个“还算不错的策略”。传统的强化学习Agent有一些优点不需要人类预先写好规则Agent可以通过自己的试错学习到最优策略可以处理一些复杂的场景比如AlphaGo谷歌DeepMind开发的围棋AI就是一个传统的强化学习Agent它通过与自己下棋、试错的方式学习到了超越人类顶级围棋选手的策略可以处理“模糊”的问题强化学习的奖励函数可以是“模糊的”、“不确定的”Agent可以通过试错找到最大化长期累积奖励的策略。但是传统的强化学习Agent的局限性也非常明显——这些局限性在刚才的三只小猫的故事里也体现得淋漓尽致了学习过程非常慢需要大量的交互数据这是传统的强化学习Agent最大的局限性之一——比如试试猫花了整整一个月的时间才学习到一个“还算不错的策略”在真实世界里很多场景是不允许Agent进行大量试错的——比如自动驾驶汽车如果让它在真实的道路上进行大量试错那会造成很多交通事故比如医疗机器人如果让它在真实的病人身上进行大量试错那会危及病人的生命容易“遗忘”之前学习到的策略灾难性遗忘Catastrophic Forgetting传统的强化学习Agent在学习新任务的时候很容易遗忘之前学习到的旧任务的策略——比如如果你先教试试猫抓老鼠然后再教它捡球那么它可能很快就会忘记怎么抓老鼠了泛化能力差无法将之前学习到的策略应用到新的、类似的场景中传统的强化学习Agent通常只能在训练时使用的固定场景中表现良好一旦场景发生一点点变化比如刚才的试试猫的训练场景里的冰箱移走了它之前学习到的策略就会完全失效需要重新开始学习奖励函数设计非常困难强化学习的核心是奖励函数——奖励函数是用来衡量Agent执行动作后的“好坏程度”的如果奖励函数设计得不好那么Agent可能会学习到一些“奇怪的”、“不符合人类期望的”策略比如如果你教一个机器人“把桌子上的杯子放到抽屉里”奖励函数是“杯子的重心在抽屉里的时间越长奖励越高”那么机器人可能会学会“把杯子的一半放到抽屉里一半放在桌子上然后一直保持这个姿势”——因为这样它的重心在抽屉里的时间最长奖励最高这种现象被称为**“奖励黑客”Reward Hacking**。核心概念与联系什么是具有自我反思能力的Agent故事引入续想想猫的“睡前反思日记本”刚才的三只小猫的故事里想想猫之所以这么聪明是因为它有一个**“睡前反思时间”**——每天晚上睡觉前它都会认真地回答主人的三个问题然后把答案记下来。其实想想猫还有一个**“睡前反思日记本”**——它把每天的反思内容都写在了这个日记本里让我们来看一下想想猫的“睡前反思日记本”里的几页内容吧睡前反思日记本 · 第1页日期202X年X月X日天气晴任务抓老鼠反思时间晚上11点1. 评估结果What happened?今天的结果不好零奖励。具体情况我随便蹲在了老鼠洞前面从晚上8点等到晚上10点老鼠都没有出来。2. 分析原因Why did it happen?为什么会得到这个结果我认真地想了想我蹲的位置不对——老鼠洞前面太明显了老鼠一出来就会看到我所以不敢出来我等的时间不对——晚上8点主人还在客厅看电视声音很大老鼠可能不敢出来我没有碰任何东西也没有发出声音这一点做得还不错。3. 调整策略What will I do differently tomorrow?明天我打算怎么做我也认真地想了想换一个位置——蹲在老鼠洞旁边的某个能挡住我身体的地方比如桌子腿后面或者冰箱后面换一个时间——试试晚上10点因为那时候主人已经睡觉了客厅里很安静继续保持小心不要碰任何东西不要发出声音。4. 记录经验教训Lessons learned今天学到的经验教训抓老鼠的时候一定要躲在老鼠看不到的地方抓老鼠的时候一定要等环境很安静的时候不要随便碰任何东西不要发出声音。睡前反思日记本 · 第3页日期202X年X月X2日天气多云任务抓老鼠反思时间晚上11点1. 评估结果What happened?今天的结果太好了正奖励两块小鱼干具体情况我小心地蹲在了桌子腿后面从晚上9点55分等到晚上10点整刚等了5分钟一只大老鼠就从洞里出来了我立刻扑过去一下子就抓住了它2. 分析原因Why did it happen?为什么会得到这个结果我认真地想了想我蹲的位置对——桌子腿后面能完全挡住我的身体老鼠看不到我我等的时间对——晚上10点主人已经睡觉了客厅里很安静我很小心没有碰任何东西没有发出声音我扑过去的时机对——老鼠刚从洞里出来还没有反应过来我就扑过去了3. 调整策略What will I do differently tomorrow?明天我打算怎么做我也认真地想了想继续使用今天的策略——晚上10点小心地蹲在桌子腿后面等老鼠出来扑过去的时机要准注意观察环境的变化——如果桌子腿或者环境有什么变化我要及时调整策略可以试试提前一点等——比如晚上9点50分就开始等这样可以有更多的时间准备。4. 记录经验教训Lessons learned今天学到的经验教训今天的策略是对的要继续保持扑过去的时机很重要——要等老鼠刚从洞里出来还没有反应过来的时候扑过去要注意观察环境的变化及时调整策略。睡前反思日记本 · 第10页日期202X年X月X9日天气小雨任务抓老鼠反思时间晚上11点1. 评估结果What happened?今天的结果还是太好了正奖励两块小鱼干具体情况今天主人的朋友来家里做客不小心把桌子腿碰歪了——移到了离老鼠洞有两米远的地方我没有立刻蹲在原来的桌子腿位置后面而是先观察了一下环境发现老鼠洞旁边的橱柜后面可以挡住身体——于是我小心地蹲在了橱柜后面从晚上9点55分等到晚上10点整刚等了3分钟一只大老鼠就从洞里出来了我立刻扑过去又一下子就抓住了它2. 分析原因Why did it happen?为什么会得到这个结果我认真地想了想我先观察了环境的变化——发现桌子腿移走了这一点非常重要我根据环境的变化及时调整了策略——把蹲的位置从桌子腿后面换成了橱柜后面其他方面做得都很好——等的时间对很小心没有碰任何东西没有发出声音扑过去的时机对。3. 调整策略What will I do differently tomorrow?明天我打算怎么做我也认真地想了想先观察环境——看看橱柜有没有移走如果没有就继续蹲在橱柜后面如果有就再找一个能挡住身体的地方其他方面继续保持今天的策略可以把“先观察环境的变化”这一点加到我的“核心经验教训”里。4. 记录经验教训Lessons learned今天学到的核心经验教训要牢牢记住抓老鼠的第一步一定是先观察环境的变化要躲在老鼠看不到的地方要等环境很安静的时候不要随便碰任何东西不要发出声音扑过去的时机要准——要等老鼠刚从洞里出来还没有反应过来的时候扑过去如果环境发生了变化要及时调整策略。核心概念解释像给小学生讲故事一样刚才的想想猫的“睡前反思日记本”其实就是具有自我反思能力的Agent的“工作流程记录”接下来我们就结合想想猫的“睡前反思日记本”用小学生能听懂的语言解释清楚具有自我反思能力的Agent的所有核心概念核心概念一自我反思的四个阶段想想猫的四个反思步骤从想想猫的“睡前反思日记本”里我们可以看到想想猫的自我反思过程分为四个阶段——这四个阶段也是所有具有自我反思能力的Agent的核心工作流程让我们用小学生能听懂的语言结合想想猫的例子解释一下这四个阶段阶段一感知与记录Perception Recording小学生能懂的解释感知与记录就像想想猫的“眼睛、耳朵和日记本”——想想猫先用眼睛观察环境比如“桌子腿有没有移走”“老鼠洞旁边有没有能挡住身体的地方”用耳朵听环境的声音比如“主人有没有睡觉客厅里安不安静”然后把观察到的环境信息、自己执行的动作、以及环境给的反馈奖励或惩罚都记在自己的“睡前反思日记本”里。想想猫的例子在第10页的反思里想想猫先用眼睛观察到“桌子腿被碰歪了移到了离老鼠洞有两米远的地方”然后用耳朵听到“主人已经睡觉了客厅里很安静”接着把自己执行的动作“小心地蹲在了橱柜后面”和环境给的反馈“抓住了一只大老鼠得到了两块小鱼干”都记在了日记本里。专业定义感知与记录是指Agent通过自身的传感器比如摄像头、麦克风、加速度计等感知当前的环境状态或观测执行动作后再感知下一个环境状态或观测和环境给的奖励信号然后把所有的这些信息当前状态、动作、下一个状态、奖励都存储在自身的“记忆库”Memory里的过程。阶段二评估与诊断Evaluation Diagnosis小学生能懂的解释评估与诊断就像想想猫的“镜子和医生”——想想猫先用“镜子”照照自己刚才的行为和结果比如“今天有没有抓住老鼠有没有被老鼠夹夹到”给刚才的表现打一个分数比如“太好了100分”“不好0分”然后再像“医生”一样“诊断”一下为什么会得到这个结果比如“为什么没抓住老鼠因为我蹲在了老鼠洞前面老鼠一出来就看到我了”“为什么抓住了老鼠因为我蹲的位置对等的时间对扑过去的时机对”。想想猫的例子在第10页的反思里想想猫先用“镜子”照照自己的结果——“抓住了一只大老鼠得到了两块小鱼干太好了100分”然后再像“医生”一样“诊断”原因——“因为我先观察了环境的变化把蹲的位置从桌子腿后面换成了橱柜后面其他方面做得也很好”。专业定义评估与诊断是指Agent从自身的“记忆库”里提取出相关的历史信息当前状态、动作、下一个状态、奖励然后根据自身的“评估标准”比如“最大化长期累积奖励”“符合人类的期望”等对自身的决策过程、执行过程和最终结果进行评估如果评估结果不好或者虽然好但可以更好再分析导致这个结果的原因是因为感知到的环境信息不对是因为决策的策略不对还是因为执行动作的时候出错了的过程