欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月29日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录Sarsa的基础认识基础Sarsa结构Sarsa算法的决策Sarsa算法的更新手动计算过程Sarsa的基础认识SARSA属于基于价值的在线无模型强化学习算法。仅通过学习动作价值指导决策无法直接优化动作策略不适用于大范围连续动作场景。它依靠 Q 表存储价值基于当前回合的真实动作进行时序差分更新同样采用 ε- 贪心策略平衡探索与利用依靠折扣因子、学习率更新参数单步交互即可迭代算法训练更保守、稳定性高但探索性偏弱且状态动作空间过大时同样存在 Q 表爆炸问题。基础Sarsa结构Sarsa算法的决策SARSA依据动作价值函数结合ε-贪心策略完成决策。当前处于状态s1存在动作a1、a2查表得到对应Q值通过ε-贪心策略选择当前要执行的动作。执行动作后切换至新状态s2再用ε-贪心策略选出s2状态下的实际动作全程循环采样真实动作、执行交互**的决策流程逐步完成训练。Sarsa算法的更新Q-learning选最大 Q 值贪心最优大胆激进SARSA选实际执行动作ε 贪心随机保守稳定SARSA 基于时序差分完成 Q 值更新。智能体在状态s1按贪心选出动作a1执行后获得奖励r并进入状态s1再用相同策略选出下一动作a2结合两组状态与动作的 Q 值迭代更新Q(s1, a2)持续循环该过程直至训练结束。手动计算过程SARSA 算法的手算过程首先在当前状态s1下查询 Q 表根据动作价值函数得到各动作对应的 Q值例如Q(s1a1−2、Q(s1,a21。随后智能体采用 ε-贪心策略进行动作选择即以较大概率 1−ε 选择当前 Q 值较高的动作以较小概率 ε 进行随机探索。在本例中智能体最终选择执行动作a2。执行动作后环境返回即时奖励rt13同时系统由状态 s1转移至新状态s2。到达新状态后SARSA 并不会直接选取最大 Q 值对应动作而是继续使用 ε-贪心策略选择下一步将真实执行的动作。假设在状态 s2中虽然 Q(s2,a2)2 大于 Q(s2,a1)0.5但由于探索机制本轮实际选择执行动作 a1。此时SARSA 使用真实执行动作对应的价值来更新 Q 值并依据更新公式完成参数更新。将本例中的数值代入即因此更新后 Q(s1,a2) 从 1 提升至 1.245。随后智能体继续在新状态中重复“选择动作—执行动作—获得奖励—更新 Q 值”的循环直至任务结束。整个过程中SARSA 始终依据下一状态中真实执行的动作进行学习而不是直接采用最大 Q 值因此策略更新更加保守、稳定具有较好的安全性与鲁棒性。