图解强化学习 |手算Sarsa算法

张

张建站

2026/5/30 4:32:19

10分钟阅读

欢迎来到图解强化学习的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月29日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录Sarsa的基础认识基础Sarsa结构Sarsa算法的决策Sarsa算法的更新手动计算过程Sarsa的基础认识SARSA属于基于价值的在线无模型强化学习算法。仅通过学习动作价值指导决策无法直接优化动作策略不适用于大范围连续动作场景。它依靠 Q 表存储价值基于当前回合的真实动作进行时序差分更新同样采用 ε- 贪心策略平衡探索与利用依靠折扣因子、学习率更新参数单步交互即可迭代算法训练更保守、稳定性高但探索性偏弱且状态动作空间过大时同样存在 Q 表爆炸问题。基础Sarsa结构Sarsa算法的决策SARSA依据动作价值函数结合ε-贪心策略完成决策。当前处于状态s1存在动作a1、a2查表得到对应Q值通过ε-贪心策略选择当前要执行的动作。执行动作后切换至新状态s2再用ε-贪心策略选出s2状态下的实际动作全程循环采样真实动作、执行交互**的决策流程逐步完成训练。Sarsa算法的更新Q-learning选最大 Q 值贪心最优大胆激进SARSA选实际执行动作ε 贪心随机保守稳定SARSA 基于时序差分完成 Q 值更新。智能体在状态s1按贪心选出动作a1执行后获得奖励r并进入状态s1再用相同策略选出下一动作a2结合两组状态与动作的 Q 值迭代更新Q(s1, a2)持续循环该过程直至训练结束。手动计算过程SARSA 算法的手算过程首先在当前状态s1下查询 Q 表根据动作价值函数得到各动作对应的 Q值例如Q(s1a1−2、Q(s1,a21。随后智能体采用 ε-贪心策略进行动作选择即以较大概率 1−ε 选择当前 Q 值较高的动作以较小概率 ε 进行随机探索。在本例中智能体最终选择执行动作a2。执行动作后环境返回即时奖励rt13同时系统由状态 s1转移至新状态s2。到达新状态后SARSA 并不会直接选取最大 Q 值对应动作而是继续使用 ε-贪心策略选择下一步将真实执行的动作。假设在状态 s2中虽然 Q(s2,a2)2 大于 Q(s2,a1)0.5但由于探索机制本轮实际选择执行动作 a1。此时SARSA 使用真实执行动作对应的价值来更新 Q 值并依据更新公式完成参数更新。将本例中的数值代入即因此更新后 Q(s1,a2) 从 1 提升至 1.245。随后智能体继续在新状态中重复“选择动作—执行动作—获得奖励—更新 Q 值”的循环直至任务结束。整个过程中SARSA 始终依据下一状态中真实执行的动作进行学习而不是直接采用最大 Q 值因此策略更新更加保守、稳定具有较好的安全性与鲁棒性。

如何在RK3588开发板上快速部署Ubuntu系统：完整新手指南

如何在RK3588开发板上快速部署Ubuntu系统：完整新手指南【免费下载链接】ubuntu-rockchip Ubuntu for Rockchip RK35XX Devices 项目地址: https://gitcode.com/gh_mirrors/ub/ubuntu-rockchip 你是否正在为Rockchip RK3588开发板寻找一个稳定可靠的Ubuntu系…...

2026/5/30 4:23:33 阅读更多 →

Kohya_SS深度实战指南：从零掌握LoRA微调与AI模型训练

Kohya_SS深度实战指南：从零掌握LoRA微调与AI模型训练【免费下载链接】kohya_ss 项目地址: https://gitcode.com/GitHub_Trending/ko/kohya_ss 你是否曾面对AI模型训练的复杂参数配置而感到困惑？当面对数十个训练选项、上百个调整参数时&#xf…...

2026/5/30 4:23:31 阅读更多 →

保姆级教程：在Linux 5.4上手动编译并部署RapidIO TSI721驱动（附完整命令与排错记录）

Linux 5.4环境下RapidIO TSI721驱动深度部署指南在嵌入式系统开发领域，RapidIO作为一种高性能、低延迟的互连技术，正逐渐成为多处理器系统间通信的首选方案。本文将聚焦Linux 5.4内核环境下TSI721驱动的完整部署流程，从源码获取到功能验证&am…...

2026/5/30 4:22:19 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/26 6:08:07 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/29 11:21:15 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/27 21:40:10 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/27 10:36:27 阅读更多 →