L1：强化学习基本概念

张

张建站

2026/5/14 12:33:15

10分钟阅读

State状态如 X [x, y ,v]action: 动作集合如 A [ 上下左右]state transition P(s2 | s1, a1) 1 , P(si| s1, a1) 1 ,任意i ! 2;Policy策略如每个网格块选择确定的上下左右个人理解选择概率的上下左右也算Reward 奖励trajectory s-a-r chainreturn一条 trajectory 的所有 rewards 之和例如 return 0 -1 0 1如何评价两个 policy 更优呢给定 start policy此时进而得到固定的 trajectory计算它的 return进行比较衰减系数为了防止两个问题1. 如果当前装态下不动获得的 reward 是正数那么它可以一直保持不动这样 return 为正无穷所以为了 return 收敛加入衰减系数2. 同 1如果一条 trajectory无限长Episode当 agent 可以停止在终极状态那么这条 trajectory 为一个EpisodeContinuing Tasks: 持续下去没有终止状态的任务Mdp 框架特点它的 policy 不是确定的而是概率分布的mdp 和 mp 的区别马尔可夫过程Markov Process, MP和马尔可夫决策过程Markov Decision Process, MDP是强化学习和随机过程中的两个核心概念。它们的主要区别在于是否包含智能体的动作Action以及是否有奖励Reward机制。简单来说MP 描述的是一个系统自发演化的过程而 MDP 描述的是一个智能体可以通过动作干预并追求利益最大化的过程。以下是具体的区别分析1. 马尔可夫过程 (MP)马尔可夫过程有时也指马尔可夫链是一个随时间发生状态转移的系统且满足马尔可夫性质即下一个状态仅依赖于当前状态与过去的历史无关。核心元素通常表示为二元组 $(S, P)$。$S$有限的状态集合 (States)。$P$状态转移概率矩阵 (Transition Probabilities)描述从一个状态转移到另一个状态的概率。特点系统是按预定的概率规律自动运行的。你只是一个旁观者无法改变状态转移的过程。例子自然界的天气变化。如果今天是晴天明天有 80% 的概率是晴天20% 的概率是雨天。这种变化自动发生不受人为控制。2. 马尔可夫决策过程 (MDP)马尔可夫决策过程在 MP 的基础上引入了智能体Agent、动作Action和奖励Reward。智能体根据当前状态选择动作动作不仅会影响下一个状态还会带来即时奖励。核心元素通常表示为五元组 $(S, A, P, R, \gamma)$。$S$状态集合 (States)。$A$动作集合 (Actions)。$P$状态转移概率矩阵。这里的概率不仅依赖于当前状态还依赖于智能体采取的动作记为 $P(s|s, a)$。$R$奖励函数 (Rewards)表示在状态 $s$ 采取动作 $a$ 并转移到状态 $s$ 时获得的即时反馈。$\gamma$折扣因子 (Discount Factor)用于平衡当前奖励与未来奖励的权重。特点你是一个参与者。系统的演化受你选择的动作影响你的目标是寻找一个最优策略 $\pi(a|s)$使得长期累积奖励的期望值最大。例子自动驾驶汽车。汽车智能体在当前路况状态下可以选择加速、刹车或转向动作。不同的动作会导致不同的新路况状态转移并且安全行驶会获得正奖励发生碰撞会获得负奖励。核心区别总结对比比较维度马尔可夫过程 (MP)马尔可夫决策过程 (MDP)角色定位观察者 (Observer)决策者/智能体 (Agent)动作 (Action)无有 ($A$)奖励 (Reward)无有 ($R$)状态转移概率仅由当前状态决定 $P(s\|s$由当前状态和所采取的动作共同决定 $P(s\|s, a$核心目标计算或预测处于特定状态的概率分布寻找最优策略 (Policy) 以最大化累积奖励数学表示$(S, P)$$(S, A, P, R, \gamma)$注在 MP 和 MDP 之间还有一个概念叫做马尔可夫奖励过程 (Markov Reward Process, MRP)它包含状态和奖励即 $(S, P, R, \gamma)$但仍然没有动作可以理解为评价一个固定策略下 MDP 的表现。

【限时解密】MCP SDK生产部署Checklist V3.2（仅向CI/CD平台审计日志开放验证权限）

第一章：MCP SDK生产部署的合规性与权限治理原则在将MCP SDK集成至生产环境前，必须建立以最小权限、职责分离和审计可追溯为核心的权限治理体系。所有服务账户、API密钥及SDK配置均需通过策略即代码（Policy-as-Code）进行统一管控&a…...

2026/5/12 18:49:19 阅读更多 →

FlowState Lab快速上手：5个核心API调用示例与代码解读

FlowState Lab快速上手：5个核心API调用示例与代码解读 1. 前言：为什么需要这份API速查手册第一次接触FlowState Lab时，我花了整整两天时间才搞明白那些API文档里晦涩的参数说明。现在回想起来，如果能有一份直击重点的速查指南&…...

2026/5/12 18:49:21 阅读更多 →

流媒体内容本地化的技术实践：MediaGo如何重新定义m3u8视频下载体验

流媒体内容本地化的技术实践：MediaGo如何重新定义m3u8视频下载体验【免费下载链接】m3u8-downloader m3u8 视频在线提取工具流媒体下载 m3u8下载桌面客户端 windows mac 项目地址: https://gitcode.com/gh_mirrors/m3u8/m3u8-downloader 在数字内容消费日…...

2026/5/12 18:49:22 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/12 13:39:41 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/13 16:10:23 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/13 22:17:10 阅读更多 →