L1:强化学习基本概念
State状态如 X [x, y ,v]action: 动作集合如 A [ 上下左右]state transition P(s2 | s1, a1) 1 , P(si| s1, a1) 1 ,任意i ! 2;Policy策略如每个网格块选择确定的上下左右个人理解选择概率的上下左右也算Reward 奖励trajectory s-a-r chainreturn一条 trajectory 的所有 rewards 之和例如 return 0 -1 0 1如何评价两个 policy 更优呢给定 start policy此时进而得到固定的 trajectory计算它的 return进行比较衰减系数为了防止两个问题1. 如果当前装态下不动获得的 reward 是正数那么它可以一直保持不动这样 return 为正无穷所以为了 return 收敛加入衰减系数2. 同 1如果一条 trajectory无限长Episode当 agent 可以停止在终极状态那么这条 trajectory 为 一个EpisodeContinuing Tasks: 持续下去没有终止状态的任务Mdp 框架特点它的 policy 不是确定的而是概率分布的mdp 和 mp 的区别马尔可夫过程Markov Process, MP和马尔可夫决策过程Markov Decision Process, MDP是强化学习和随机过程中的两个核心概念。它们的主要区别在于是否包含智能体的动作Action以及是否有奖励Reward机制。简单来说MP 描述的是一个系统自发演化的过程而 MDP 描述的是一个智能体可以通过动作干预并追求利益最大化的过程。以下是具体的区别分析1. 马尔可夫过程 (MP)马尔可夫过程有时也指马尔可夫链是一个随时间发生状态转移的系统且满足马尔可夫性质即下一个状态仅依赖于当前状态与过去的历史无关。核心元素通常表示为二元组 $(S, P)$。$S$有限的状态集合 (States)。$P$状态转移概率矩阵 (Transition Probabilities)描述从一个状态转移到另一个状态的概率。特点系统是按预定的概率规律自动运行的。你只是一个旁观者无法改变状态转移的过程。例子自然界的天气变化。如果今天是晴天明天有 80% 的概率是晴天20% 的概率是雨天。这种变化自动发生不受人为控制。2. 马尔可夫决策过程 (MDP)马尔可夫决策过程在 MP 的基础上引入了智能体Agent、动作Action和奖励Reward。智能体根据当前状态选择动作动作不仅会影响下一个状态还会带来即时奖励。核心元素通常表示为五元组 $(S, A, P, R, \gamma)$。$S$状态集合 (States)。$A$动作集合 (Actions)。$P$状态转移概率矩阵。这里的概率不仅依赖于当前状态还依赖于智能体采取的动作记为 $P(s|s, a)$。$R$奖励函数 (Rewards)表示在状态 $s$ 采取动作 $a$ 并转移到状态 $s$ 时获得的即时反馈。$\gamma$折扣因子 (Discount Factor)用于平衡当前奖励与未来奖励的权重。特点你是一个参与者。系统的演化受你选择的动作影响你的目标是寻找一个最优策略 $\pi(a|s)$使得长期累积奖励的期望值最大。例子自动驾驶汽车。汽车智能体在当前路况状态下可以选择加速、刹车或转向动作。不同的动作会导致不同的新路况状态转移并且安全行驶会获得正奖励发生碰撞会获得负奖励。核心区别总结对比比较维度马尔可夫过程 (MP)马尔可夫决策过程 (MDP)角色定位观察者 (Observer)决策者/智能体 (Agent)动作 (Action)无有 ($A$)奖励 (Reward)无有 ($R$)状态转移概率仅由当前状态决定 $P(s\|s$由当前状态和所采取的动作共同决定 $P(s\|s, a$核心目标计算或预测处于特定状态的概率分布寻找最优策略 (Policy) 以最大化累积奖励数学表示$(S, P)$$(S, A, P, R, \gamma)$注在 MP 和 MDP 之间还有一个概念叫做马尔可夫奖励过程 (Markov Reward Process, MRP)它包含状态和奖励即 $(S, P, R, \gamma)$但仍然没有动作可以理解为评价一个固定策略下 MDP 的表现。