无题
强化学习-第一章-基本概念
详细的请参考 网友笔记:(https://wgyhhh.top/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/)
网格世界例子
交互演示:折扣因子与价值传播
点击网格放置陷阱 (🔥) 或宝藏 (💰),拖动滑块观察价值 (Value) 如何变化。
*颜色越深代表该状态价值 (State Value) 越高
状态、动作和状态转移
状态、动作和状态转移
- 状态空间
- 动作空间
- 对某一状态处理不合法的动作空间
- 允许转移,但加以惩罚
- 不允许转移,被回弹到其他状态
- 对某一状态处理不合法的动作空间
- 状态转移
- 确定性
- 非确定性
策略和奖励
策略
- 告诉智能体在每一个状态应该采取什么样的动作
- 确定性
- 随机性
- 表示
- 在网格中如何解读(可视化方法)
- 条件概率
- 表格(也可以表示随机性策略,矩阵内元素为条件概率)
奖励
- 合适的奖励可以引导智能体按照我们的预期来运动
- 设计合适的奖励来实现我们的意图,需要理解所给定的任务
- 到达目标之后,如果也持续执行策略,需要合理设计奖励
- 确定性
- 随机性
- 正面或负面有定性,但每一次可能不定量
- 表示
- 表格(矩阵)(仅适用于确定性)
- 一般仅为即时奖励表格
- 条件概率(确定性和随机性均可)
- 具有最大即时奖励的动作不一定能带来最大的总奖励
轨迹、回报和回合
轨迹、回报和回合
- 轨迹
- 一条轨迹(trajectory)指的是一个状态-动作-奖励的链条
- 沿着一条轨迹,智能体会得到一系列的即时奖励,这些即时奖励之和被称为回报
- 回报
- 报由即时奖励(immediate reward)和未来奖励(future reward)组成
- 即时奖励是在初始状态执行动作后立刻获得的奖励
- 未来奖励指的是离开初始状态后获得的奖励之和
- 也可以被称为总奖励(total reward)或累积奖励(cumulative reward)
- 回报可以用于评价一个策略的好坏
- 折扣因子和折扣回报
- 轨迹也可以无限长
- 直接把这条轨迹上所有的奖励求和来计算回报,会发散到无穷
- 折扣回报是所有折扣奖励的总和,即为不同时刻得到的奖励添加相应的折扣再求
- 引入折扣因子
- 用于允许考虑无限长的轨迹
- 用来调整对近期或远期奖励的重视程
- 如果接近 0,则智能体会更加重视近期奖励,最后所得到的策略也会比较短视。
- 如果接近1,则智能体会更加重视远期奖励,最后所得到的策略也会更具有远见
- 回合
- 当执行一个策略进而与环境交互时,智能体从初始状态开始到终止状态 (terminal state) 停止的过程被称为一个回合(episode)或尝试(trial)。
- 该与神经网络训练过程中的回合(epoch)加以区分。
- 回合和轨迹在概念上非常类似
- 回合通常被认为是一条有限长的轨迹。如果一个任务最多有有限步,那么这样的任务称为回合制任务(episodic task)。
- 如果一个任务没有终止状态,则意味着智能体与环境的交互永不停止,这种任务被称为持续性任务 (continuing task)
- 回合制任务转换为持续性任务有下面两种方法
- 把终止状态视为一个特殊状态,专门设计其动作空间或状态转移, 从而使智能体永远停留在此状态,这样的状态被称为吸收状态
- 将终止状态视为一个普通状态,设计折扣和奖励,让智能体学习到在到达这个状态之后能够保持原地不动。
马尔可夫决策过程
马尔可夫决策过程
- 一旦在马尔可夫决策过程中的策略确定下来了,马尔可夫决策过程就退化成了一个马尔可夫过程。
- 智能体和环境的交互
- 智能体之外的一切都被视为环境
- 智能体包含感知、决策、和执行机构
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 circLΣMoon's blog!
评论