强化学习-第一章-基本概念

详细的请参考 网友笔记:(https://wgyhhh.top/Mathematical-Foundations-of-Reinforcement-Learning-Notes/Preface1/)

网格世界例子

交互演示:折扣因子与价值传播

点击网格放置陷阱 (🔥) 或宝藏 (💰),拖动滑块观察价值 (Value) 如何变化。

*颜色越深代表该状态价值 (State Value) 越高

状态、动作和状态转移

状态、动作和状态转移

  • 状态空间
  • 动作空间
    • 对某一状态处理不合法的动作空间
      • 允许转移,但加以惩罚
      • 不允许转移,被回弹到其他状态
  • 状态转移
    • 确定性
    • 非确定性

策略和奖励

策略

  • 告诉智能体在每一个状态应该采取什么样的动作
  • 确定性
  • 随机性
  • 表示
    • 在网格中如何解读(可视化方法)
    • 条件概率
    • 表格(也可以表示随机性策略,矩阵内元素为条件概率)

奖励

  • 合适的奖励可以引导智能体按照我们的预期来运动
  • 设计合适的奖励来实现我们的意图,需要理解所给定的任务
    • 到达目标之后,如果也持续执行策略,需要合理设计奖励
  • 确定性
  • 随机性
    • 正面或负面有定性,但每一次可能不定量
  • 表示
    • 表格(矩阵)(仅适用于确定性)
    • 一般仅为即时奖励表格
    • 条件概率(确定性和随机性均可)
  • 具有最大即时奖励的动作不一定能带来最大的总奖励

轨迹、回报和回合

轨迹、回报和回合

  • 轨迹
    • 一条轨迹(trajectory)指的是一个状态-动作-奖励的链条
    • 沿着一条轨迹,智能体会得到一系列的即时奖励,这些即时奖励之和被称为回报
  • 回报
    • 报由即时奖励(immediate reward)和未来奖励(future reward)组成
    • 即时奖励是在初始状态执行动作后立刻获得的奖励
    • 未来奖励指的是离开初始状态后获得的奖励之和
    • 也可以被称为总奖励(total reward)或累积奖励(cumulative reward)
  • 回报可以用于评价一个策略的好坏
  • 折扣因子和折扣回报
    • 轨迹也可以无限长
    • 直接把这条轨迹上所有的奖励求和来计算回报,会发散到无穷
    • 折扣回报是所有折扣奖励的总和,即为不同时刻得到的奖励添加相应的折扣再求
    • 引入折扣因子
      • 用于允许考虑无限长的轨迹
      • 用来调整对近期或远期奖励的重视程
        • 如果接近 0,则智能体会更加重视近期奖励,最后所得到的策略也会比较短视。
        • 如果接近1,则智能体会更加重视远期奖励,最后所得到的策略也会更具有远见
  • 回合
    • 当执行一个策略进而与环境交互时,智能体从初始状态开始到终止状态 (terminal state) 停止的过程被称为一个回合(episode)或尝试(trial)。
    • 该与神经网络训练过程中的回合(epoch)加以区分。
    • 回合和轨迹在概念上非常类似
      • 回合通常被认为是一条有限长的轨迹。如果一个任务最多有有限步,那么这样的任务称为回合制任务(episodic task)。
      • 如果一个任务没有终止状态,则意味着智能体与环境的交互永不停止,这种任务被称为持续性任务 (continuing task)
    • 回合制任务转换为持续性任务有下面两种方法
      • 把终止状态视为一个特殊状态,专门设计其动作空间或状态转移, 从而使智能体永远停留在此状态,这样的状态被称为吸收状态
      • 将终止状态视为一个普通状态,设计折扣和奖励,让智能体学习到在到达这个状态之后能够保持原地不动。

马尔可夫决策过程

马尔可夫决策过程

  • 一旦在马尔可夫决策过程中的策略确定下来了,马尔可夫决策过程就退化成了一个马尔可夫过程。
  • 智能体和环境的交互
    • 智能体之外的一切都被视为环境
    • 智能体包含感知、决策、和执行机构