0%

强化学习复习(一)

马尔可夫过程

  • picture 9

  • 注意,并不是说与之前的状态绝对意义上的无关,而是在t时刻之前的信息全部已知的情况下,只通过t时刻就可做出判断。也就是意味着,t时刻之前的状态对于待得到的t+1时刻的状态的影响全部体现在t时刻的信息中了

  • picture 10

  • picture 11

  • 注意,非常关键的是在定义一个状态的时候,如何让这个状态包含计算出下个状态所需要的所有信息

    马尔可夫决策过程

  • picture 12

  • 时齐性

    • picture 13
  • 时间连续的问题

    • picture 14

      基于价值的思想

  • picture 15

    基于策略还是基于价值

  • picture 16

  • picture 17

    总结

  • picture 18

    基于价值的方法和基于策略的方法

  • picture 19

  • 基于价值方法的核心思想在于对时间的差分,是一种动态规划的思想;而基于策略的方法则没有这种思想,而是要通盘考虑策略在整个时间轨道内造成的影响

  • picture 20

    Q值的思想

  • picture 21

  • 基于价值的基本解决方法

    • picture 22
    • 其中的V是picture 23
    • P是状态转移方程

      Q Learning 的思路

  • picture 24

  • picture 25

  • 对于表格学习的QLearning实际上是一种用动态规划的方法每一步都修改一下对应位置的Q值的算法

  • picture 38

  • Q更新的思路:在每次尝试结束之后,将这次尝试得到的价值更新到Q网络预测的价值上

    on policy 和 off policy的区别

  • picture 26

  • 一个通俗的比喻

    • picture 27