#

1、深度强化学习

Play Video

注意:\mathcal{R}R 是所有奖励的集合。奖励概率以联合方式与转换概率一起指定为:p(s’’, r s, a) = \mathbb{P}(S_{t+1}=s’’, R_{t+1}=r S_t=s, A_t=a)p(s′′,rs,a)=P(St*+1=*s*′′,*Rt+1=rSt*=*s*,*At=a)

2、 资源

如今,深度强化学习是一个非常活跃的研究领域。但是要理解最近出现的先进概念和算法,你需要充分理解强化学习基础知识。

img‘如果你以前对强化学习没有经验,或者想复习这方面的知识,请先学习我们自选课程中的强化学习(可选)单元。’

编程:OpenAI Gym

在整个课程中,我们将使用 OpenAI Gym 作为编程练习。它是一个开发和分享强化学习算法的开源库和平台。如果你之前没有使用过该平台,建议你现在就熟悉一下该平台。

阅读 OpenAI Gym 文档中的说明,以了解基本语法。

该文档提供了在计算机上安装 OpenAI Gym 的说明。你也可以跳过这一步,因为你可以在课堂上完成所有的编程实现。但是我个人建议你安装该工具,因为研究该工具会很有趣!

还建议你花时间查看 leaderboard,其中包含了每个任务的最佳解决方案。

请参阅此博客以详细了解如何使用 OpenAI Gym 加快强化学习 (RL) 研究。

教科书:Sutton & Barto,第二版。

建议你阅读这本经典强化学习教科书中的章节。我们在深度强化学习课程中介绍的知识可以在这本书的第 II 部分:逼近解决方案中找到。此外,我们将引用详细介绍特定算法和技巧的重要论文。

注意,所有建议的课外阅读延伸都是可选阅读延伸!但是强烈建议你阅读这些资料,尤其当你发现感兴趣的知识点并且想要了解更多信息时,或者对某个知识点不清楚,需要参考其他资料时。

请参阅此 GitHub 代码库 以查看教科书中的大部分图表的 Python 实现。

3、离散空间与连续空间

离散空间与连续空间

离散状态空间:s \in {s_0, s_1, …, s_n }s∈{s0,s1,…,s**n}

连续状态空间:s \in \mathbb{R}^ns∈Rn

同样,离散动作空间:a \in {a_0, a_1, …, a_m }a∈{a0,a1,…,a**m}

以及连续动作空间:a \in \mathbb{R}^ma∈Rm

4、空间表示法

img

练习题

以下哪些状态或动作可以用离散表示法表示?

  • 玩扑克牌时,手中的牌
  • 用机械臂握紧物体时应用的力
  • 无人驾驶 GPS 坐标
  • 9x9 围棋游戏的棋盘位置
  • 键盘乐器上的按键

5、离散化

6、Tile Coding

7、Coarse Coding

8、函数逼近

9、线性函数逼近

10、内核函数

11、非线性函数逼近

12、总结

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!


hetaodie

Mobile development

简单,深入的研究移动客户端开发技术"