January
27th,
2020
#
1、简介
2、应用
可选资源
- 了解 AlphaGo Zero,一款先进的计算机程序,打败了专业人类围棋手。
- 了解如何使用强化学习 (RL) 玩Atari 游戏。
- 了解打败全世界的顶级 Dota 2 玩家的 OpenAI 机器人。
- 了解指导仿真机器人如何行走的[研究](https://classroom.udacity.com/nanodegrees/nd009-cn-advanced/parts/a2386085-8101-47b6-84e0-7b61a76c2b82/modules/dffda80a-0d5b-460d-afbc-3e0ce20e867f/lessons/2942b8b9-76c1-451d-879c-3d31d3ac00c8/concepts/(https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/)。
- 了解无人驾驶车强化学习。
- 要了解应用于金融领域的强化学习示例,请参阅这个最终项目,该项目的作者是一位毕业于机器学习工程师纳米学位的学员。
- 了解电信强化学习。
- 阅读这篇介绍库存管理强化学习的论文
3、设置
4、OpenAI Gym
你不需要在你的计算机上安装 OpenAI Gym,你可以在课堂里完成所有的编程实现过程。你可以通过查看该 GitHub 代码库详细了解 OpenAI Gym。
建议你花时间查看 leaderboard,其中包含每个任务的最佳解决方案。
请参阅此博客帖子,详细了解如何使用 OpenAI Gym 加速强化学习研究。
安装说明 (可选)
如果你想在你的计算机上安装 OpenAI Gym,建议你完成以下简单安装过程:
git clone https://github.com/openai/gym.git
cd gym
pip install -e .
安装 OpenAI Gym 后,请获取经典控制任务(例如“CartPole-v0”
)的代码:
pip install -e '.[classic_control]'
最后,通过运行在 examples
目录中提供的简单的随机智能体检查你的安装情况。
cd examples/agents
python random_agent.py
(这些说明摘自该 GitHub 代码库 中的自述文件。)
5、资源
在这门课程中,我们将摘录这本关于强化学习的经典教科书中的章节。
注意,所有建议的阅读资料都是可选阅读内容!
请参阅此 GitHub 代码库以查看该教科书中的大多数图表的 Python 实现。
在学习下节课之前,建议你阅读该教科书的第一章节(尤其是第 1.1-1.4 部分),以便了解关于强化学习领域的背景知识。
6、参考指南
建议你下载此表格,其中包含我们将在这门课程中使用的所有记法和算法。请仅将此表格作为你的笔记补充内容!:)
你还可以在该教科书第一章节之前的页面中找到另一个实用记法指南。