Shunyu's Blog

怕什么真理无穷,
进一寸有进一寸的欢喜。

强化学习思考(6)蒙特卡罗和时序差分

蒙特卡罗和时序差分

关于蒙特卡罗和时序差分的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强...

强化学习思考(5)动态规划

动态规划

关于动态规划的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强化学习思考...

强化学习思考(4)模仿学习和监督学习

模仿学习和监督学习

关于模仿学习和监督学习的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强...

python setup.py 和 pip install . 区别

本地包安装中 python setup.py 和 pip install . 区别

有时候我们需要安装本地的包到环境中,这里记录 python setup.py 和 pip install . 区别。 主要区别 setup.py 和 pip 两种方法都是可以安装本地的包到环境中,其主要区别如下: 可编辑性 Editable pip setup.py Editable p...

强化学习思考(3)马尔可夫决策过程

马尔可夫决策过程

关于马尔可夫决策过程的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强化...

强化学习思考(2)强化学习简介

强化学习简介

关于强化学习简介的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强化学习...

强化学习思考(1)前言

前言及总体框架目录

选择开设一个专栏来记录自己学习强化学习的过程,由于网上已经有很多基础强化学习的教程了,所以本专栏更多的关注点不在于基础,而是一些容易遗漏的点,一些细节上的补充,作为学习过程中的思考笔记。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考...

pytorch 小技巧

pytorch 小技巧

记录一些写 pytorch 时候不会的点。 nn.Module 类定义时不要把网络模型放到某些数据结构中(如 list),否则 .to(device) 找不到网络模型,可以使用 nn.ModuleList() Variable 模块已与 Tensor 模块合并,直接创建的 Tensor 变量本身带有 requires_grad 属性,不再需要转换为 Variable 变量 在 deta...

Matplotlib 基础使用

Matplotlib 基础使用

下面介绍关于 Matplotlib 的基本函数使用。 请注意使用 plt.show() 字符串里使用$$输入公式时需要使用字符串模式r 使用 jupyter 时需要 %matplotlib inline,以便直接在 python console 里面生成图像。 1 2 import matplotlib.pyplot as plt %matplotlib inline scatt...

python 中配置 linux 环境变量

python 中配置 linux 环境变量

在某些 python 程序中需要单独配置一些环境变量,又不希望通过 pycharm 配置,有时候比较麻烦。 配置 linux 环境变量 1 2 3 4 5 6 7 8 9 import os # 覆盖重写某项环境变量 os.environ['CUDA_VISIBLE_DEVICES'] = '0,1' # 在某项环境变量之前加内容 # 注意这里顺序不能反,新加的内容要放在最前面才不会...