Shunyu's Blog

怕什么真理无穷,
进一寸有进一寸的欢喜。

强化学习论文(2)RIAL&DIAL

Learning to Communicate with Deep Multi-Agent Reinforcement Learning

标签: RIAL; DIAL; value-based; on-policy; model-free; communication; discrete communication channel; discrete action space; continuous state space; cooperative task; centralized training with decent...

强化学习论文(1)MADDPG

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

标签: MADDPG; actor-critic; off-policy; model-free; communication; continuous communication channel; continuous action space; continuous state space; mixed task; cooperative task; competitive task; ...

mongodb docker 集群搭建

Replica Set 架构 mongodb docker 集群搭建

Replica Set 架构 mongodb docker 集群搭建。 结构:Replica Set 架构(一主一从一仲裁) 优点:具备故障转移能力、仲裁节点起到选举作用节省部分资源 集群搭建配置 0、若测试时需要删除当前集群,重新建集群 1 2 3 4 cd /home/ls/mongodb_cluster docker-compose -f mongodb_cluster.ym...

强化学习思考(11)Advanced Policy Gradient

Advanced Policy Gradient

关于 Advanced Policy Gradient 的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强...

强化学习思考(10)Deep Q Network

Deep Q Network

关于 Deep Q Network 的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函...

强化学习思考(9)值函数方法

值函数方法

关于值函数方法的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强化学习思...

强化学习思考(8)Actor-Critic 方法

Actor-Critic 方法

关于 Actor-Critic 方法的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函...

强化学习思考(7)策略梯度

策略梯度

关于策略梯度的注意事项。 目录 强化学习思考(1)前言 强化学习思考(2)强化学习简介 强化学习思考(3)马尔可夫决策过程 强化学习思考(4)模仿学习和监督学习 强化学习思考(5)动态规划 强化学习思考(6)蒙特卡罗和时序差分 强化学习思考(7)策略梯度 强化学习思考(8)Actor-Critic 方法 强化学习思考(9)值函数方法 强化学习思考...

安装配置 supervisor 用于管理守护进程

安装配置 supervisor 用于管理守护进程

Supervisor 是用 Python 开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台 daemon,并监控进程状态,异常退出时能自动重启。 记录一下安装配置 supervisor 用于管理守护进程的流程,该软件比较好的功能是可以在进程挂掉时重启进程,还可以通过网页端进行管理。 目前看资料好像说系统自带的 systemd 基本可以替代 supervisor,最下面附带了...

ubuntu 安装 nvidia 显卡驱动

ubuntu 安装 nvidia 显卡驱动

记录一下 ubuntu 安装 nvidia 显卡驱动流程。 目前有几个点不太清楚: 是否需要禁用 Nouveau 驱动,我这边没有去管这个东西。 如何通过官方安装包安装,没有亲自尝试过 CentOS 如何安装也没有尝试过 查看信息 查看 GPU 型号 1 lspci | grep -i nvidia 查看你可以使用的驱动 1 ubuntu-drivers de...