强化学习论文（1）MADDPG

less than 1 minute read

Published: June 04, 2020

标签： MADDPG; actor-critic; off-policy; model-free; communication; continuous communication channel; continuous action space; continuous state space; mixed task; cooperative task; competitive task; centralized training with decentralized execution; multi-agent;

论文链接

创新点及贡献

1、基于 DDPG 提出了一种集中训练分散执行的多智能体 Actor-Critic 框架，在训练阶段每个智能体的 Critic 网络会将所有智能体的观察及动作作为输入，而在执行阶段每个智能体的 Actor 网络仅将当前智能体的观察作为输入。

研究痛点

1、在多智能体问题中直接使用 DQN 算法时，（1）对于每个智能体来说其身处的马尔可夫环境是非平稳的，而这会影响 Q 学习算法的收敛性。（2）另外 DQN 的经验回放技术的使用也将受到限制，因为当任意的 $\pi’_i \neq \pi_i$ 时有可能出现

\[P(s' | s,a,\pi_1,...,\pi_N) \neq P(s' | s,a,\pi'_1,...,\pi'_N)，\]

此时经验便不再有效，这也是由于马尔可夫环境的非平稳所导致的。

2、策略梯度方法本来就面临高方差的问题，（1）而在多智能体环境中采用策略梯度方法将大大加剧其高方差的问题，因为此时每个智能体的 reward 不仅仅取决于当前智能体的动作，也取决于其他智能体的动作。（2）另外我们对策略梯度的采样估计方向也可能将随着智能体数量的增加而愈发不准确，具体如下。

算法流程

MADDPG 框架如下

主要思路

1、基于 DDPG 算法，其中每个智能体都拥有自己的 Actor 网络和 Critic 网络，各自使用经验回放池进行学习（注意：集中训练主要体现在 Critic 网络的输入上，并不是共享 Critic 网络，由于每个智能体的 reward 是不同的，所有每个智能体都将学习属于自己的 Critic 网络）

2、经验回放池元组定义为 $(\textbf{x},\textbf{x}’,a_1,…,a_N,r_1,…,r_N)$，其中 $\textbf{x} = (o_1,…,o_N)$，此时经验回放池是有效的，因为此时我们知道所有智能体的动作，所以当任意的 $\pi’_i \neq \pi_i$ 时仍存在

\[P(s' | s,a_1,...,a_N,\pi_1,...,\pi_N) = P(s' | s,a_1,...,a_N) = P(s' | s,a_1,...,a_N,\pi'_1,...,\pi'_N)，\]

3、Actor 网络的梯度定义如下