强化学习论文（6）DCC-MD&MADDPG-MD

1 minute read

Published: June 10, 2020

标签： DCC-MD; value-based; discrete action space; decentralized approach; MADDPG-MD; actor-critic; continuous action space; centralized training with decentralized execution; off-policy; model-free; communication; continuous communication channel; continuous state space; cooperative task; multi-agent;

论文链接

创新点及贡献

1、基于 Dropout 的思想提出了一种 Message-Dropout 的方法，并将其应用在 decentralized control with communication (DCC) 算法和 MADDPG 算法上。

2、对于 DCC 来说，Message-Dropout 主要体现在 Q 函数中对其他智能体发来的通信信息进行随机 dropout；对于 MADDPG 来说，Message-Dropout 主要体现在 Q 函数中对其他智能体的观察进行随机 dropout。

研究痛点

1、随着多智能体数量的增加，DCC 算法和 MADDPG 算法的输入空间都线性地增长，因此学习所需要的样本数量也会随之增加，从而大大降低学习速度。

算法流程

分别介绍 DCC-MD 和 MADDPG-MD

DCC-MD

DCC-MD 框架图如下

1、simple DCC：基于 Double DQN，在每个智能体的 Q 函数的输入中加入其他智能体对该智能体发来的通信信息。

定义智能体 $i$ 接收到的信息 $m^i = (m^{i,1},…,m^{i,i-1},m^{i,i+1},…,m^{i,N})$，其中 $m^{i,j}$ 为智能体 $i$ 从智能体 $j$ 接收到的信息。
损失函数定义如下：

2、针对 simple DCC 算法的输入空间都线性地增长，从而大大降低学习速度的缺点，提出了 Message-Dropout 方法。

在训练阶段基于概率 $p$ 对智能体 $i$ 接收到的信息 $m^i$ 进行 block-wise 的 dropout，即每个 $m^{i,j}$ 都有概率 $p$ 被置为零向量。
在测试阶段不再 dropout，但为了保证输出正确的动作，需要将 $m^i$ 乘以权重 $(1-p)$。
注意 Message-Dropout 不应用于智能体 $i$ 的观察 $o^i$ 上。

3、基于 Message-Dropout 的 DCC-MD

损失函数定义如下，注意作用于 $m_{j}$ 和 $m_{j+1}$ 的 $b_{j,k}$ 需要保持一致

举个三个智能体的例子，其 Q 网络的输入共有四种可能

4、simple DCC 算法中由于其他智能体通信信息占用输入空间过大，导致智能体自身的观察的重要性有可能被忽略，针对这个问题可以从网络结构中采用分支输入来解决。

算法伪代码

DCC-MD 算法伪代码如下

MADDPG-MD

MADDPG-MD 框架图如下

1、针对 MADDPG 算法的输入空间都线性地增长，从而大大降低学习速度的缺点，提出了 Message-Dropout 方法。

在训练阶段基于概率 $p$ 对智能体 $i$ 的 Q 函数的其他多智能体的观察 $o^{-i}$ 进行 block-wise 的 dropout，即每个 $o^{j}$ 都有概率 $p$ 被置为零向量。
注意 Message-Dropout 不应用于智能体 $i$ 的观察 $o^i$ 上。

2、损失函数的定义如下，注意作用于 $x$ 和 $x’$ 的 $b_{j}$ 需要保持一致。

3、MADDPG 算法中由于其他智能体通信信息占用输入空间过大，导致智能体自身的观察的重要性有可能被忽略，针对这个问题可以从网络结构中采用分支输入来解决。

实验

1、采用了三个实验环境，在实验中将智能体的观察作为通信信息。

2、Ablation Studies

Dropout rate：0.2 至 0.5 较好
Block-wise dropout versus element-wise dropout：基于 Block-wise 的意思是整个 $m^{i,j}$ 向量作为一个整体进行 dropout，element-wise 则是 $m^{i,j}$ 向量中的元素自己作为一个整体进行 dropout。
Retaining agent’s own observation without dropout
Model architecture

3、Test in The Unstable Environment：随机关闭半数或所有的通信信道观察算法的表现

当只关闭半数时 DCC-MD 优于 DCC 和 FDC：证明 DCC-MD 的鲁棒性较好。
当全部关闭时 DCC-MD 优于 DCC，但劣于 FDC：证明当不稳定性过大时 DCC-MD 无法恢复通信损失，但 FDC 仍可以表现良好。

其他补充

1、本人认为本文没有直接去改变 DCC 或者 MADDPG 的基本框架中输入空间的线性增长，而是通过 dropout 技术将这种线性增长带来的学习效率降低的问题进行解决，这种曲线救国的思路还是很值得我们借鉴的，其实验中采用的智能体也相对较多，可以达到十个左右。

参考资料及致谢

所有参考资料在《强化学习思考（1）前言》中已列出，再次向强化学习的大佬前辈们表达衷心的感谢！

Share on

Twitter Facebook LinkedIn