强化学习论文(6)DCC-MD&MADDPG-MD

1 minute read

Published:

标签: DCC-MD; value-based; discrete action space; decentralized approach; MADDPG-MD; actor-critic; continuous action space; centralized training with decentralized execution; off-policy; model-free; communication; continuous communication channel; continuous state space; cooperative task; multi-agent;

论文链接

创新点及贡献

1、基于 Dropout 的思想提出了一种 Message-Dropout 的方法,并将其应用在 decentralized control with communication (DCC) 算法和 MADDPG 算法上。

2、对于 DCC 来说,Message-Dropout 主要体现在 Q 函数中对其他智能体发来的通信信息进行随机 dropout;对于 MADDPG 来说,Message-Dropout 主要体现在 Q 函数中对其他智能体的观察进行随机 dropout。

研究痛点

1、随着多智能体数量的增加,DCC 算法和 MADDPG 算法的输入空间都线性地增长,因此学习所需要的样本数量也会随之增加,从而大大降低学习速度。

算法流程

分别介绍 DCC-MD 和 MADDPG-MD

DCC-MD

DCC-MD 框架图如下

1、simple DCC:基于 Double DQN,在每个智能体的 Q 函数的输入中加入其他智能体对该智能体发来的通信信息。

  • 定义智能体 $i$ 接收到的信息 $m^i = (m^{i,1},…,m^{i,i-1},m^{i,i+1},…,m^{i,N})$,其中 $m^{i,j}$ 为智能体 $i$ 从智能体 $j$ 接收到的信息。
  • 损失函数定义如下:

2、针对 simple DCC 算法的输入空间都线性地增长,从而大大降低学习速度的缺点,提出了 Message-Dropout 方法。

  • 在训练阶段基于概率 $p$ 对智能体 $i$ 接收到的信息 $m^i$ 进行 block-wise 的 dropout,即每个 $m^{i,j}$ 都有概率 $p$ 被置为零向量。
  • 在测试阶段不再 dropout,但为了保证输出正确的动作,需要将 $m^i$ 乘以权重 $(1-p)$。
  • 注意 Message-Dropout 不应用于智能体 $i$ 的观察 $o^i$ 上。

3、基于 Message-Dropout 的 DCC-MD

  • 损失函数定义如下,注意作用于 $m_{j}$ 和 $m_{j+1}$ 的 $b_{j,k}$ 需要保持一致

  • 举个三个智能体的例子,其 Q 网络的输入共有四种可能

4、simple DCC 算法中由于其他智能体通信信息占用输入空间过大,导致智能体自身的观察的重要性有可能被忽略,针对这个问题可以从网络结构中采用分支输入来解决。

算法伪代码

DCC-MD 算法伪代码如下

MADDPG-MD

MADDPG-MD 框架图如下

1、针对 MADDPG 算法的输入空间都线性地增长,从而大大降低学习速度的缺点,提出了 Message-Dropout 方法。

  • 在训练阶段基于概率 $p$ 对智能体 $i$ 的 Q 函数的其他多智能体的观察 $o^{-i}$ 进行 block-wise 的 dropout,即每个 $o^{j}$ 都有概率 $p$ 被置为零向量。
  • 注意 Message-Dropout 不应用于智能体 $i$ 的观察 $o^i$ 上。

2、损失函数的定义如下,注意作用于 $x$ 和 $x’$ 的 $b_{j}$ 需要保持一致。

3、MADDPG 算法中由于其他智能体通信信息占用输入空间过大,导致智能体自身的观察的重要性有可能被忽略,针对这个问题可以从网络结构中采用分支输入来解决。

实验

1、采用了三个实验环境,在实验中将智能体的观察作为通信信息。

2、Ablation Studies

  • Dropout rate:0.2 至 0.5 较好
  • Block-wise dropout versus element-wise dropout:基于 Block-wise 的意思是整个 $m^{i,j}$ 向量作为一个整体进行 dropout,element-wise 则是 $m^{i,j}$ 向量中的元素自己作为一个整体进行 dropout。
  • Retaining agent’s own observation without dropout
  • Model architecture

3、Test in The Unstable Environment:随机关闭半数或所有的通信信道观察算法的表现

  • 当只关闭半数时 DCC-MD 优于 DCC 和 FDC:证明 DCC-MD 的鲁棒性较好。
  • 当全部关闭时 DCC-MD 优于 DCC,但劣于 FDC:证明当不稳定性过大时 DCC-MD 无法恢复通信损失,但 FDC 仍可以表现良好。

其他补充

1、本人认为本文没有直接去改变 DCC 或者 MADDPG 的基本框架中输入空间的线性增长,而是通过 dropout 技术将这种线性增长带来的学习效率降低的问题进行解决,这种曲线救国的思路还是很值得我们借鉴的,其实验中采用的智能体也相对较多,可以达到十个左右。

参考资料及致谢

所有参考资料在《强化学习思考(1)前言》中已列出,再次向强化学习的大佬前辈们表达衷心的感谢!