强化学习论文（2）RIAL&DIAL

1 minute read

Published: June 04, 2020

标签： RIAL; DIAL; value-based; on-policy; model-free; communication; discrete communication channel; discrete action space; continuous state space; cooperative task; centralized training with decentralized execution; multi-agent;

论文链接

创新点及贡献

1、首个通过深度学习学习多智能体之间的通信协议的方法，基于 DRQN 提出了一种集中训练分散执行的多智能体学习通信协议的框架。

2、集中训练分散执行的框架在于训练时所有的智能体参数共享同一个网络，在执行时每个智能体复制一份网络并拥有自己独立的隐藏状态，其中根据通信信息是否可以反向传播拥有反馈机制分为 RIAL 方法和 DIAL 方法。

研究痛点

1、目前大多数研究都是预先定义好通信协议，而未有研究可以自动化地学习智能体之间的通信协议。

2、论文关注点在于集中训练分散执行的框架设计

因为智能体在训练时的通信通常可以不受限制，而在执行时往往会受到带宽限制，比如机器人仿真实验。
智能体需要协调消息的发送和解析之间的关系，这加剧了探索协议空间的困难，比如智能体 A 发送一条有用的消息给另一个智能体 B，但是仅当智能体 B 成功解析该条消息并执行正确的动作时智能体 A 才会获得正的 reward，因此正的 reward 会变得稀疏，使得随机探索成功的难度加大。

算法流程

框架图如下

RIAL (Reinforced Inter-Agent Learning)

1、基于 DRQN 设计，注意不使用经验回放池。

2、为了避免输出维度过大，将 Q-Net 网络分为输出通信动作的 $Q_m$ 与输出环境动作的 $Q_u$，输出维度便从 $\mid U\mid \mid M\mid $ 降到了 $U\mid +\mid \mid M\mid $，具体 $Q_u$ 网络输入定义如下，$Q_m$ 与之相同。

其中 $o_t^a$ 是当前智能体的观察，$m_{t-1}^{a’}$ 是另一个智能体发送的通信动作，$h_{t-1}^a$ 是当前智能体的的隐藏状态， $u_{t-1}^a$ 是当前智能体上一个时刻的环境动作，$m_{t-1}^{a}$ 是当前智能体上一个时刻发出的通信动作，$a$ 是当前智能体的编号，$u_{t-1}^a$ 是当前智能体的环境动作。

3、Q-Net 网络的 Q-value 输出给 Action Select 通过 $\epsilon$-贪心来选择动作，注意这里的通信动作和环境动作都是 one-hot 编码。

4、集中训练分散执行的框架在于训练时所有的智能体参数共享同一个网络，在执行时每个智能体复制一份网络并拥有自己独立的隐藏状态。

DIAL (Differentiable Inter-Agent Learning)

1、基于 DRQN 设计，注意不使用经验回放池。

2、与 RIAL 不同，DIAL 将 Q-Net 修改为 C-Net，其环境动作的 Q-value 输出给 Action Select，其通信动作的网络输出真实值绕过 Action Select 通过 discretise/regularise unit (DRU) 输入给别的智能体，这样便可以通过梯度的反向传播实现反馈机制，

3、集中训练分散执行的框架同样通过参数共享来实现，此外在训练时 $DRU(m^a_t) = Logistic({\mathcal{N}}(m^a_t,\sigma))$，执行时 $DRU(m^a_t) = {\mathbb{1}}_{m^a_t > 0}$，注意这里的通信动作是二进制编码，而 RIAL 的通信动作是 one-hot 编码。