强化学习论文（12）SchedNet

less than 1 minute read

Published: June 28, 2020

标签： SchedNet; actor-critic; off-policy; model-free; communication; continuous communication channel; discrete action space; continuous state space; cooperative task; centralized training with decentralized execution; multi-agent;

论文链接

创新点及贡献

1、SchedNet 基于 actor-critic 设计了一种集中训练分散执行的网络架构，通过引入无线通信领域的 MAC（Medium Access Control）协议实现对智能体进行调度通信，从而保证在有限通信带宽的情况最高效率的进行通信。

研究痛点

1、目前在 MARL 领域仍未有人对受限智能体的调度问题进行研究，这其中主要包括两个问题:

一个是通信信道的带宽受限，有限的带宽意味着智能体必须学会交换简洁有效的信息
另一个是 shared medium 下智能体之间的通信冲突，所以必须对智能体的通信竞争进行适当的仲裁以避免冲突，因此需要进行通信调度。

算法流程

SchedNet 框架图

主要思路

1、整体框架主要由三个部分组成：actor network、scheduler、critic network

注意其实这里 actor network 是由两个不同的 policy 组成的，其中一个 policy 是权重生成器，它的动作空间是连续的，因而本文使用了 DDPG 算法。另一个 policy 则是真正的 policy，它的动作空间是离散的，因而本文使用了普通的 actor-critic 算法。

2、每一个智能体都有自己独立的 actor 网络，输入的是局部观察，该网络由以下三部分组成：

schedule vector $\mathbf{c}$ 是一个二值向量，表示哪个智能体被调度，其中 $\otimes$ 表示将所有被调度的智能体的信息进行 concatenation。

3、scheduler 部分由一个 Weight- based Scheduling Algorithm 组成，WSA 采用了以下两种简单但实用的无线调度协议。

关于如何在分散执行的时候实现这两种调度协议，作者主要采用了一种叫做 CSMA（Carrier Sense Multiple Access）的分布式 MAC 调度器，其具体实现在附录中说明，不再本文讨论范围之内。

4、critic 部分输入的是 global state 和权重动作，主要包括两个 heads

一个用于训练权重生成器的 policy，因为动作空间是连续的，因而本文使用了 DDPG 算法，所以需要 Q value。
一个用于训练真正的policy，它的动作空间是离散的，因而本文使用了普通的 actor-critic 算法，因而需要 state value。

训练过程

1、Weight generators 网络求导

2、Message encoders and action selectors 网络求导

算法伪代码

SchedNet 算法伪代码

实验

1、在两个协作环境上进行实验

Predator and Prey
Cooperative Com- munication and Navigation

其他补充

1、其实本人有个疑惑，目前的通信带宽受限真的如此严重吗，只能支持几比特的数据进行传输，如果带宽受限没有那么严重，那么这些研究带宽受限的论文是否就没有那么大意义了。

2、论文中提出了一种在带宽受限下的通信调度算法，在基于其集中训练分散执行的框架，貌似很难运用在大规模智能体环境中，实验中也只进行了很简单的实验，那在小规模智能体环境中研究带宽受限感觉也没啥意义。

3、有一点点像 dropout，但毕竟是调度式的不是随机式的。

参考资料及致谢

所有参考资料在《强化学习思考（1）前言》中已列出，再次向强化学习的大佬前辈们表达衷心的感谢！

Share on

Twitter Facebook LinkedIn