强化学习论文（17）MAAC

less than 1 minute read

Published: July 07, 2020

标签： MAAC; actor-critic; off-policy; model-free; communication; continuous communication channel; discrete action space; continuous state space; mixed task; cooperative task; competitive task; centralized training with decentralized execution; multi-agent;

论文链接

创新点及贡献

1、基于 actor-critic 的 multi-agent 算法，其中每个智能体都有自己独立的 actor 和 critic，通过引入 Attention、SAC、Counterfactual Baseline 实现 MAAC 算法。

研究痛点

1、文章重点研究的是 Attention 机制与多智能体强化学习的结合，不同时考虑所有智能体的信息而只考虑重要的智能体的信息。

算法流程

本文采用 actor-critic 算法，其中 critic 的框架如下

主要思路

1、基于 actor-critic 的 multi-agent 算法，其中每个智能体都有自己独立的 actor 和 critic，并且引入了 SAC、Counterfactual Baseline 的方法，主要在 critic 层实现了 Attention 机制，下面着重介绍。

critic 网络输出的是每个动作的 Q 值
actor 网络输出的是每个动作的分布

2、每个智能体独立的 critic 的输入由全部智能体的观察和动作组成，在函数中又分为两部分，当前智能体的观察动作的嵌入向量及对其他智能体的进行 attention 计算得到的嵌入向量。

3、对其他智能体进行 attention 计算的公式就是正常的 attention 计算

注意 attention 中的参数矩阵 $W_q,W_k,V$ 都是共享的
此外还采用了 multiple attention heads 的方法，并简单的 concatenate 所有的 heads 为一个向量
文章提到如果想加入全局状态信息可以增加多一个 $e$，但是文章没有做这方面的实验，因为他们认为他们的方法在局部观察上的表现已经足够好了，全局状态信息不是很必要。