强化学习论文(8)VDN

less than 1 minute read

Published:

标签: VDN; value-based; off-policy; model-free; communication; continuous communication channel; discrete action space; continuous state space; cooperative task; credit assignment; centralized training with decentralized execution; value function factorization; multi-agent;

论文链接

创新点及贡献

1、基于 DRQN 提出了值分解网络架构,可以在仅有全局收益的情况下学习不同智能体自己的动作价值函数,从而解决由于部分可观察导致的伪收益(spuriou reward)和懒惰智能体(lazy agent)问题。

  • 虽然本文没有提及,但其实本质上是解决了多智能体的信用分配问题。

研究痛点

1、伪收益(spuriou reward):在独立式学习的方法中从单个智能体的角度来看,环境是部分观察的,所以智能体可能会收到来自队友(未观察到的)动作的虚假收益信号,独立式学习的方法无法区分队友的探索与环境的随机性。

2、懒惰智能体(lazy agent):假设只有两个智能体,在集中式学习的方法中可能会导致只有一个智能体是活跃的,另一个智能体是懒惰的。当一个智能体学习了有用的策略,但不鼓励第二个智能体学习时,就会发生这种情况,因为其探索会阻碍第一个智能体并导致较差的团队奖励。

算法流程

1、VDN 框架图如下

2、VDN + High+Low-level communication 框架图如下

主要思路

1、每个智能体采用 DRQN 实现,其 $Q$ 值输出会合并为一个团队的 $Q$ 值,从而实现值分解网络的设计。

2、除了基础的 DRQN 架构还使用了以下方法:

  • dueling architecture
  • multi-step updates with a forward view eligibility trace

3、如果智能体之间需要进行通信,我们分别采取 High level 通信和 Low level 通信两种方式:

  • High level 通信:将 LSTM 层的输出进行 concatenation
  • Low level 通信:将全连接层层的输出进行 concatenation

4、所有智能体的网络进行参数共享,在输入中需要提供智能体的身份信息,以保证 Agent Invariance。

实验

1、在三种不同的 maze 环境中进行各种消融实验

2、实验中发现权重共享对于不同智能体具有较大不同 reward 幅度差异的环境是有问题的。

其他补充

1、本文提出的伪收益(spuriou reward)和懒惰智能体(lazy agent)问题这个角度很不错,虽然其本质是信用分配问题,但是这种说法很新颖而且直觉上接受度比较高。

2、仍然是不适合大规模智能体的办法。

3、局限于只能适用于离散动作空间。

参考资料及致谢

所有参考资料在《强化学习思考(1)前言》中已列出,再次向强化学习的大佬前辈们表达衷心的感谢!