强化学习论文(9)QMIX
Published:
标签: QMIX; value-based; off-policy; model-free; discrete action space; continuous state space; cooperative task; credit assignment; centralized training with decentralized execution; value function factorization; multi-agent;
创新点及贡献
1、在 VDN 算法的基础上,对从单智能体价值函数到团队价值函数之间的映射关系进行了改进,在映射的过程中将原来的线性映射换为非线性映射,并通过超网络的引入将额外状态信息加入到映射过程,提高了模型性能。
研究痛点
1、VDN 使用对单智能体的价值函数直接求和的方法计算联合价值函数,但是限制住了团队价值函数的复杂性表达,而且没有利用到全局的状态信息。
算法流程
QMIX 框架图如下
主要思路
1、VDN 满足下述等式约束,而 QMIX 将该等式约束推广到了更大的单调函数约束上,因此该等式约束对 QMIX 来说是充分不必要的。
2、QMIX 通过提出单调性假设放松了 VDN 中对单智能体的价值函数直接求和等于联合价值函数的约束限制,其中 $Q_a$ 为单智能体的价值函数,$Q_{tot}$ 为联合价值函数,$a\in A$ 是智能体。
3、其主要结构与 VDN 类似,重点修改在于引入将额外状态信息加入到单智能体的价值函数到联合价值函数的映射过程,并将其称为 mixing network。
4、mixing network 的权重和 bias 来自于 hypernetwork 的输出。
hypernetwork 的输入为额外状态信息。
- hypernetwork 的权重生成部分主要包括一个线性与一个绝对值激活函数,以生成非负的权重,从而保证映射的单调性。
- hypernetwork 的 bias 生成部分与权重生成部分类似但不需要绝对值激活函数,而且最后的 bias 使用了用 ReLU 作激活函数的两层 hypernetwork。
5、在训练阶段生成 target 值或执行阶段生成联合动作,只需要线性的计算时间复杂度分别计算单智能体的动作再进行联合即可。
实验
1、在 Two-Step Game 上进行实验表明 QMIX 的逼近能力比 VDN 更强,QMIX 算法的效果更好。
2、在 Decentralised StarCraft Micromanagement 环境中进行实验
- 将环境修改为部分可观察环境
3、在消融实验中发现在同构智能体智能体中不一定需要非线形值函数分解,而在异构智能体中需要使用额外状态信息及非线性值函数分解才能实现更好的性能。
其他补充
1、论文中提出当任何一个智能体的最佳行动依赖于其他智能体在同一时间采取的行动的价值函数无法进行成功的分解,因此不能由 QMIX 进行表示。
2、论文将团队价值函数的等式约束推广到了单调性约束上,而且利用额外状态信息使用了 hypernetwork 来学习网络权重,这种学习权重的方式感觉比较新颖。
参考资料及致谢
所有参考资料在《强化学习思考(1)前言》中已列出,再次向强化学习的大佬前辈们表达衷心的感谢!