强化学习论文（15）Lenient-DQN

less than 1 minute read

Published: July 01, 2020

标签： Lenient-DQN; value-based; off-policy; model-free; discrete action space; continuous state space; cooperative task; decentralized approach; multi-agent;

论文链接

创新点及贡献

1、论文提出了 Lenient-DQN 方法，将 leniency 方法应用到具有高维状态空间的 MA-DRL 问题中，通过将状态动作对映射到逐渐衰减的温度值，这些温度值控制对从经验池采样的负学习更新应用 leniency 处理的程度。

2、leniency 方法的目的是防止 relative overgeneralization，即当各 agent 的探索策略对其他 agent 的学习更新产生相互影响而产生噪声时，agent倾向于一个鲁棒但次优的联合策略。

3、引入了两种 leniency 机制：

retroactive temperature decay schedule (TDS) 防止过早冷却温度
$\bar{T}(s)$-Greedy 探索策略，选择最佳动作的概率基于当前状态的平均温度

研究痛点

1、MARL 问题因为 moving target problem 具有较大的非平稳性，即当前智能体的 reward 会因为别的智能体的动作而改变。

2、Hysteretic-DQNs 无法处理具有随机 reward 的合作场景，并陷入局部最优解。

3、经验池中的经验会超时失效而无法再使用。

4、leniency 方法之前都是应用在表格式方法中，没有处理高维连续状态空间。

算法流程

算法框架如下

主要思路

1、对高维连续状态进行编码为离散值

2、计算当前的温度值，分为两种方法，分别是 Average Temperature Folding (ATF) 和 Retroactive Temperature Decay Schedule (TDS)，都是为了解决初期的状态被过多访问导致温度下降过快的问题。针对每一个状态动作对都有一个温度，且需要在一开始定义好初始最大温度。