Deep Q-Network
Deep Q-Network (DQN) 是由DeepMind的Mnih等人于2013年提出的算法,该算法成功把深度学习应用到了RL领域,并(一定程度上)解决了训练不稳定的问题,在玩Atari游戏中取得了非常好的结果。
文章指出使用非线性函数拟合 Q-value 的RL算法不稳定主要因为:
- 同一个观测序列中的数据相关性较大
- 当 Q-value 发生了很小的改变,可能导致整个策略(policy)发生较大变化,从而导致 Q-value 和目标 \(r + \gamma * \max_{a'}Q(s' ,a')\) 的差距不稳定