- 引言:深度强化学习适用于满足场景固定、数据廉价这两个要求的问题求解。本节对场景固定进行详细的论述。
- 术语:深度强化学习(DRL)
条件一:场景固定(两个分布一致)
- 场景固定指的是,保证训练环境和部署环境中,输入数据和状态转移概率这两个分布保持一致。下文通过DRL与监督学习的异同引出这两个分布。
- DRL 与监督学习的共同点
- DRL与监督学习追求的是独立同分布下的内插泛化能力。
- DRL 与监督学习的不同点
- DRL在监督学习的基础上具有了主动在环境中采样的特权。
- DRL 与监督学习分别在优化什么
- 监督学习:进行关于输入数据的单分布定制优化;
- DRL:进行关于输入状态和状态转移概率的双定制优化。
- 算法从输入状态中学习
定制化的数据特征提取能力
; - 算法从中状态转移概率中学习
基于上述特征的定制化決策或估值能力
。
- 算法从输入状态中学习
状态分布一致
- 状态分布 p ( s ) p(s) p(s)是由初始状态分布 p ( s 0 ) p(s_0) p(s0)、策略 π ( a ∣ s ) \pi(a|s) π(a∣s)和状合转移概率 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a)共同决定的。其根本的影响因素还是来自环境的固有属性。
- 如下图所示的不同风格的围棋,若训练时使用(a)图左侧的图作为输入,部署时将游戏切换到右侧的极简风格,“化石”风格上,则原来的神经网络将无法提取出有效的高层特征,从而导致之前习得的技能失效。
- 抽象化预处理:作为状态空间设计的一种方法,可以有效的解决当前的问题。如图1-4(b),使用矩阵对棋盘信息进行表示,可以避免神经网络对棋盘和棋子具体物理属性的过拟合问题。
- 但不是所有的任务都可以使用抽象化预处理来保证状态分布的一致性。例如1-4所示的二维导航任务。在(a)上训练的技能在(b)上会失效。但是在训练时采用随机的方法生成具有相同分布的地图,如图1-5(c),并假设算法训练成功并成功收敛,那么状态分布将会扩展到更大的范围(1-5()d所示)。从而神经网络会学习同分布陌生地图上的内插泛化。
状态转移概率分布一致
- 状态转移概率分布一致:指的是状态s下,采用动作a后,进入下一个状态s‘的概率分布 p ( s ′ ∣ s , a ) p(s'|s,a) p(s′∣s,a)保持不变。
- 这个概率分布一般只与环境有关,被称为环境模型(Model)。任何强化学习方法都是基于显式环境模型(Model-based)或隐式(Model-Free)地依据该分布来优化策略和值估计的。
- 如果环境模型在实际部署时发生改变,那么策略性能也会收到损害甚至完全失效。
- 举例:
- 图1-6(a) 如果在 p ( d e a d ∣ g a p , j u m p ) = 1 % , p ( l i v e ∣ g a p , j u m p ) = 99 % , p(dead|gap,jump) = 1\%,p(live|gap,jump) = 99\%, p(dead∣gap,jump)=1%,p(live∣gap,jump)=99%,的状态转移概率分布下进行训练,则智能体会选择jump;但如果部署环境的状态转移概率分布变成了 p ( l i v e ∣ g a p , j u m p ) = 1 % , p ( d e a d ∣ g a p , j u m p ) = 99 % , p(live|gap,jump) = 1\%,p(dead|gap,jump) = 99\%, p(live∣gap,jump)=1%,p(dead∣gap,jump)=99%,,则智能体之前学习的经验都会失效。
- 图1-6(b)当对手(绿色小人)的 状态转移概率变化之后,红色小人训练好的经验也会失效。
条件二:数据廉价
- DRL天然地需要大量的样本进行训练。具有低样本效率(Low Sample Efficiency) 的特点。
- 对于设计硬件实体采用贵(如机器人训练场景)、在线采样,如电商短视频领域,探索可能导致用户体验差用户流失,经济成本高。
- 针对数据贵的问题,常见的是使用模拟器进对真实环境进行仿真。由于软件系统可以并行和提速,模拟器在采样方面具有天然的优势。但模拟器的挑战在于数据质量,模拟器模拟环境与真实物理环境之间的差别带来的误差,称为Reality Gap。
- 在视频游戏、棋盘游戏等本身就在虚拟环境中部署的,或可以精准还原的问题,就不存在Reality Gap。
- 对于存在Reality Gap的场景,也可以通过DRL算法训练出具备实际价值的策略。
参考文献
- 深度强化学习落地指南