1 离线强化学习介绍
离线强化学习(也称为批量强化学习或完全脱策略强化学习)仅依赖于先前收集的数据集,无需进一步交互。它提供了一种利用先前收集的数据集的方法以自动学习决策策略。
离线强化学习可以被定义为 data-driven 形式的强化学习问题,即在智能体不和环境交互的情况下,来从获取的轨迹中学习经验知识,达到使目标最大化,其和Online的区别如图所示:
图 在线和离线强化学习的区别
对于训练集采用不同的离线强化学习算法进行训练,得到多样策略组。将训练好的策略模型用验证集做离线评估,将评估得到的性能最优的策略模型部署到真实环境进行上线验证。由于上线验证的机会宝贵,在离线验证的时候必须达到理想的效果在进行上线,做到上线即成功。下图为离线强化学习训练、验证及部署流程。
图 离线强化学习训练、验证及部署流程
离线强化学习算法在离线训练中使用,下图为离线训练的示意流程。相对于在线强化学习来说,其仅使用应用场景产生的历史数据集即可,通过离线强化学习算法直接训练得到数据。
图 离线强化学习算法流程
离线强化学习在离线场景下进行策略学习。离线场景中,智能体无法与环境进行交互,只能通过一批静态数据集来进行策略更新。
离线强化学习也与在线强化学习有很多一致之处,包括奖励设计、决策网络、数据四元组形式(态势、动作、奖励、下一步态势)等等。
2 离线强化学习的两种架构
2.1 免模型的离线强化学习
免模型离线强化学习算法主要特点是不学习虚拟环境模型,这里的虚拟环境指的是现实世界的映射模型。下图展示了免模型的离线强化学习直接使用历史数据对策略的值函数进行估计,基于值函数对策略进行提升。
为了避免值函数在历史数据没有覆盖到的地方产生较大的值,免模型强化学习算法通常会在值函数估计过程中引入保守化的正则项,避免产生过估计。
2.2 基于模型的离线强化学习
常规强化学习里,环境既能训练策略,又能验证策略,那么能否从离线数据还原用于 RL 训练的环境。所以基于这个考虑,基于模型的离线强化学习应运而生。基于模型的离线强化学习的流程具体如下。
- 获得历史决策数据;
- 进行环境学习;
- 得到环境模型;
- 利用强化学习算法与环境模型交互求解最优策略。
图 基于模型的离线强化学习训练整体流程
具体的,在学习环境模型时,我们通过监督学习等方式学习环境转移函数,从而得到一个与仿真环境类似的环境模型。在通过学习的环境模型与强化学习算法进行交互采集新的数据进行模型训练。
图 基于模型的离线强化学习的方法步骤