arXiv苹果公司新论文“Self-Play”方法训练车辆道路merge的策略
附赠自动驾驶学习资料和量产经验:链接
苹果于2020年1月28日上传arXiv新论文“Towards Learning Multi-agent Negotiations via Self-Play“。
摘要: 做出复杂、鲁棒和安全的串行决策是智能系统的核心。这一点对复杂的多代理环境下规划尤为重要,这时候代理需要预测其他代理的意图和未来可能采取的行动。传统方法将问题表述为马尔可夫决策过程(Markov Decision Process),但解决方案通常依赖于各种假设,并且在遇到极端情况时会变得脆弱。相反,通过同时探索、交互和从环境中学习,深度强化学习(Deep RL)在寻找策略方面非常有效。利用强大的Deep RL范例,证明了自我博弈(self play)的迭代过程可以逐步创建更多不同的环境,从而学习复杂而强大的多代理策略(multi-agent policies)。在具有挑战性的交通汇聚多代理仿真中,代理必须彼此进行交互和协商,以便在路上路下成功地合并。从简单环境开始,随着训练的进行,向代理“ 池(zoo)”迭代添加越来越多样化的代理来增加其复杂性。定性地发现通过自我博弈,策略会自动学习有趣的行为,例如防御性驾驶、超车、让路以及用信号灯向其他代理传达意图。此外从数量上看,合并动作的成功率从63%显着提高到98%以上。
如图以上是一个交通合并场景:绿色和红色车辆想要找到一个间隙合并进去,而一些蓝色车辆想要合并出来。 为了做出可靠的决策,车辆与道路上其他车辆进行协商至关重要。
强化学习由一种用于解决MDP的算法组成,其中代理通过执行不同的动作(action)反复与随机环境交互。 策略梯度法(policy gradient)直接优化策略参数,是一种流行的连续控制算法。他们通过找到策略函数参数的梯度来直接优化预期平均奖励(reward)函数。一种广泛使用的架构,称为行动者-批评者(actor-critic),将动作替换为批评者函数,也可以通过时间差分来学习该动作,并指导行动者或策略函数的训练。
临近策略优化(PPO,Proximal Policy Optimization )是一种在线策略梯度方法,它使用随机梯度下降来最小化新的替代(surrogate)目标函数。 与传统的策略梯度算法相比,后者通常对每个数据样本执行一次梯度更新,而PPO能够以更低的样本复杂度获得更稳定的结果。
PPO优化目标是:
其中rt(θ) 是新旧策略的概率比,At 是估计的优势函数(advantage function)。在线无模型的策略优化算法(如PPO)不使用经验重播缓存(experience replay buffer),因此在收集经验同时减少梯度更新方差是有益的。
首先描述一下模拟环境,如图以上显示了多代理的拉链合并(zipper merge)RL环境,其中代理从(A,B,C)位置之一开始,目标是到达(D,E,F)目的地之一。在每个场景(episode)的开头随机选择起点和终点位置。环境的活动空间包括了加速、转向和拐弯信号。
拉链合并,也称为双重合并(double merge),通常被认为是自主代理极具挑战性的场景。因为左车道的一些代理打算向右合并,而大多数右车道上的代理需要向左合并。信号和微妙的线索被用来协商谁先走和哪个空档被填补。规划还必须在短时间内短距内完成。
为了捕获真实道路的几何形状,使用卫星图像作为参考,并使用带注释的基于折线描述的车道来近似匹配道路的不同车道和不同曲率(图中的白线)。仿真的离散时间单位为100毫秒,帧频10 Hz。
使用离散时间运动学自行车模型来模拟环境中的车辆动力学,道路网络由直的、弯曲的和折线车道的2D图组成。 直线车道由左和右边界线建模。弯曲车道是用有指定车道宽度的Clothoids建模。 最后,任意形状的车道通过单独的左右车道边界线建模。
最简单的代理,也称智能驾驶模型(IDM,intelligent driving models),它使用自适应巡航控制(ACC)从指定车道开始执行车道保持(lane- keeping):相对于前面车辆,相应地减速和加速。 在此基础上,通过差距接受度(gap acceptance )方法添加变道(lane change)功能,从而以更安全的方式进行合并。 改变期望和起始速度和加速度,以创建不同IDM代理群(彼此驾驶有所不同)。 为了区分IDM代理,将正在学习控制的代理/车辆称为自车(ego vehicle)。
强化学习框架可学习上述拉链合并环境中的协商策略。 核心是,这里学习算法是PPO策略梯度算法的分布式形式,其中并行模拟多个环境以收集经验。 首先在包括基于规则的IDM代理的环境训练一个深层RL代理,之后用之前学习过的RL代理替换部分代理来启动自我博弈。 随着自我博弈的训练,反复向训练代理群添加更多具有更新参数的RL代理。
如图是策略函数的体系结构图。 输入分为两种类型: 第一个是场景自上而下的栅格化图像,自车位于中央;第二个是相对于自车的其他车辆相对距离、速度和加速度的低维精确测量。 这些输入通过卷积层和全连接层传递,产生三个动作:转向、加速和转向信号。
策略函数是“端到端”的,因为绕过了传统的轨迹规划和反馈控制。 策略有两个输入流,它们通过后期融合在第三层的全连接(FC3)层进行组合。 这两个流互补,栅格化提供了空间上下文,但离散且有损。 低维度的相对测量精度很高,但不能捕获道路信息。 三层卷积神经网络用于处理栅格化流。 CNN层的处理输入通道,感受野大小为4,步幅为2。
奖励函数或成本函数对于指导搜索所需的最佳策略至关重要。 将碰撞定义为两辆车边框的相交。 当车辆质心远离任何车道中心线的距离超过0.75车道宽度时,车辆就算越界。
如图所示是一组代理混合集进行自我博弈训练的场景。 基于规则的IDM代理以蓝色表示,而RL代理以红色表示。 绿色的自我代理也是RL代理。 自我代理和RL代理共享相同的政策,但他们的输入表示标准化为世界的中心(请参见图中的白色箭头)。 对于每个场景,IDM代理和RL代理混合使用不同的策略参数。
如图是算法介绍,其中公式2即PPO目标优化函数,而代理群分布的表2如下:
下面展示了一些仿真的实验结果:
先是定量结果
然后是定性结果
转向加等侯合并
超车和找间隙
让路
防守
失败例子:其他车追尾
紧急刹车