Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016,Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE
对非仿射非线性离散时间系统,提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法,根据真实系统数据学习最优跟踪控制,因此避免了求解HJB方程。Qlearning算法基于增广系统,仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制,利用期望参考轨迹的误差系统和指令生成器以获得增广系统,并且引入折扣因子,不需要内部动力学,采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”,在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”,在无完整系统模型,利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optimal tracking control of unknown discrete-time linear systems using input-output measured data,”。
model-free方法上如何收集数据是关键,off-policy允许任何控制策略生成数据,而on-policy则难以获得数据。
对非仿射非线性离散时间系统,定义指令生成器、跟踪误差和增广系统。由于model-free,f(x,u)和h®是未知的,同理增广系统F(y,u)未知。以下性能指标函数中的效用函数
折扣因子
γ
\gamma
γ只能在先验知道参考轨迹是由渐进稳定的指令生成系统产生情况下使用。参考轨迹有界,则有有界性能指标。定义值函数。贝尔曼方程形式,可定义最优值函数和最优控制策略。
非线性微分方程,难以求解,且未知增广系统动力学和效用函数。
对可容许控制策略,定义Qfunction(action-state value function),可得到最优Qfunction和等价的最优控制策略。
QLearning,