概念:
强化学习是在与环境互动中为达到一个目标而进行的学习过程
三层结构:
agent:可以理解为玩家,即某个游戏的参与方
environment:环境本身,可以理解为玩家当前所在的某个域的游戏中,比如围棋等,
goal:该游戏各个玩家的目标
state:指玩家和环境会处于某种状态的state,如在篮球游戏中,这个状态指所有球员当前的位置、速度等
action:指玩家通过某一行动,导致状态发生了变化,如围棋中,某一玩家落子,导致当前棋局中状态相比过去发生变化
reward:指agent才去了某一action之后,能得到的即时反馈,比如围棋中,某一选手落子后,能够吃掉对手棋子,那么吃掉棋子就是对玩家的即时奖励,则agent采取行动会更倾向于吃子所获得的奖励;需注意的是,reward是个即时的反馈,而goal是个长远的过程,所以需要平衡reward和goal的关系
policy:策略函数,输入是个状态state,输出是个行动action,即在围棋中将当前状态告诉策略函数,策略函数输出下一步落子的位置。
value:价值函数,策略函数取决于价值函数,价值的含义指预期将来能得到的所有奖励之和,即在当前的状态下,玩家所得到的奖励之和的期望值;可以理解为策略函数判断出action主要取决于如何使得价值函数变得更大,价值函数又分两种:
state value:状态价值函数,表示输入是个状态,输出是个实数,这个实数就是状态的价值
state-action value:状态行动价值函数,指特定状态下采取某种行动所获得的价值,如游戏中,在一个特定状态下,玩家根据状态价值函数,应该选择价值最大的的一个行动
- 目前主流核心的强化学习算法都是基于价值导向的。