张伟楠动手学强化学习笔记|第一讲(上)
人工智能的两种任务类型
- 预测型任务
- 有监督学习
- 无监督学习
- 决策型任务
- 强化学习
- 强化学习
序贯决策(Sequential Decision Making)
智能体序贯地做出一个个决策,并接续看到新的观测,知道最终任务结束
max
π
E
π
,
E
n
v
[
∑
t
=
0
T
γ
t
r
(
s
t
,
a
t
)
]
\max_{\pi} \mathbb{E}_{\pi,Env}[\sum_{t=0}^{T}\gamma^{t}r(s_t,a_t)]
πmaxEπ,Env[t=0∑Tγtr(st,at)]
强化学习的定义
通过交互学习来实现目标的计算方法
三个方面
- 感知:可以某种程度上感知环境的状态
- 动作:可以采取动作来影响状态或者达到目标
- 目标:随着时间推移最大化累计奖励
交互过程