- joyrl P6
参考链接 :https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容:https://linklearner.com/learn/summary/11
——————————
高维度 复杂问题
深度学习 + 强化学习
根据环境的状态和动作 预测 状态值 和 动作值。
根据 状态值 和 动作值 选择 动作。
训练:基于 大量样本 对算法进行迭代更新
强化学习 序列决策
深度学习 打标签
线性问题: f θ ( x ) = θ T x f^\theta(\bm x)=\bm \theta^T\bm x fθ(x)=θTx
拟合
动量法: 考虑当前的梯度 和 之前的梯度。
- 加快梯度下降的速度,减少梯度下降过程中的震荡。
Adam: 当前梯度 和 之前梯度的平方。
批量梯度下降
小批量梯度下降 √
随机梯度下降
线性回归 均方差损失
逻辑回归 交叉熵损失
全连接网络/多层感知机 (multi-layer perceptron,MLP)
神经网络 近似 动作值函数:
输入: 状态
输出: 动作值
连续动作, 汽车方向盘转动角度, tanh 激活函数
输出为 正, ReLU
基于线性模型的神经网络已经足够适用于大部分的强化学习问题。
卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。
循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)
Transformer 序列数据。
自注意力。
逻辑回归:
z = x T w + b z=x^Tw+b z=xTw+b
s i g m o i d ( z ) = 1 1 + exp ( − z ) {\rm sigmoid}(z)=\frac{1}{1+\exp(-z)} sigmoid(z)=1+exp(−z)1
~
l l l 层神经网络:
第 1 层: x ( 1 ) = σ 1 ( W ( 1 ) x ( 0 ) + b ( 1 ) ) {\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)}) x(1)=σ1(W(1)x(0)+b(1))
第 2 层: x ( 2 ) = σ 2 ( W ( 2 ) x ( 1 ) + b ( 2 ) ) {\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)}) x(2)=σ2(W(2)x(1)+b(2))
⋮ \vdots ⋮
第 l l l 层: x ( l ) = σ l ( W ( l ) x ( l − 1 ) + b ( l ) ) {\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)}) x(l)=σl(W(l)x(l−1)+b(l))
- 其中 σ i \sigma_i σi 为 激活函数, 一般有 sigmoid, softmax,ReLU,tanh 等
- 权重矩阵 W \bm W W, 偏置矩阵 b \bm b b