▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍

  • 1、学堂在线 视频 + 习题
  • 2、相应章节 过电子书 复习 GitHub界面链接
  • 3、总体 MOOC 过一遍

学堂在线 课程页面链接
中国大学MOOC 课程页面链接
B 站 视频链接

PPT和书籍下载网址: 【github链接】
onedrive链接:
【书】
【课程PPT】

文章目录


在这里插入图片描述

——————

回报 return: 沿着 轨迹 获得的 奖励 折扣和。
可用于 评估策略

计算 return 的值,来评估以下 3 个策略
3 种策略的区别在于第一格。 策略 1 是往下走,策略 2 是 往右走,策略 3 往下 和 往右的概率 分别为 50%。其它格相同。

计算 return

方法一: 根据定义

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

r e t u r n 3 \rm return_3 return3 实际是 状态值。

方法二: 根据状态间回报的依赖关系

v i v_i vi: 从 s i s_i si 出发获得的回报

例:
在这里插入图片描述

推导:
v 1 = r 1 + γ r 2 + γ 2 r 3 + . . . = r 1 + γ ( r 2 + γ r 3 + . . . ) = r 1 + γ v 2 v_1=r_1+\gamma r_2 + {\gamma}^2r_3+...=r_1 +\gamma(r_2+\gamma r_3+...)=r_1+\gamma v_2 v1=r1+γr2+γ2r3+...=r1+γ(r2+γr3+...)=r1+γv2
v 2 = r 2 + γ r 3 + γ 2 r 4 + . . . = r 2 + γ ( r 3 + γ r 4 + . . . ) = r 2 + γ v 3 v_2=r_2+\gamma r_3 + {\gamma}^2r_4+...=r_2 +\gamma(r_3+\gamma r_4+...)=r_2+\gamma v_3 v2=r2+γr3+γ2r4+...=r2+γ(r3+γr4+...)=r2+γv3
v 3 = r 3 + γ r 4 + γ 2 r 1 + . . . = r 3 + γ ( r 4 + γ r 1 + . . . ) = r 3 + γ v 4 v_3=r_3+\gamma r_4 + {\gamma}^2r_1+...=r_3 +\gamma(r_4+\gamma r_1+...)=r_3+\gamma v_4 v3=r3+γr4+γ2r1+...=r3+γ(r4+γr1+...)=r3+γv4
v 4 = r 4 + γ r 1 + γ 2 r 2 + . . . = r 4 + γ ( r 1 + γ r 2 + . . . ) = r 4 + γ v 1 v_4=r_4+\gamma r_1 + {\gamma}^2r_2+...=r_4 +\gamma(r_1+\gamma r_2+...)=r_4+\gamma v_1 v4=r4+γr1+γ2r2+...=r4+γ(r1+γr2+...)=r4+γv1

写成矩阵形式
[ v 1 v 2 v 3 v 4 ] = [ r 1 r 2 r 3 r 4 ] + γ [ v 2 v 3 v 4 v 1 ] = [ r 1 r 2 r 3 r 4 ] + γ [ 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 ] [ v 1 v 2 v 3 v 4 ] v = r + γ P v \begin{align*} \begin{bmatrix} v_1 \\ v_2 \\ v_3 \\ v_4 \\ \end{bmatrix} &= \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \\ \end{bmatrix} + \gamma\begin{bmatrix} v_2 \\ v_3 \\ v_4 \\ v_1 \end{bmatrix}\\ &= \begin{bmatrix} r_1 \\ r_2 \\ r_3 \\ r_4 \\ \end{bmatrix} + \gamma\begin{bmatrix} 0 & 1 & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1\\ 1 & 0 & 0 & 0 \end{bmatrix}\begin{bmatrix} v_1\\ v_2 \\ v_3 \\ v_4 \\ \end{bmatrix}\\ \mathbf{v}&=\mathbf{r}+\gamma\mathbf{P}\mathbf{v} \end{align*} v1v2v3v4 v= r1r2r3r4 +γ v2v3v4v1 = r1r2r3r4 +γ 0001100001000010 v1v2v3v4 =r+γPv

Bellman 方程的核心思想:从一种状态出发所获得的收益依赖于从其他状态出发所获得的收益。

从不同状态出发得到的 return , 依赖于 从其它状态 出发得到的 return。

Bootstrapping: 从自己出发不断迭代

在这里插入图片描述


State value 状态值 v π ( s ) v_\pi(s) vπ(s)

P2 状态值

G t G_t Gt 的期望【期望值/均值】
状态值函数 / 状态值: v π ( s ) = E [ G t ∣ S t = s ] v_\pi(s)=\mathbb{E}[G_t|S_t=s] vπ(s)=E[GtSt=s]

状态值 v π ( s ) v_\pi(s) vπ(s) 取决于 状态 s s s 和 策略 π \pi π, 和 时间 t t t 无关。

多步 trajectory:
S t → A t R t + 1 , S t + 1 → A t + 1 R t + 2 , S t + 2 → A t + 2 R t + 3 , . . . S_t\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},... StAt Rt+1,St+1At+1 Rt+2,St+2At+2 Rt+3,...
折扣回报:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . G_t=R_{t+1}+\gamma R_{t+2}+{\gamma}^2R_{t+3}+... Gt=Rt+1+γRt+2+γ2Rt+3+...

  • γ ∈ [ 0 , 1 ) \gamma \in [0, 1) γ[0,1) 为折扣率

在这里插入图片描述

return VS state value
return: 针对 单个 trajectory
state value: 多个 trajectory 的 return 的平均值

  • 从 某个状态 出发,有可能得到多个 trajectory,此时得到的值可能不一样。
  • 当 从 某个状态出发,仅存在一条 trajectory,此时两者相同

在这里插入图片描述


贝尔曼公式 推导

P3 贝尔曼公式 推导

贝尔曼公式 描述了 不同状态 的 state value 之间的关系。

对于某个 trajectory:
S t → A t R t + 1 , S t + 1 → A t + 1 R t + 2 , S t + 2 → A t + 2 R t + 3 , . . . S_t\xrightarrow{A_t}R_{t+1},S_{t+1}\xrightarrow{A_{t+1}}R_{t+2},S_{t+2}\xrightarrow{A_{t+2}}R_{t+3},... StAt Rt+1,St+1At+1 Rt+2,St+2At+2 Rt+3,...
折扣回报:
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = R t + 1 + γ ( R t + 2 + γ R t + 3 + . . . ) = R t + 1 + γ G t + 1 \begin{align*}G_t &=R_{t+1}+\gamma R_{t+2}+{\gamma}^2R_{t+3}+...\\ &= R_{t+1}+\gamma (R_{t+2}+\gamma R_{t+3}+...)\\ &=R_{t+1}+\gamma G_{t+1}\end{align*} Gt=Rt+1+γRt+2+γ2Rt+3+...=Rt+1+γ(Rt+2+γRt+3+...)=Rt+1+γGt+1
状态值
v π ( s ) = E [ G t ∣ S t = s ] = E [ R t + 1 + γ G t + 1 ∣ S t = s ] = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] \begin{align*}v_\pi(s)&=\mathbb{E}[G_t|S_t=s] \\ &=\mathbb{E}[R_{t+1}+\gamma G_{t+1}|S_t=s]\\ &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma \mathbb{E}[G_{t+1}|S_t=s]\end{align*} vπ(s)=E[GtSt=s]=E[Rt+1+γGt+1St=s]=E[Rt+1St=s]+γE[Gt+1St=s]
其中
即时奖励 均值
E [ R t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) E [ R t + 1 ∣ S t = s , A t = a ] = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r \begin{align*}\mathbb{E}[R_{t+1}|S_t=s] &= \sum_a\pi(a|s)\mathbb{E}[R_{t+1}|S_t=s, A_t=a]\\ &=\sum_a\pi(a|s)\sum_rp(r|s, a)r\end{align*} E[Rt+1St=s]=aπ(as)E[Rt+1St=s,At=a]=aπ(as)rp(rs,a)r
未来奖励 【延迟奖励】均值
E [ G t + 1 ∣ S t = s ] = ∑ s ′ E [ G t + 1 ∣ S t = s , S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ E [ G t + 1 ∣ S t + 1 = s ′ ] p ( s ′ ∣ s ) = ∑ s ′ v π ( s ′ ) p ( s ′ ∣ s ) = ∑ s ′ v π ( s ′ ) ∑ a p ( s ′ ∣ s , a ) π ( a ∣ s ) \begin{align*}\mathbb{E}[G_{t+1}|S_t=s] &= \sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_t=s, S_{t+1}=s^{\prime}]p(s^{\prime}|s)\\ &=\sum_{s^{\prime}}\mathbb{E}[G_{t+1}|S_{t+1}=s^{\prime}]p(s^{\prime}|s)\\ &= \sum_{s^{\prime}} v_\pi (s^{\prime})p(s^{\prime}|s)\\ &= \sum_{s^{\prime}} v_\pi (s^{\prime})\sum_ap(s^{\prime}|s, a)\pi(a|s)\end{align*} E[Gt+1St=s]=sE[Gt+1St=s,St+1=s]p(ss)=sE[Gt+1St+1=s]p(ss)=svπ(s)p(ss)=svπ(s)ap(ss,a)π(as)

表征状态值 之间关系 的 贝尔曼公式:

在这里插入图片描述
——————————————
PDF 补充:

贝尔曼公式:

v π ( s ) = ∑ a π ( a ∣ s ) [ ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) ] v_\pi(s)=\sum\limits_{a}\pi(a|s)\Big[\sum\limits_{r}p(r|s,a)r + \gamma \sum\limits_{s^\prime}p(s^\prime|s,a)v_\pi(s^\prime)\Big] vπ(s)=aπ(as)[rp(rs,a)r+γsp(ss,a)vπ(s)]

贝尔曼公式 的 另两种等效写法:

等效 写法一:
p ( s ′ ∣ s , a ) = ∑ r p ( s ′ , r ∣ s , a )      p(s^\prime|s, a)=\sum\limits_{r}p(s^\prime,r|s, a)~~~~ p(ss,a)=rp(s,rs,a)     后续是否 进入 某个状态 取决于 回报

p ( r ∣ s , a ) = ∑ s ′ p ( s ′ , r ∣ s , a )      p(r|s, a)=\sum\limits_{s^\prime}p(s^\prime,r|s, a)~~~~ p(rs,a)=sp(s,rs,a)     获得 某个回报 的概率 取决于 后续状态

v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ ∑ r p ( s ′ , r ∣ s , a ) [ r + γ v π ( s ′ ) ] ) v_\pi(s)=\sum\limits_a\pi(a|s)\textcolor{blue}{\sum\limits_{s^\prime}\sum\limits_rp(s^\prime,r|s, a)}[r+\gamma v_\pi(s^\prime)]) vπ(s)=aπ(as)srp(s,rs,a)[r+γvπ(s)])

等效 写法二 : 某些问题的 回报 r r r 仅取决于 下一状态 s ′ s^\prime s
v π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) [ r ( s ′ ) + γ v π ( s ′ ) ] v_\pi(s)=\sum\limits_a\pi(a|s)\sum\limits_{s^\prime}p(s^\prime|s,a)[r(s^\prime)+\gamma v_\pi(s^\prime)] vπ(s)=aπ(as)sp(ss,a)[r(s)+γvπ(s)]

——————————————

2.5 示例:确定 相应的贝尔曼方程

如何写出 Bellman 方程并逐步计算状态值

如何写出 Bellman 方程并逐步计算状态值。

在这里插入图片描述
在这里插入图片描述
示例 2:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
上一个 示例采取的策略 计算得到的 v π ( s 1 ) v_\pi(s_1) vπ(s1) 比当前 这个示例 大, 因为 上一个 示例直接往下走, 当前这个示例 有 50% 的 概率 会 往 右走,进入 禁区。


P4 贝尔曼公式的 矩阵 和 向量 形式

状态值
v π ( s ) = E [ R t + 1 ∣ S t = s ] + γ E [ G t + 1 ∣ S t = s ] = ∑ a π ( a ∣ s ) ∑ r p ( r ∣ s , a ) r + γ ∑ a π ( a ∣ s ) ∑ s ′ p ( s ′ ∣ s , a ) v π ( s ′ ) = r π ( s ) + γ ∑ s ′ p π ( s ′ ∣ s ) v π ( s ′ ) \begin{align*}v_\pi(s) &=\mathbb{E}[R_{t+1}|S_t=s]+\gamma \mathbb{E}[G_{t+1}|S_t=s] \\ &=\sum_a\pi(a|s)\sum_rp(r|s, a)r + \gamma\sum_a \pi(a|s)\sum_{s^{\prime}} p(s^{\prime}|s, a)v_\pi (s^{\prime})\\ &= r_\pi(s)+\gamma\sum_{s^{\prime}}p_\pi(s^{\prime}|s)v_\pi(s^{\prime})\end{align*} vπ(s)=E[Rt+1St=s]+γE[Gt+1St=s]=aπ(as)rp(rs,a)r+γaπ(as)sp(ss,a)vπ(s)=rπ(s)+γspπ(ss)vπ(s)

v π ( s i ) = r π ( s i ) + γ ∑ s j p π ( s j ∣ s i ) v π ( s j ) v_\pi(s_i)=r_\pi(s_i) + \gamma\sum_{s_j}p_\pi(s_j|s_i)v_\pi(s_j) vπ(si)=rπ(si)+γsjpπ(sjsi)vπ(sj)
v π = r π + γ P π v π \bm v_\pi=\bm{r}_\pi+\gamma \bm P_\pi \bm v_\pi vπ=rπ+γPπvπ

状态转移矩阵:
在这里插入图片描述
在这里插入图片描述

求解 贝尔曼方程

求解 贝尔曼方程 是进行策略评估的 重要步骤。

在这里插入图片描述

证明: v k v_k vk 最终 收敛到 v π v_\pi vπ
归纳法
定义 误差 Δ k = v k − v π \Delta_k = v_k-v_\pi Δk=vkvπ, 只需证明 Δ k → 0 \Delta_k\to0 Δk0
将用到的等式
1、贝尔曼公式 v π = r π + γ P π v π v_\pi = r_\pi + \gamma P_\pi v_\pi vπ=rπ+γPπvπ
2、 v k + 1 = Δ k + 1 + v π v_{k + 1} =\Delta_{k +1}+v_\pi vk+1=Δk+1+vπ
3、 v k = Δ k + v π v_k=\Delta_k+v_\pi vk=Δk+vπ
————————
v k + 1 = r π + γ P π v k v_{k + 1} = r_\pi + \gamma P_\pi v_k vk+1=rπ+γPπvk
——> Δ k + 1 + v π = r π + γ P π ( Δ k + v π ) \Delta_{k +1}+v_\pi=r_\pi+\gamma P_\pi(\Delta_k+v_\pi) Δk+1+vπ=rπ+γPπ(Δk+vπ)
——> Δ k + 1 = − v π + r π + γ P π Δ k + γ P π v π = γ P π Δ k \Delta_{k +1}= -v_\pi+r_\pi+\gamma P_\pi\Delta_k+\gamma P_\pi v_\pi =\gamma P_\pi\Delta_k Δk+1=vπ+rπ+γPπΔk+γPπvπ=γPπΔk
迭代递推
Δ k + 1 = γ P π Δ k = γ 2 P π 2 Δ k − 1 = γ 3 P π 3 Δ k − 2 = . . . = γ k + 1 P π k + 1 Δ 0 \Delta_{k +1}=\gamma P_\pi\Delta_k=\gamma^2 P_\pi^2\Delta_{k-1}=\gamma^3 P_\pi^3\Delta_{k-2}=...=\gamma ^{k+1}P_\pi^{k+1}\Delta_0 Δk+1=γPπΔk=γ2Pπ2Δk1=γ3Pπ3Δk2=...=γk+1Pπk+1Δ0
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


Action value 动作值 q π ( s , a ) q_\pi(s, a) qπ(s,a)

P5 Action value: 选哪个 action

State value VS Action value
State value:从 某个状态 出发 获得 的平均回报。 v π ( s ) v_\pi(s) vπ(s)
Action value: 从某个状态出发,进行动作后的平均回报。 q π ( s , a ) q_\pi(s, a) qπ(s,a)

在这里插入图片描述

在这里插入图片描述
动作值 = 即时奖励的均值 + 未来奖励的均值。

在这里插入图片描述

先计算 state values, 再计算 action values 。
在没有模型的情况下,通过数据直接计算 action values。

在这里插入图片描述
状态值 和 回报的关系: 状态值是 agent 从该状态出发所能获得的收益的平均值

状态值 和 动作值的关系: 一方面,状态值是 该状态的 动作值的平均值。另一方面,动作值 依赖于 agent 在采取动作后可能过渡到的下一个状态的状态值。
v π ( s ) = ∑ a π ( a ∣ s ) q π ( s , a ) v_\pi(s)=\sum\limits_a\pi(a|s)q_\pi(s, a) vπ(s)=aπ(as)qπ(s,a)

用 动作值 的贝尔曼方程

q π ( s , a ) = ∑ r p ( r ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) ∑ a ′ ∈ A ( s ′ ) π ( a ′ ∣ s ′ ) q π ( s ′ , a ′ ) q_\pi(s, a)=\sum\limits_rp(r|s, a)r+\gamma\sum\limits_{s^\prime}p(s^{\prime}|s,a)\sum\limits_{a^\prime \in\cal A(s^\prime)}\pi(a^\prime|s^\prime)q_\pi(s^\prime,a^\prime) qπ(s,a)=rp(rs,a)r+γsp(ss,a)aA(s)π(as)qπ(s,a)

—————————————————————————————————

习题笔记:

  • State value:折扣回报的期望值。
  • 状态值 v π ( s ) v_\pi(s) vπ(s)策略、状态有关。不是 动作
  • 贝尔曼方程 描述了所有状态值之间的关系。
  • 每一个状态都对应一个贝尔曼方程。
  • 动作值(action value) q π ( s , a ) q_\pi(s, a) qπ(s,a) 和动作、状态和策略有关。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/716257.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

算法课程笔记——线段树维护哈希

算法课程笔记——线段树维护哈希 提前空出来

手机NFC功能别再闲置,打开它,体验安全、智能生活!

最初仅在中高端手机中普及的NFC功能,随着技术成熟、成本降低,如今已逐渐成为千元手机的标配,在华为等一众品牌手机中广泛应用。而随着国内NFC功能应用的兴起,围绕NFC技术耗电情况与潜在风险的讨论也越来越多。其实,了解…

GStreamer——教程——基础教程4:Time management

基础教程4:Time management(时间管理) 目标 本教程展示了如何使用GStreamer时间相关工具。特别是: 如何查询管道以获取流位置或持续时间等信息。如何寻找(跳转)到流内的不同位置(时间&#x…

图知识蒸馏综述:算法分类与应用分析

源自:软件学报 作者:陈哲涵 黎学臻 注:若出现无法显示完全的情况,可 V 搜索“人工智能技术与咨询”查看完整文章 摘 要 图数据, 如引文网络, 社交网络和交通网络, 广泛地存在现实生活中. 图神经网络凭借强大的表现力受到广泛…

PyQt5 生成py文件不能运行;pushButton点击事件;QTextEdit 获取输入框内容

目录 cant open file c.pyuic: c.pyuic $FileName$ -o $FileNameWithoutExtension$.p PyQt5 生成py文件不能运行 pushButton点击事件 QTextEdit 获取输入框内容 整体运行代码: Creating a Qt Widget Based Application | Qt Creator Manual cant open file c.pyuic: c.…

爬虫初学篇——看完这些还怕自己入门不了?

初次学习爬虫,知识笔记小分享 学scrapy框架可看:孤寒者博主的【Python爬虫必备—>Scrapy框架快速入门篇——上】 目录🌟 一、🍉基础知识二、🍉http协议:三、🍉解析网页(1) xpath的用…

Vim基础操作:常用命令、安装插件、在VS Code中使用Vim及解决Vim编辑键盘错乱

Vim模式 普通模式(Normal Mode): 这是 Vim 的默认模式,用于执行文本编辑命令,如复制、粘贴、删除等。在此模式下,你可以使用各种 Vim 命令来操作文本。插入模式(Insert Mode)&#…

Qt实现单例模式:Q_GLOBAL_STATIC和Q_GLOBAL_STATIC_WITH_ARGS

目录 1.引言 2.了解Q_GLOBAL_STATIC 3.了解Q_GLOBAL_STATIC_WITH_ARGS 4.实现原理 4.1.对象的创建 4.2.QGlobalStatic 4.3.宏定义实现 4.4.注意事项 5.总结 1.引言 设计模式之单例模式-CSDN博客 所谓的全局静态对象,大多是在单例类中所见,在之前…

来自工业界的知识库 RAG 服务(四),FinGLM 竞赛冠军项目详解

背景介绍 在 前一篇文章 中介绍过智谱组织的一个金融大模型 RAG 比赛 FinGLM 以及 ChatGLM反卷总局 团队的项目,这篇文章继续介绍下获得冠军的馒头科技的技术方案。 建议不了解比赛背景信息的可以先查看 来自工业界的知识库 RAG 服务(三),FinGLM 竞赛获…

STM学习记录(六)————串口的发送接收

文章目录 前言一、串口结构体及库函数二、实现串口发送(库函数)1.程序设计2.代码 三.串口接收1.串口接收(普通)2.串口中断接收3. 串口发送字符串函数4.串口实现printf(重定向)5. 串口实现scanf(…

五大维度大比拼:ChatGPT比较文心一言,你的AI助手选择指南

文章目录 一、评估AI助手的五个关键维度二、ChatGPT和文心一言的比较 评估AI助手的五个关键维度,以及ChatGPT和文心一言的比较如下: 一、评估AI助手的五个关键维度 界面友好性 : 评估标准:用户界面是否直观易用,是否…

详解 HBase 的架构和基本原理

一、基本架构 StoreFile:保存实际数据的物理文件,StoreFile 以 HFile 的格式 (KV) 存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的MemStore:写缓存&#…

Samba 服务器的搭建以及windows server 2008客户端的使用实验报告

一、 实验目的 通过 Samba 服务器的搭建,基本了解搭建服务器的基本步骤,理解 Samba 服务器的实现文件共享的功能,如何配置 Samba服务器配置文件等。 二、 实验环境 准备一台安装 centOS7系统的 Linux 虚拟机作为 Samba 服务器 server,准备…

手机ip地址怎么换成成都的

随着互联网的快速发展,我们越来越依赖于网络进行各种操作。而在某些情况下,为了更好地享受网络服务或保护个人隐私,我们可能需要改变手机的IP地址。本文将详细介绍如何将手机IP地址换成成都的,同时提醒大家在操作过程中需要注意的…

如何学习创建和使用 Java 归档(JAR)文件

1. 简介 JAR(Java ARchive)文件是一种用于打包多个Java类、资源文件和元数据的压缩文件格式。它在Java开发和发布过程中扮演着重要角色。通过使用JAR文件,开发者可以将应用程序的所有组件打包在一个文件中,方便分发和部署。 2. …

二次元资源汇总

获取更多资源,请关注公众号:阿宇的编程之旅,回复‘书签’获取 动漫网站 动漫世界 网站名称:动漫世界网址:nav.acgsq.com介绍:中国最大最权威的正版动漫网站,提供漫画、动画、资讯、论坛等全方…

一些激活函数

一些激活函数 摘要激活函数分类sigmoidTanhSoftsignSoftmaxReLUSoftplusNoisy ReLULeaky ReLUPReluELUSELUSwishGELUGLUGEGLUMishMaxout 摘要 本篇博客对一些激活函数进行总结,以便加深理解和记忆 激活函数分类 饱和激活函数:sigmoid、tanh… 非饱和激…

短链接生成器排名前三!长链接转化成短链接工具有哪些?

在现今的网络营销环境中,短链接的应用越来越广泛。它不仅能简化长链接,提高分享效果,还能提升企业品牌形象和用户体验。于是,市场上涌现出众多短链接生成工具。本文将为您揭秘短链接生成器排名前三的产品,帮您找到最适…

ABB工业喷涂机器人保养,轻松搞定!

小伙伴都知道机器人在长时间的使用下,难免遇到一些机械手故障。一旦发生了机器人故障,会影响整个生产线的作业,那么怎么才能做到防止机器人的故障率发生呢?定期的保养与维护显得尤为重要,一个好的维修保养服务商也很重…

yml配置文件快速上手

yml配置文件快速上手 springboot中,有三种文件可以作为配置文件 xml文件(不推荐,臃肿)application.propertis文件(层次不够分明)yml文件(推荐,层次分明,语法简洁) yml文件的基本语…