# [0624] Task03 深度学习基础

# [0624] Task03 深度学习基础

article2025/3/26 3:44:32/文章来源:https://blog.csdn.net/weixin_46034116/article/details/139700969

joyrl P6

参考链接：https://datawhalechina.github.io/joyrl-book/
——————
5、深度强化学习基础 ⭐️
开源内容：https://linklearner.com/learn/summary/11
——————————

高维度复杂问题

深度学习 + 强化学习

根据环境的状态和动作 预测状态值和动作值。
根据状态值和动作值 选择动作。

训练：基于大量样本对算法进行迭代更新

强化学习序列决策
深度学习打标签

线性问题： $f^\theta(\bm x)=\bm \theta^T\bm x$

拟合

动量法：考虑当前的梯度和之前的梯度。

加快梯度下降的速度，减少梯度下降过程中的震荡。

Adam：当前梯度和之前梯度的平方。

批量梯度下降
小批量梯度下降 √
随机梯度下降

线性回归均方差损失
逻辑回归交叉熵损失

全连接网络/多层感知机 (multi-layer perceptron，MLP)

神经网络近似动作值函数：
输入：状态
输出：动作值

连续动作，汽车方向盘转动角度， tanh 激活函数
输出为正， ReLU

基于线性模型的神经网络已经足够适用于大部分的强化学习问题。

卷积神经网络 CNN 网格结构 (图像、时间序列数据)
局部感受野、权重共享、池化层、归一化和 Dropout。

循环神经网络 RNN 序列数据
梯度消失、梯度爆炸
LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)

Transformer 序列数据。
自注意力。

逻辑回归：
$z=x^Tw+b$
${\rm sigmoid}(z)=\frac{1}{1+\exp(-z)}$

$l$ 层神经网络：
第 1 层： ${\bm x}^{(1)}=\sigma_1(\bm W^{(1)}{\bm x}^{(0)}+{\bm b}^{(1)})$
第 2 层： ${\bm x}^{(2)}=\sigma_2(\bm W^{(2)}{\bm x}^{(1)}+{\bm b}^{(2)})$
$\vdots$
第 $l$ 层： ${\bm x}^{(l)}=\sigma_l(\bm W^{(l)}{\bm x}^{(l-1)}+{\bm b}^{(l)})$

其中 $\sigma_i$ 为激活函数，一般有 sigmoid， softmax，ReLU，tanh 等
权重矩阵 $\bm W$ ，偏置矩阵 $\bm b$

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/740802.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

React Suspense的原理

React Suspense的原理

React Suspense组件的作用是当组件未完成加载时，显示 fallback 组件。那么 Suspense 是如何实现的呢？React 的渲染是通过 Fiber 进行的，Suspense 的更新机制也是要围绕 Fiber 架构进行的。Suspense 是由两部分组成，实际 UI 子组件…

阅读更多...

【面试题】前端移动端自适应？_前端移动端适配面试题

【面试题】前端移动端自适应？_前端移动端适配面试题

设备像素比设备像素比 (DevicePixelRatio) 指的是设备物理像素和逻辑像素的比例。比如 iPhone6 的 DPR 是2。设备像素比物理像素 / 逻辑像素。可通过 window.devicePixelRatio 获取，CSS 媒体查询代码如下 media (-webkit-min-device-pixel-ratio: 3), (min-…

阅读更多...

计算机图形学入门16：阴影映射

计算机图形学入门16：阴影映射

1.前言前面几篇关于光栅化的文章中介绍了如何计算物体表面的光照，但是着色并不会进行阴影的计算，阴影需要单独进行处理，目前最常用的阴影计算技术之一就是Shadow Mapping技术，也就是俗称的阴影映射技术。 2.阴影映射 Shadow Map…

阅读更多...

【网络协议】精讲ARP协议工作原理！图解超赞超详细！！！

【网络协议】精讲ARP协议工作原理！图解超赞超详细！！！

亲爱的用户，打开微信，搜索公众号：“风云说通信”，即可免费阅读该文章~~ 目录前言 1. ARP协议介绍 1.1 ARP协议功能 1.2 ARP请求报文 1.3 ARP工作原理 2. ARP 缓存超时 2.1 RARP 3. ARP 攻击 3.1 ARP 攻击分类前言首先…

阅读更多...

C++(part2、3-Linux系统编程+数据库项目)：Linux网络云盘

C++(part2、3-Linux系统编程+数据库项目)：Linux网络云盘

文章目录一、项目需求分析1.一期：命令行解析(1)cd(用栈管理)、ls、pwd(2)puts、gets(3)mkdir、touch、rmdir、rm 2.二期：密码验证、日志、断点续传、大文件传输(1)密码验证(2)日志(3)断点续传(4)大文件传输 3.三期：用户注册、用户登录、虚拟…

阅读更多...

生命在于学习——Python人工智能原理（4.2）

生命在于学习——Python人工智能原理（4.2）

三、Python的数据类型 3.1 python的基本数据类型特点： 表示单一的、原子性的数据。不可再分，是语言内建的最基本的数据类型。存储的是简单的数值、字符、布尔值等。在内存中通常占据固定大小的空间。 Python提供了整数、浮点数和复数三种数字类型和…

阅读更多...

JavaScript的学习之事件的简介

JavaScript的学习之事件的简介

目录一、事件是什么二、如何处理事件一、事件是什么定义：事件就是浏览器和用户之间的交互行为。例如：点击按钮、鼠标移动、关闭窗口等。二、如何处理事件我们可以在对应的事件属性中设置一些JS行为，当事件触发的时候会将这些代码执行…

阅读更多...

QT拖放事件之三：自定义拖放操作-利用QDrag来拖动完成数据的传输

QT拖放事件之三：自定义拖放操作-利用QDrag来拖动完成数据的传输

1、运行效果 1）Qt::MoveAction 2）Qt::CopyAction 2、源码 #include "Widget.h" #include "ui_Widget.h" #include "common.h"

阅读更多...

pyhon模块以及常用的第三方模块

pyhon模块以及常用的第三方模块

import my_info as info print(info.name) info.show()from my_info import * print(name) show() pyhon中包的导入 import admin.my_admin as ad # 包名.模块名 admin是包名，my_admin是模块名print(ad.name) print(ad.info())from admin import my_admin as ad # …

阅读更多...

[RPI4] 树莓派4b安装istoreos及使用 -- 1. 系统安装

[RPI4] 树莓派4b安装istoreos及使用 -- 1. 系统安装

最近在研究家庭智能化的一些东西，其中包括网络，智能家居等一系列内容，然后看过的资料有的想再回来看的时候就找不到了，然后就想着开这么一个系列，做一些记录，先从智能家居开始吧。 1 安装istoreos系统 iStoreOS 目标是提供一个人人会用的路由兼轻 NAS 系统，不管是作为路…

阅读更多...

【本地知识库】本地知识库+语言大模型=知域问答

【本地知识库】本地知识库+语言大模型=知域问答

本地知识库语言大模型知域问答本项目实质为本地知识库构建及应用，内容包含： 本地知识库构建及应用相关知识的介绍离线式本地知识库构建及应用在线式本地知识库构建及应用本地知识库构建及应用相关知识的介绍本地知识库本地知识库通常是指存储在…

阅读更多...

主播美颜工具背后的技术：视频直播美颜SDK详解

主播美颜工具背后的技术：视频直播美颜SDK详解

美颜效果是如何实现的呢？其中的关键技术就是视频直播美颜SDK。本篇文章，笔者将详细为您解答美颜SDK的核心技术和实现原理，探讨其背后的秘密。一、美颜SDK的基本原理美颜SDK的这些功能依赖于图像处理和计算机视觉技术，通过对视…

阅读更多...

Java 8 Date and Time API

Java 8 Date and Time API

Java 8引入了新的日期和时间API，位于java.time包下，旨在替代旧的java.util.Date和java.util.Calendar类。新API更为简洁，易于使用，并且与Joda-Time库的一些理念相吻合。以下是Java 8 Date and Time API中几个核心类的简要概述&…

阅读更多...

【服务器05】之【登录/注册账号成功转至游戏场景】

【服务器05】之【登录/注册账号成功转至游戏场景】

Unity登录注册数据库打开【服务器01】的文章项目导入新UI系统点击2D 双击输入栏位置修改输入框尺寸及位置放大字体修改默认输入文字发现中文字变成了口口口口原因是新UI系统不支持中文，解决这个问题需要更换字体并且修改输入时字体大小我们取电脑中找Fon…

阅读更多...

劳易测合作伙伴Pizzato P-KUBE Lite安全把手新品来袭！

劳易测合作伙伴Pizzato P-KUBE Lite安全把手新品来袭！

劳易测合作伙伴Pizzato全新 P-KUBE 系列再添新成员！——P-KUBE Lite安全把手，进一步拓展了应用范围。新产品采用高聚酯材质制成，具备卓越的抗冲击性能，确保在严苛环境下把手的耐用性。把手的设计既符合人体工程学又兼具功能性&…

阅读更多...

linux中的调试工具gdb

linux中的调试工具gdb

目录 1.背景知识补充 2.使用知识补充 1.背景知识补充 1.gcc下编译默认是release方式发布的，无法直接进行调试如果要以debug方式发布，需要携带-g 可以使用grep查询因为携带debug信息，其文件体积要大一些 2.使用 1.gdb 可执行程序 …

阅读更多...

elementplus el-table(行列互换)转置

elementplus el-table(行列互换)转置

Element Plus v2.4.0, repl v3.4.0 <template> <div><el-table :data"tableData" style"width: 100%"><el-table-column prop"name" label"名字" width"180" /><el-table-column prop"wei…

阅读更多...

【ajax基础03】常用ajax请求方法和数据提交以及axios错误处理

【ajax基础03】常用ajax请求方法和数据提交以及axios错误处理

目录一：请求方法什么是请求方法： 常见请求方法如下二：axios中应用语法格式： 案例： axios错误处理三：如何赚钱一：请求方法什么是请求方法： 浏览器对服务器资源&…

阅读更多...

Android Media Framework（八）OMXNodeInstance - Ⅰ

Android Media Framework（八）OMXNodeInstance - Ⅰ

OpenMAX框架的学习有两大难点，一是组件的状态切换与buffer的流转过程，这部分内容我们已经在IL Spec中学习过了；二是OMX组件使用的buffer类型与buffer分配过程，这一节我们来重点剖析OMX组件使用的buffer类型。 1、引言在实际应用…

阅读更多...

提取图像主色调

提取图像主色调

依赖 Pillow 库。提取图像主色调，直接上代码： from PIL import Imagedef extract_main_color(img_path: str, delta_h: float 0.3) -> str:"""获取图像主色调Args:img_path: 输入图像的路径delta_h: 像素色相和平均色相做减法的绝…

阅读更多...

最新文章