基于PyTorch的深度学习3——非标量反向传播

以下内容由大语言模型生成:

张量,边代表从输入到输出的操作。当我们对一个标量调用backward()函数时,PyTorch能够直接计算该标量关于参与运算的所有张量的梯度。这是因为导数的概念最开始是针对标量值定义的。

为什么需要传入gradient参数?

当你有一个非标量(即形状不为1的张量)并希望对其求导时,实际上你是在尝试计算这个张量关于某些变量的雅可比矩阵(Jacobian Matrix)。然而,PyTorch并不直接支持这种操作,因为它复杂化了自动微分的流程。为了简化这个问题,PyTorch要求在这种情况下提供一个额外的gradient参数,这个参数同样是一个张量,并且其形状必须与调用backward()的那个张量相同。这个gradient实际上扮演了一个“权重”的角色,用于将多维导数的问题转化为标量导数的问题。

如何理解这个过程?

考虑你的例子:假设你有一个损失向量loss=(y_1, y_2, ..., y_m),你想要根据它来更新一些模型参数。由于loss不是一个标量,你不能直接对它调用backward()。这时,你可以引入一个向量v=(v_1, v_2, ..., v_m),然后将lossv进行点乘得到一个新的标量loss*v^T(这里v^T表示v的转置,虽然在实际代码中我们不会这样写,这只是为了表达数学概念)。这个新生成的标量可以被用来调用backward()方法,从而触发梯度的计算。

具体来说,这样做实际上是计算了loss的雅可比矩阵与v的乘积。换句话说,原本你需要计算的是雅可比矩阵,但现在通过点乘转换后,你只需计算一个标量关于所需变量的梯度。这使得PyTorch的自动微分机制能够处理这种情况,而不需要直接支持张量对张量的求导。

1)定义叶子节点及计算节点。

import torch

#定义叶节点张量x,形状为1x2
x=torch.tensor([[2.3]],dtype=torch.float,requires_grad=True)

#初始化Jacobian矩阵
J=torch.zeros(2,2)

#初始化目标张量,形状为1x2
y=torch.zeros(1,2)

#定义y与x之间的映射关系:
#y1=x1**2+3*x2,y2=x2**2+2*x1
y[0,0]=x[0,0]**2+3*x[0,1]
y[0,1]=x[0,1]**2+2*x[0,0]

2)手工计算y对x的梯度

y对x的梯度是一个雅可比矩阵,可以通过手动计算值

#生成y1对x的梯度
y.backward(torch.Tensor([[1, 0]]),retain_graph=True)
##gradient的作用:传入的gradient张量扮演了一个权重的角色,它决定了每个元素在最终梯度计算中的重要
##本质上,这是将雅可比矩阵乘以这个gradient向量,从而将多维导数的问题简化为一维标量导数的问题。

J[0]=x.grad

#梯度是累加的,故需要对x的梯度清零
x.grad = torch.zeros_like(x.grad)

#生成y2对x的梯度
y.backward(torch.Tensor([[0, 1]]))

J[1]=x.grad
#显示jacobian矩阵的值
print(J)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/984206.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Dify部署踩坑指南(Windows+Mac)

组件说明 Dify踩坑及解决方案 ⚠️ 除了修改镜像版本,nginx端口不要直接修改docker-compose.yaml !!!!!!! 1、更换镜像版本 这个文件是由.env自动生成的,在.env配置 …

​​《从事件冒泡到处理:前端事件系统的“隐形逻辑”》

“那天在document见到你的第一眼,我就下定决心要陪你到天荒地老” ---React 我将从事件从出现到被处理的各个过程来介绍事件机制: 这张图片给我们展示了react事件的各个阶段,我们可以看到有DOM,合成事件层,还有…

tiktok web登录 分析

声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向分析 部分代码 response reques…

【音视频】ffplay常用命令

一、 ffplay常用命令 -x width:强制显示宽度-y height:强制显示高度 强制以 640*360的宽高显示 ffplay 2.mp4 -x 640 -y 360 效果如下 -fs 全屏显示 ffplay -fs 2.mp4效果如下: -an 禁用音频(不播放声音)-vn 禁…

手机屏幕摔不显示了,如何用其他屏幕临时显示,用来导出资料或者清理手机

首先准备一个拓展坞 然后 插入一个外接的U盘 插入鼠标 插入有数字小键盘区的键盘 然后准备一根高清线,一端链接电脑显示器,一端插入拓展坞 把拓展坞的连接线,插入手机充电口(可能会需要转接头) 然后确保手机开机 按下键盘…

基于SpringBoot的“文物管理系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“文物管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统总体功能模块图 E-R实体图 系统首页界面 系统…

微信小程序投票系统的构建与实现

在数字化时代,微信小程序已经成为人们日常生活的重要组成部分。无论是企业宣传、活动组织还是社交互动,小程序都展现出了其强大的功能和便捷的用户体验。其中,微信小程序的投票系统尤为突出,它不仅能简化投票流程,还能…

【Java篇】数据类型与变量:窥见程序的天地万象

文章目录 Java 数据类型与变量基础:从零开始,轻松掌握前言一、字面常量1.1 什么是字面常量?1.2 字面常量的分类1.2.1 字符串常量1.2.2 整形常量1.2.3 浮点数常量1.2.4 字符常量1.2.5 布尔常量1.2.6 空常量 1.3 字面常量与数据类型 二、Java 中…

绿盟春招面试题

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…

操作系统控制台-健康守护我们的系统

引言基本准备体验功能健康守护系统诊断 收获提升结语 引言 阿里云操作系统控制平台作为新一代云端服务器中枢平台,通过创新交互模式重构主机管理体验。操作系统控制台提供了一系列管理功能,包括运维监控、智能助手、扩展插件管理以及订阅服务等。用户可以…

Linux系统基于ARM平台的LVGL移植

软硬件介绍:Ubuntu 20.04 ARM 和(Cortex-A53架构)开发板 基本原理 LVGL图形库是支持使用Linux系统的Framebuffer帧缓冲设备实现的,如果想要实现在ARM开发板上运行LVGL图形库,那么就需要把LVGL图形库提供的关于帧缓冲设…

DIY Tomcat:手写一个简易Servlet容器

在Java Web开发领域,Tomcat堪称经典,它作为Servlet容器,承载着无数Web应用的运行。今天,我将带大家一同探索如何手写一个简易的Tomcat,深入理解其底层原理。 一、背景知识 在开始之前,我们需要对几个关键…

PDF转JPG(并去除多余的白边)

首先,手动下载一个软件(poppler for Windows),下载地址:https://github.com/oschwartz10612/poppler-windows/releases/tag/v24.08.0-0 否则会出现以下错误: PDFInfoNotInstalledError: Unable to get pag…

网络安全之端口扫描(一)

前置介绍 什么是DVWA? DVWA(Damn Vulnerable Web Application)是一个专门设计用于测试和提高Web应用程序安全技能的开源PHP/MySQL Web应用程序。它是一个具有多个安全漏洞的故意不安全的应用程序,供安全专业人员、渗透测试人员、…

财务会计域——合并报表系统设计

摘要 本文主要介绍了合并报表系统的设计,包括其背景、业务流程和系统架构设计。合并报表系统可自动化生成数据,减少人为错误,确保报表合规。其业务流程涵盖数据收集、标准化、合并调整、报表生成、审核及披露等环节。系统架构设计包括数据接…

游戏引擎学习第147天

仓库:https://gitee.com/mrxiao_com/2d_game_3 上一集回顾 具体来说,我们通过隐式计算来解决问题,而不是像数字微分分析器那样逐步增加数据。我们已经涵盖了这个部分,并计划继续处理音量问题。不过,实际上我们现在不需要继续处理…

NoSQL数据库系统Cassandra学习笔记

详细文档:我用夸克网盘分享了「noSQL.pdf」,点击链接即可保存。打开「夸克APP」在线查看,支持多种文档格式转换。 链接:https://pan.quark.cn/s/dfc3864807b4 参考链接:黑马程序员NoSQL数据库系统Cassandra全套教程&a…

苹果 M3 Ultra 芯片深度解析:AI 时代的性能革命

2025 年 3 月 5 日,苹果正式发布了其史上最强 PC 芯片 ——M3 Ultra。这款基于 UltraFusion 封装技术的旗舰级 SoC,不仅延续了苹果芯片在能效比上的传统优势,更通过架构创新与硬件升级,将 AI 计算能力推向了新高度。本文将从性能突…

Qt从入门到入土(八) -打包Qt程序

前言 当你写完一个有趣的Qt程序时,想发给朋友或者家人,但是他们的电脑又没有安装Qt,那么如何直接在他们电脑上运行又不需要安装Qt呢?本篇文章会告诉你答案,本文详细的介绍了界面设计和功能实现。读完本文你不仅可以学…

使用OpenCV和MediaPipe库——实现人体姿态检测

目录 准备工作如何在Windows系统中安装OpenCV和MediaPipe库? 安装Python 安装OpenCV 安装MediaPipe 验证安装 代码逻辑 整体代码 效果展示 准备工作如何在Windows系统中安装OpenCV和MediaPipe库? 安装Python 可以通过命令行运行python --versio…