7.深度学习概述

深度学习概述

  • 1. 线性回归
    • 1.1 线性回归一般表达式
    • 1.2 线性回归内积表达方式:
    • 1.3 多个样本时,线性回归的进一步表达:
    • 1.4 线性回归方程的解析
    • 1.5 线性回归就是求loss函数的最小值
  • 2. 如何求函数最小值
    • 2.1 一个例子
    • 2.2 求导法——求最小值
    • 2.3 求导法存在的问题
    • 2.4 迭代法——求最小值
  • 3. 代码实现
    • 3.1 手动求函数最小值
    • 3.2 使用pytorch求函数最小值

原文: https://blog.csdn.net/Deadwalk/article/details/139606252?spm=1001.2014.3001.5502

1. 线性回归

1.1 线性回归一般表达式

  • y = f ( x ) = x 1 w 1 + x 2 w 2 + . . . + x n w n + b y = f(x) = x_1w_1 + x_2w_2 + ... + x_nw_n + b y=f(x)=x1w1+x2w2+...+xnwn+b
    • ( x 1 、 x 2 、 x n ) :输入特征向量 ( x ) 的各个特征值,代表输入数据的特征。 (x_1、x_2、x_n):输入特征向量 ( x ) 的各个特征值,代表输入数据的特征。 (x1x2xn):输入特征向量(x)的各个特征值,代表输入数据的特征。
    • ( w 1 、 w 2 、 w n ) :权重向量 ( w ) 的各个权重值,用来衡量每个特征对输出的影响程度。 (w_1、w_2、w_n):权重向量 ( w ) 的各个权重值,用来衡量每个特征对输出的影响程度。 (w1w2wn):权重向量(w)的各个权重值,用来衡量每个特征对输出的影响程度。
    • ( b ) :偏置项,也称为截距项,用来调整模型的输出值,即在没有特征输入时的输出值。 ( b ):偏置项,也称为截距项,用来调整模型的输出值,即在没有特征输入时的输出值。 (b):偏置项,也称为截距项,用来调整模型的输出值,即在没有特征输入时的输出值。
    • ( y ) :模型的输出值,即线性回归模型对输入特征的预测值。 ( y ):模型的输出值,即线性回归模型对输入特征的预测值。 (y):模型的输出值,即线性回归模型对输入特征的预测值。

1.2 线性回归内积表达方式:

  • y = f ( x ) = x @ w + b y = f(x) = x@w+ b y=f(x)=x@w+b
    • x @ w :特征向量 ( x ) 与权重向量 ( w ) 的内积 x@w:特征向量 ( x ) 与 权重向量( w ) 的内积 x@w:特征向量(x)与权重向量(w)的内积

1.3 多个样本时,线性回归的进一步表达:

  • y = f ( X ) = X @ w + b y = f(X) = X@w+ b y=f(X)=X@w+b
    • X :特征矩阵,矩阵的行是一条一条的样本,矩阵的列是多个特征向量。 X:特征矩阵,矩阵的行是一条一条的样本,矩阵的列是多个特征向量。 X:特征矩阵,矩阵的行是一条一条的样本,矩阵的列是多个特征向量。

1.4 线性回归方程的解析

在这里插入图片描述
在这里插入图片描述

  • 在训练时,xy是训练集中的特征和标签,看作是常量wb是待优化的参数值,看作是变量
  • 在推理时,wb已经找到了比较合适的值固定下来,看作常量;此时x是待预测的样本的特征,是变量
  • 预测的本质:把x,求解y

1.5 线性回归就是求loss函数的最小值

  • 训练过程
    在这里插入图片描述
    • 从训练集中取出一对x 和y
    • 把x带入模型,求解预测结果y_pred
    • 找到一种方法,度量y和y_pred的误差loss
    • 由此推导:
      • loss是y和y_pred的函数;
      • y_pred是模型预测的结果,是w和b的函数;
      • 所以简单来说,loss也是w和b的函数
  • 训练的本质
    由上图推导结果可知,训练的本质就是求解loss什么时候是最小值。当w和b取得什么值的时候,loss最小。

2. 如何求函数最小值

2.1 一个例子

  • y = 2 x 2 y= 2x^2 y=2x2
    在这里插入图片描述
  • 上述这个示例中,求y最小值是比较简单的,从图形中可以看到x=0时,y=0为最小值。但是实际工程中,并不是所有的函数y=f(x)都能画出来,简单地找到最小值,此时就需要使用导数求最小值。

2.2 求导法——求最小值

  • 通过回归导数求极值的方法,我们知道大致步骤如下:
    • 第一步:求函数的导数
    • 第二步:令导数等于零
    • 第三步:解方程,求出疑似极值点
    • 第四步:验证该点是否是极值点以及是什么极值点

2.3 求导法存在的问题

  • 求导的方法是有一定前提条件的,即:
    • 第一步的求(偏)导数是可以求得的;
    • 第三步(偏)导数为零后,方程(组)是可以解的。
    • 实际工程中,上述方法是不可行的。以Llama3-8B模型为例,其有80亿个输入参数 x,按照上述的求解方法是几乎无法求得最小值的!
    • 由此可知,通过推导公式期望一次性求得最小值是不现实的;而我们可以借鉴人工智能中一个重要的思想:迭代法来逐步求解最小值。

2.4 迭代法——求最小值

  • 原理如下图:
    在这里插入图片描述
  • 随机选择一个出生点 x 0 : 随机选择一个出生点x_0: 随机选择一个出生点x0
    • 当 x 0 在最小值的左侧时: x 0 + 正数(一个非常小的正数),向右侧移动,而最小值左侧的导数是负数,所以可以看作 x 0 − 导数 当x_0在最小值的左侧时:x_0 + 正数(一个非常小的正数),向右侧移动,而最小值左侧的导数是负数,所以可以看作 x_0 - 导数 x0在最小值的左侧时:x0+正数(一个非常小的正数),向右侧移动,而最小值左侧的导数是负数,所以可以看作x0导数
    • 当 x 0 在最小值的右侧时: x 0 − 正数(一个非常小的正数),向左侧移动,而最小值右侧的导数是正数,所以也可以看作 x 0 − 导数 当x_0在最小值的右侧时:x_0 - 正数(一个非常小的正数),向左侧移动,而最小值右侧的导数是正数,所以也可以看作 x_0 - 导数 x0在最小值的右侧时:x0正数(一个非常小的正数),向左侧移动,而最小值右侧的导数是正数,所以也可以看作x0导数
    • 当 x 0 是最小值时: x 0 不需要移动,而此处的导数也正是 0 ,所以依然可以看作 x 0 − 导数 当x_0是最小值时:x_0不需要移动,而此处的导数也正是0,所以依然可以看作 x_0 - 导数 x0是最小值时:x0不需要移动,而此处的导数也正是0,所以依然可以看作x0导数
  • 梯度下降的概念
    • 在一元函数中,求函数f(x)在某一点的斜率为导数;在多元函数中,称为偏导数,也就是梯度。
    • 减去导数也就是减去梯度,这就是梯度下降法!

3. 代码实现

3.1 手动求函数最小值

  • y = 2 x 2 y= 2x^2 y=2x2
import numpy as np

def fn(x):
    """
    原始函数
    """
    return 2 * x ** 2

def dfn(x):
    """
    导函数
    """
    return 4 * x

def gradient_descent(x0, learning_rate, dfn, epochs):
    """
    使用梯度下降法求函数的最小值

    Parameters:
        x0 (float): 初始点的位置
        learning_rate (float): 学习率
        dfn (function): 导函数
        epochs (int): 迭代次数

    Returns:
        x_min (float): 最小值点的位置
    """
    for _ in range(epochs):
        x0 = x0 - learning_rate * dfn(x0)
    
    return x0

# 随机选择一个出生点
x0 = np.random.randint(low=-1000, high=1000, size=1)

# 迭代次数
epochs = 1000

# 学习率
learning_rate = 1e-2

# 使用梯度下降法求最小值
x_min = gradient_descent(x0, learning_rate, dfn, epochs)

# 输出最小值
print("最小值点的位置:", x_min)
  • f ( x , y , z ) = x 2 + y 2 + z 2 f ( x , y , z ) = x^2 + y^2 + z^2 f(x,y,z)=x2+y2+z2
import numpy as np

def df_x(x, y, z):
    """
    f 对 x 求偏导
    """
    return 2 * x

def df_y(x, y, z):
    """
    f 对 y 求偏导
    """
    return 2 * y

def df_z(x, y, z):
    """
    f 对 z 求偏导
    """
    return 2 * z

# 随机选择出生点
x0 = np.random.randint(low=-1000, high=1000, size=(1,))
y0 = np.random.randint(low=-1000, high=1000, size=(1,))
z0 = np.random.randint(low=-1000, high=1000, size=(1,))

# 迭代次数
epochs = 1000

# 学习率
learning_rate = 1e-2

for _ in range(epochs):
    # 求解每个变量的偏导
    fx = df_x(x0, y0, z0)
    fy = df_y(x0, y0, z0)
    fz = df_z(x0, y0, z0)
    
    # 每个变量都减去自己的偏导
    x0 = x0 - learning_rate * fx
    y0 = y0 - learning_rate * fy
    z0 = z0 - learning_rate * fz

# 输出更新后的变量值
print("更新后的 x 值:", x0)
print("更新后的 y 值:", y0)
print("更新后的 z 值:", z0)

3.2 使用pytorch求函数最小值

  • y = 2 x 2 y= 2x^2 y=2x2
import torch

# 定义原始函数和导函数
def fn(x):
    return 2 * x ** 2

# 说明:pytorch可以通过grad函数求导,所以可以省去写导函数
# def dfn(x):
#     return 4 * x

# 随机选择出生点
# requires_grad=True用来告诉框架该变量是一个张量,需要计算梯度。
x0 = torch.randint(low=-1000, high=1001, size=(1,), 
                   dtype=torch.float32, 
                   requires_grad=True)

# 迭代次数
epochs = 1000

# 学习率
learning_rate = 1e-2

# 使用 PyTorch 进行梯度下降
for _ in range(epochs):
    # 正向传播计算损失
    loss = fn(x0)
    
    # 反向传播计算梯度
    loss.backward()
    
    # 获取梯度并更新参数
    with torch.no_grad():
        grad = x0.grad
        x0 -= learning_rate * grad
    
    # 梯度清零
    x0.grad.zero_()

# 输出最小值点的位置
print("最小值点的位置:", x0.item())

  • f ( x , y , z ) = x 2 + y 2 + z 2 f ( x , y , z ) = x^2 + y^2 + z^2 f(x,y,z)=x2+y2+z2 为例
import torch

def fn(x, y, z):
    """
        函数定义
    """
    return x**2 + y**2 + z**2


# 说明:pytorch可以通过grad函数求导,所以可以省去写导函数
# def df_x(x, y, z):
#     return 2 * x

# def df_y(x, y, z):
#     return 2 * y

# def df_z(x, y, z):
#     return 2 * z

# 随机选择出生点
x0 = torch.randint(low=-1000, high=1001, size=(1,), 
                   dtype=torch.float32, 
                   requires_grad=True)
y0 = torch.randint(low=-1000, high=1001, size=(1,), 
                   dtype=torch.float32, 
                   requires_grad=True)
z0 = torch.randint(low=-1000, high=1001, size=(1,), 
                   dtype=torch.float32, 
                   requires_grad=True)

# 迭代次数
epochs = 1000

# 学习率
learning_rate = 1e-2

# 使用 PyTorch 进行梯度下降
for _ in range(epochs):
    # 正向传播计算损失
    loss = fn(x0, y0, z0)
    
    # 反向传播计算梯度
    loss.backward()
    
    # 获取梯度并更新参数
    # 在测试阶段或者不需要计算梯度的情况下使用 torch.no_grad()
    # 以提高计算效率并避免不必要的梯度计算。
    with torch.no_grad():
        x0 -= learning_rate * x0.grad
        y0 -= learning_rate * y0.grad
        z0 -= learning_rate * z0.grad
    
    # 梯度清零
    x0.grad.zero_()
    y0.grad.zero_()
    z0.grad.zero_()

# 输出更新后的变量值
print("更新后的 x 值:", x0.item())
print("更新后的 y 值:", y0.item())
print("更新后的 z 值:", z0.item())


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/789228.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Win-ARM联盟的端侧AI技术分析

Win-ARM联盟,端侧AI大幕将起 微软震撼发布全球首款AI定制Windows PC——Copilot PC,搭载全新NPU与重塑的Windows 11系统,纳德拉盛赞其为史上最快、最强、最智能的Windows PC。该设备算力需求高达40TOPS,支持语音翻译、实时绘画、文…

1Panel 安装常见问题与解决方案指南

安装 参考 1Panel 文档 - 在线安装 部分,这里仅作常见安装失败的问题解析。 常见Q&A 收集自 1Panel微信群,论坛以及GitHub issue Q1. 安装过程中提示 docker 安装失败 [1Panel Log]: … 启动 docker Failed to enable unit: Unit file docker.ser…

哪些行业更需要TPM管理咨询公司?

当下,TPM(全面生产维护)作为一种旨在提高设备效率、降低维护成本的管理理念,已经被越来越多的行业所认可和采纳。然而,不同行业因其特性和需求的不同,对TPM管理咨询公司的需求也各有侧重。下面将探讨哪些行…

MVC架构

MVC架构 MVC架构在软件开发中通常指的是一种设计模式,它将应用程序分为三个主要组成部分:模型(Model)、视图(View)和控制器(Controller)。这种分层结构有助于组织代码,使…

Ubuntu22.04.4 LTS系统/安装Anaconda【GPU版】

安装过程 1.wget命令行下载 下载Anaconda并保存文件至本地指定目录 wget -c https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh -P ~/Downloads/anaconda3 查看是否下载好了 2.安装Anaconda 2.1 bash命令安装 bash后面是anaconda3下载好的路径 bash …

c语言数据结构--赫夫曼树的综合应用——发报机模拟器

实验内容: 输入HuffmanTree的参考标准底稿:输入一段字符串,作为发送方和接收方进行编码的统一标准,统计出现的字符种类数和出现的频度。 2)初始化HuffmanTree参数:给定报文中26个字母a-z及空格的出现频率{…

一.8 系统之间利用网络通信

系统漫游至此,我们一直是把系统视为一个孤立的硬件和软件的集合体。实际上,现代系统经常通过网络和其他系统连接到一起。从一个单独的系统来看,网络可视为一个I/O设备,如图1-14所示。当系统从主存复制一串字节到网络适配器时&…

BUG解决:postman可以请求成功,但Python requests请求报403

目录 问题背景 问题定位 问题解决 问题背景 使用Python的requests库对接物联数据的接口之前一直正常运行,昨天突然请求不通了,通过进一步验证发现凡是使用代码调用接口就不通,而使用postman就能调通,请求参数啥的都没变。 接口…

【SVN的使用- SVN的基本命令-SVN命令简写-注意事项-解决冲突 Objective-C语言】

一、SVN的更新命令:update 1.服务器如果新建了一个文件夹,yuanxing,版本变成6了, 我现在本地还只有三个文件夹,版本5, 终端里边,我们敲一个svn update, 我这儿就多了一个yuanxing文件夹, 这个就是更新,就是把服务器最新的代码下载下来, 假设服务器上大家提交了这…

WEB安全:网络安全常用术语

一、攻击类别 漏洞:硬件、软件、协议,代码层次的缺陷。 后⻔:方便后续进行系统留下的隐蔽后⻔程序。 病毒:一种可以自我复制并传播,感染计算机和网络系统的恶意软件(Malware),它能损害数据、系统功能或拦…

microblaze时钟更改出现时序问题

在使用microblaze时,我给的时钟是200MHz的时钟,但会在跑布线的时候出现时序上的问题,一开始是没有任何的头绪,知道我尝试更改时钟的频率才发现问题的所在。 当我把200MHz的时钟改为100MHz的时钟时,就不会出现时序上的…

JVM垃圾回收器详解

垃圾回收器 JDK 默认垃圾收集器(使用 java -XX:PrintCommandLineFlags -version 命令查看): JDK 8:Parallel Scavenge(新生代) Parallel Old(老年代) JDK 9 ~ JDK20: G1 堆内存中…

PHP禁止IP访问和IP段访问(代码实例)

PHP禁止IP和IP段访问 实现IP限制是Web开发中常见的需求之一&#xff0c;它可以用于限制特定IP地址的访问权限。在PHP中&#xff0c;我们可以通过一些方法来实现IP限制。 <?//禁止某个IP$banned_ip array ("127.0.0.1",//"119.6.20.66","192.168.…

二进制安装nexus

今天安装nexus&#xff0c;想看看别人怎么安装的&#xff0c;结果找了一圈&#xff0c;没有一个靠谱的&#xff0c; 有些题目是二进制安装nexus&#xff0c;内容是东家长李家短胡扯&#xff0c;一个字&#xff0c;不要脸&#xff1b; 详细安装步骤如下&#xff0c;一起学习&…

一举跃升!Cancer Discovery修正后IF30.6!

在科学出版界&#xff0c;影响因子&#xff08;IF&#xff09;被广泛认为是衡量期刊学术影响力的重要指标。每年6月&#xff0c;科睿唯安会发布期刊引证报告&#xff08;JCR&#xff09;&#xff0c;但这并不是最终结果。在10月份&#xff0c;JCR会进行统一的更新&#xff0c;包…

华为手机联系人不见了怎么恢复?3个小妙招,让我来揭秘

你是不是也曾遭遇过这样的尴尬&#xff1a;刚还在和朋友炫耀手机里的联系人名单有多么齐全&#xff0c;一转眼却发现联系人神秘失踪了&#xff1f; 当手机联系人丢失&#xff0c;我们就像是在茫茫大海中迷失方向的航海家&#xff0c;急需找到回家的路。手机联系人不见了怎么恢…

【NOI-题解】1108 - 正整数N转换成一个二进制数1290 - 二进制转换十进制1386 - 小丽找半个回文数1405 - 小丽找潜在的素数?

文章目录 一、前言二、问题问题&#xff1a;1108 - 正整数N转换成一个二进制数问题&#xff1a;1290 - 二进制转换十进制问题&#xff1a;1386 - 小丽找半个回文数问题&#xff1a;1405 - 小丽找潜在的素数&#xff1f; 三、感谢 一、前言 本章节主要对进制转换的题目进行讲解…

获超九成Gartner用户力推!FortiGate连续五年斩获“客户之选”称号

近日&#xff0c;Gartner Peer Insights™ 网络防火墙客户之选报告发布&#xff0c;Fortinet 连续第五年荣登这项权威榜单。该评选结果源于广大用户对 Fortinet 防火墙产品的真实反馈&#xff0c;是客户选择 Fortinet 的重要参考依据&#xff0c;也是FortiGate能够占据全球防火…

ArcGIS Pro入门制图教程

地理信息系统 (GIS) 是一种使用地图显示和分析数据的方式。在本教程中&#xff0c;您将学习桌面 GIS 应用程序 ArcGIS Pro 的基础知识。 新加坡的一家旅行社希望制作一款宣传册&#xff0c;用于向游客介绍距离市中心热门目的地最近的火车站。该宣传册将与带有文本信息的地图相…

CSRF靶场通关合集

目录 前言 CSRF漏洞总结 1.PiKachu靶场 1.1CSRF(get) 1.2 CSRF(post)请求 1.3 CSRF Token 2.DVWA靶场 难度低 难度中 难度高 前言 最近系统的将从web渗透到内网渗透的知识点做一个回顾,同时结合一些实战的案例来演示,下面是对刚开始学习时对靶场的一个总结. CSRF漏洞…