【机器学习chp7】SVM

参考1,笔记

SVM笔记.pdf

参考2:王木头视频

什么是SVM,如何理解软间隔?什么是合叶损失函数、铰链损失函数?SVM与感知机横向对比,挖掘机器学习本质_哔哩哔哩_bilibili

目录

一、SVM模型

二、构建决策函数

三、Lagrange对偶

四、软间隔

五、合页损失(只有软间隔的情况下才有损失函数)

六、软间隔下的Lagrange对偶问题

七、核函数相关

八、SVM与其他机器学习模型的联系——分析机器学习的本质


一、SVM模型

        SVM基本模型是一个线性模型,即 W^{T}X+b=0 ,该模型对所有样本进行一个度量,得到所有度量值。

二、构建决策函数

接下来就是构建损失函数,为这个度量赋予意义,对度量值乘上 \frac{1}{||w||_{2}} ,得到 \frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X}) ,它表示样本点到决策面的几何距离。所以训练模型的过程就是让这个距离最大,同时满足条件\tilde{Y}f_{\theta}^{[G]}(\tilde{X})\geqslant 0

        对于 \frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X_{i}}) 表示样本点到决策面的几何距离,即 \frac{1}{||w||_{2}}(W^{T}\tilde{X_{i}}+b) ,由于对于决策面W^{T}X+b=0,将参数 W 和 b 扩大 a 倍,决策面不会变,样本点到决策面的几何距离 \frac{1}{||w||_{2}}(W^{T}\tilde{X_{i}}+b)也不会变,那就将参数 W 和 b 扩大 a_{0} 倍,使得模型对样本点的度量 (W^{T}\tilde{X_{i}}+b) 的最小值等于1或-1,这样,距离就变成了 \frac{1}{||w||_{2}} ,这个距离就只有 w 来控制,但这个 w 受到一个约束 (W^{T}\tilde{X_{i}}+b)\geqslant 1,即目的是最大化\frac{1}{||w||_{2}},等价于最小化{||w||_{2}}

三、Lagrange对偶

        上面的损失函数为解决{||w||_{2}},为简便可写为 \frac{1}{2}{||w||_{2}},同时 w 受到一个约束 (W^{T}\tilde{X_{i}}+b)\geqslant 1.

即优化问题

                        ​​​​​​​        ​​​​​​​        ​​​​​​​             min\ \ \frac{1}{2}{||w||_{2}}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant 0

        注意,这个约束函数看似对于所有的样本都起作用,但这个约束实际上只对约束条件等0的少部分点起作用,因为一部分约束等式等0其他就一定小于0,约束失效。

        从Lagrange问题来说,这个为互补松弛性。

原问题的对偶函数为

        ​​​​​​​        ​​​​​​​        L(W, b, \lambda) = \frac{1}{2} W^T W + \sum_{i=1}^N \lambda_i \left( 1 - y^{(i)} (W^T x^{(i)} + b) \right)

四、软间隔

对于线性不可分问题,引入软间隔。

相应的优化问题为

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        min\ \ \frac{1}{2}{||w||_{2}}+\sum_{i=1}^{N}\xi _{i}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant\xi _{i}

                                                                   \xi _{i}\geqslant 0

五、合页损失(只有软间隔的情况下才有损失函数)

上面的优化问题为

        ​​​​​​​        ​​​​​​​          \min \frac{1}{2} W^T W + C \cdot \sum_{i=1}^N \left[ 1 - y^{(i)} (W^T x^{(i)} + b) \right]_+

调换一下顺序为

        ​​​​​​​        ​​​​​​​        \min \sum_{i=1}^N \left[ 1 - y^{(i)} (W^T x^{(i)} + b) \right]_++\lambda \cdot \frac{1}{2} W^T W

第一项称为经验损失项,第二项称为正则化项。

六、软间隔下的Lagrange对偶问题

优化问题为

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         min\ \ \frac{1}{2}{||w||_{2}}+\sum_{i=1}^{N}\xi _{i}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant\xi _{i}

                                                            \xi _{i}\geqslant 0

Lagrange对偶问题为

对 \alpha 的求解要用坐标轴上升法。

七、核函数相关

八、SVM与其他机器学习模型的联系——分析机器学习的本质

1、根本目标

        对于二分问题,假设存在一个上帝目标函数  T(X)=\left\{\begin{matrix} 1\\ -1 \end{matrix}\right. ,它的分类结果是完全正确的,只要给出数据,他就能正确地分出是哪一类。而机器学习的目的,是在万千的可能性中去寻找一个函数G(X)=\left\{\begin{matrix} 1\\ -1 \end{matrix}\right.,这个函数也能对X进行判断,且要让它与上帝目标函数尽可能一致,但有一个迈不过去的鸿沟,就是就是对G(X)的训练是在训练集上的,在全集上无法做到它的能力达到T(X)

        T(X) 和 G(X)的功能是对于所有的输入,得到的结果要么是1,要么是-1,这样的函数可以分为两个函数的结合,即一个是模型函数f_{\theta }(X),另一个是决策函数d_{\theta }(x),所有的样本带入到模型函数中,都可以得到一个确定的数值,然后将这个数值带入到决策函数中,判断样本是属于哪一类。

模型函数示例:

        线性模型:f(X) = W^T X + b

        非线性模型:f(X) = a_1 X^2 + a_2 X + b

决策函数示例:

        线性形式:d_{W, b}(X) = \text{sign}(W^T X + b^*)

        核形式:d_{W, b}(X) = \text{sign}\left(\sum_{i=1}^N a_{i}^{*} y_i K(x, x_i) + b^*\right)

然后要比较T(X) 和 G(X),决策函数部分不用比较,只需比较模型函数部分即可,比较模型是否一样的方法是什么呢?就是损失函数 J(\tilde{X}) ,(\tilde{X}表示训练集中的样本)。

所以机器学习问题就可以分为两部分:

(1)上帝目标函数和学习的目标函数有同样的结构,结构是模型函数和决策函数。

(2)为了让学习的模型函数与上帝函数的模型函数解决,需要损失函数和最优化损失函数的算法。损失函数就是挑选的策略,即挑选两个模型之间差异的策略。



一些资料上说,机器学习分为三部分:模型、策略(损失函数)、算法。

可以说,模型函数是在为数据赋予度量,无论模型是一次的,二次的还是高次的,都相当于通过这个模型函数,为数据空间中的数据提供了一个度量,对在模型函数上的点的度量是0,模型函数曲线相当于一个锚点。即模型函数可以为全空间的数据都赋予一个度量,对模型函数上的数据的度量是0。总结来说,f(X)=0是分界线,也是度量的锚点。这个度量是没有现实意义的。

而损失函数在为度量赋予现实意义:

(1)最小二乘法分类中损失函数为度量赋予意义

        在最小二乘法分类的例子中,训练的模型对样本的度量与上帝模型对样本的度量之间有一个服从高斯分布的误差,即

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        f_{\theta}^{[G]}(\tilde{X}) = f_{\theta}^{[T]}(X) + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2)

损失函数即度量为

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​         \left( f_{\theta}^{[G]}(\tilde{X}) - f_{\theta}^{[T]}(\tilde{X}) \right)^2\rightarrow \sigma^2

即为这个度量之间的差异赋予了一个方差的实际意义。

这里还有一个问题,即样本数据在上帝模型函数值 f_{\theta}^{[T]}(\tilde{X})是不知道的,但有样本的标签,标签值为{1,-1} ,可以把标签作为上帝函数的函数值。由于这个标签要么是1,要么是-1,所以最好对训练函数的函数值也作一下处理,即

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​              \left( tanh(f_{\theta}^{[G]}(\tilde{X})) - f_{\theta}^{[T]}(\tilde{X}) \right)^2\rightarrow \sigma^2

双曲正切处理过后其实这个 \sigma^2 已经不再是方差了,但它仍能表示训练模型的函数值与上帝模型函数值的差异的离散程度,即仍能代表损失函数。

总结一下:最小二乘分类是通过模型函数对样本数据进行度量,然后再对度量之间的差异进行一些修饰,修饰之后,变成了方差,默认方差最小时,f_{\theta}^{[G]}(\tilde{X}) = f_{\theta}^{[T]}(\tilde{X}),即f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)

(2)最大似然估计法

对度量通过sigmoid进行修饰,修饰的结果为概率值,这个概率值在于标签(上帝模型函数值),进行比较,求差异,这里的差异是似然值L(\tilde{Y},\tilde{X}|\theta )。所以最大化似然值时,f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)

(3)SVM

对度量进行修饰,这里的修饰是乘上 \frac{1}{||w||_{2}} ,即 \frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X}) 表示样本到决策面的几何距离。此时默认几何距离最大,且 \tilde{Y}f_{\theta}^{[G]}(\tilde{X})\geqslant 0 时,f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/923648.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】读取数量不定的输入数据

读取数量不定的输入数据 似乎是一个很实用的东西? 问题: 我们如何对用户输入的一组数(事先不知道具体有多少个数)求和? 这需要不断读取数据直至没有新的输入为止。(所以我们的代码就是这样设计的&#x…

HarmonyOS4+NEXT星河版入门与项目实战(20)------状态管理@ObjectLink @Observed

文章目录 1、用法图解2、案例实现1、任务类改造2、参数改造变量3、完整代码4、运行效果4、总结1、用法图解 2、案例实现 上一节的案例中,一直有一个功能没有生效,就是任务完成后对应的任务行变灰,任务字体出现中划线删除的效果。而该功能一直不生效的原因就是要改变的数据值…

2024年工信部大数据分析师证书报考条件是怎样的?有什么用

大数据分析师,乃是这样一类专业人才,他们凭借着先进且高效的数据分析技术以及各类实用工具,对规模庞大、纷繁复杂的海量数据展开全面而细致的清洗、处理、分析以及解读工作。其工作的核心目标在于为企业的决策制定提供有力依据,推…

基于vite创建的react18项目的单元测试

题外话 最近一个小伙伴进了字节外包,第一个活就是让他写一个单元测试。 嗯,说实话,在今天之前我只知道一些理论,但是并没有实操过,于是我就试验了一下。 通过查询资料,大拿们基本都说基于vite的项目&…

探秘嵌入式位运算:基础与高级技巧

目录 一、位运算基础知识 1.1. 位运算符 1.1.1. 与运算(&) 1.1.2. 或运算(|) 1.1.3. 异或运算(^) 1.1.4. 取反运算(~) 1.1.5. 双重按位取反运算符(~~&#xf…

SpringBoot - 优雅的实现【账号登录错误次数的限制和锁定】

文章目录 Pre需求实现步骤简易实现1. 添加依赖2. 配置文件3. 自定义注解4. AOP切面5. 使用自定义注解:6. 测试 附总结 Pre SpringBoot - 优雅的实现【流控】 需求 需求描述: 登录错误次数限制:在用户登录时,记录每个账号的登录错…

SRIO DRP动态速率配置说明(详细讲解)

目录 一、SRIO IP时钟结构 1、时钟内部结构 2、时钟直接的关系 3、时钟计算原理 ​二、SRIO DRP介绍 ​1、MMCM DRP配置(xapp888) 2、CPLL DRP配置(ug476) 关于CPLL DRP配置详细介绍: GTX中CPLL、QPLL DRP动态配置方法(详解)-CSDN博客…

动态规划之背包问题

0/1背包问题 1.二维数组解法 题目描述:有一个容量为m的背包,还有n个物品,他们的重量分别为w1、w2、w3.....wn,他们的价值分别为v1、v2、v3......vn。每个物品只能使用一次,求可以放进背包物品的最大价值。 输入样例…

推荐一款龙迅HDMI2.0转LVDS芯片 LT6211UX LT6211UXC

龙迅的HDMI2.0转LVDS芯片LT6211UX和LT6211UXC是两款高性能的转换器芯片,它们在功能和应用上有所差异,同时也存在一些共同点。以下是对这两款芯片的详细比较和分析: 一、LT6211UX 主要特性: HDMI2.0至LVDS和MIPI转换器。HDMI2.0输…

深度学习模型:循环神经网络(RNN)

一、引言 在深度学习的浩瀚海洋里,循环神经网络(RNN)宛如一颗独特的明珠,专门用于剖析序列数据,如文本、语音、时间序列等。无论是预测股票走势,还是理解自然语言,RNN 都发挥着举足轻重的作用。…

[STM32]从零开始的STM32 FreeRTOS移植教程

一、前言 如果能看到这个教程的话,说明大家已经学习嵌入式有一段时间了。还记得嵌入式在大多数时候指的是什么吗?是的,我们所说的学习嵌入式大部分时候都是在学习嵌入式操作系统。从简单的一些任务状态机再到复杂一些的RTOS,再到最…

《操作系统 - 清华大学》5 -4:虚拟技术

文章目录 0. 虚拟存储的定义1. 目标2.局部性原理3. 虚拟存储的思路与规则4. 虚拟存储的基本特征5. 虚拟页式存储管理5.1 页表表项5.2 示例 0. 虚拟存储的定义 1. 目标 虚拟内存管理技术,简称虚存技术。那为什么要虚存技术?在于前面覆盖和交换技术&#…

2024APMCM亚太杯数学建模C题【宠物行业】原创论文分享

大家好呀,从发布赛题一直到现在,总算完成了2024 年APMCM亚太地区大学生数学建模竞赛C题的成品论文。 给大家看一下目录吧: 目录 摘 要: 10 一、问题重述 14 二.问题分析 15 2.1问题一 15 2.2问题二 15 2.3问题三…

YOLOv8模型pytorch格式转为onnx格式

一、YOLOv8的Pytorch网络结构 model DetectionModel((model): Sequential((0): Conv((conv): Conv2d(3, 64, kernel_size(3, 3), stride(2, 2), padding(1, 1))(act): SiLU(inplaceTrue))(1): Conv((conv): Conv2d(64, 128, kernel_size(3, 3), stride(2, 2), padding(1, 1))(a…

零基础3分钟快速掌握 ——Linux【终端操作】及【常用指令】Ubuntu

1.为啥使用Linux做嵌入式开发 能广泛支持硬件 内核比较高效稳定 原码开放、软件丰富 能够完善网络通信与文件管理机制 优秀的开发工具 2.什么是Ubuntu 是一个以桌面应用为主的Linux的操作系统, 内核是Linux操作系统, 具有Ubuntu特色的可视…

VScode 连不上远程云服务器

今天下午写代码,打开 VScode 突然发现连不上云服务器了,一开始以为自己密码输错了,试了好多次,依然是这样的 经过查资料发现,应该是版本的自动升级导致的!解决方案如下: 1、删除 windows 端的 …

图像分割——区域增长

一 区域增长 图像灰度阈值分割技术都没有考虑到图像像素空间的连通性。区域增长法则正好相反,顾及像素的连接性. 方法:1)选择一个或一组种子; 2)选择特征及相似性判决准则; 3)从该种子开始向外生长&#x…

音视频相关的一些基本概念

音视频相关的一些基本概念 文章目录 音视频相关的一些基本概念RTTH264profile & levelI帧 vs IDRMP4 封装格式AAC封装格式TS封装格式Reference RTT TCP中的RTT指的是“往返时延”(Round-Trip Time),即从发送方发送数据开始,到…

春秋云境 CVE 复现

CVE-2022-4230 靶标介绍 WP Statistics WordPress 插件13.2.9之前的版本不会转义参数,这可能允许经过身份验证的用户执行 SQL 注入攻击。默认情况下,具有管理选项功能 (admin) 的用户可以使用受影响的功能,但是该插件有一个设置允许低权限用…

Linux—进程概念学习-03

目录 Linux—进程学习—31.进程优先级1.1Linux中的进程优先级1.2修改进程优先级—top 2.进程的其他概念3.进程切换4.环境变量4.0环境变量的理解4.1环境变量的基本概念4.2添加环境变量—export4.3Linux中环境变量的由来4.4常见环境变量4.5和环境变量相关的命令4.6通过系统调用获…