四、西瓜书——支持向量机

第六章 支持向量机

1.间隔与支持向量

        支持向量机的原理是寻找与支持向量具有最大间隔的划分超平面。支持向量机具有一个重要性质: 训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关.

        首先,超平面的方程为:

        

        点到超平面的距离为:

         

        

        两个异类支持向量到超平面的距离之和为(间隔) 

        

         

       在满足约束条件下最大化间隔:

         

         

        2.对偶问题

        通过拉格朗日对偶定理可以推出原问题的对偶问题等价于:

         

        其中, 

        

        KKT条件为:

        

3.核函数

        在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面。对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分.例如在图 6.3 中若将原始的二维空间映射到一个合适的三维空间,就能找到一个合适的划分超平面.幸运的是,如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分.         

        

        但是求解无穷维的内积是困难的,因此,我们引入核函数:

         

         

定理 6.1表明只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用.事实上,对于一个半正定核矩阵,总能找到一个与之对应的映射.换言之,任何一个核函数都隐式地定义了一个称为“再生核希尔伯特空间”(Reproducing Kernel Hilbert Space,简称 RKHS)的特征空间

        

4.软间隔与正则化

       在前面的问题中,我们一直假定训练样本在样本空间或特征空间中是线性可分的,即存在一个超平面能将不同类的样本完全划分开.然而,在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分;退一步说,即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.

        缓解该问题的一个办法是允许支持向量机在一些样本上出错.为此,要引入“软间隔”(soft margin)的概念。具体来说,前面介绍的支持向量机形式是要求所有样本均满足约束(6.3),即所有样本都必须划分正确,这称为“硬间隔”(hard margin),而软间隔则是允许某些样本不满足约束:

 此时,恰好在最大间隔边界上的点为支持向量。

        当然,在最大化间隔的同时,不满足约束的样本应尽可能少.于是,优化目标可替换为:

        于是,训练级的误差可写成更为一般的形式:

                

5.支持向量回归

           

 

         此时,支持向量必定落在间隔带之外。

6.核方法

                 

         

第七章 贝叶斯分类器

1.贝叶斯决策论

        贝叶斯判定准则(Bayes decision rule):为最小化总体风险,只需在每个样本上选择那个能使条件风险 R(c|a)最小的类别标记,即        

        

         

于是,最小化分类错误率的贝叶斯最优分类器为

 根据贝叶斯定理:

        其中,P(c)是类“先验”(prior)概率; P(x|c)是本 相对于类记c的类条件概率(class-conditional probability),或称为“似然”(likelihood); P(x)是用于归一化的“证据”(evidence)因子.对给定样本,证据因子 P(x)与类标记无关,因此估计P(c|x)问题就转化为如基于练据D来估计先验P(c) 和似然P(x|c). 

        类先验概率 P(c) 表达了样本空间中各类样本所占的比例,根据大数定律当训练集包含充足的独立同分布样本时,P(c)可通过各类样本出现的频率来进行估计.
        对类条件概率 P(x|c) 来说由于它涉及关于所有属性的联合概率,直接根据样本出现的频率来估计将会遇到严重的困难。

2.极大似然估计

                

··         

 

3.朴素贝叶斯分类器

        朴素贝叶斯分类器采用了“属性条件独立性假设”,对已知类别,假设所有属性相互独立.换言之,假设每个属性独立地对分类结果发生影响.        

        

        

         朴素贝叶斯分类器的训练过程就是基于训练集 D来估计类先验概率P(c),并为每个属性估计条件概率 P(xi|c) 

        令D表示训练集D中第 c 类样本组成的集合,若有充足的独立同分布样本,则可容易地估计出类先验概率:

       

连续属性可以使用其概率分布函数:

                 

        为了避免连乘式中出现概率为0的情况,使用拉普拉斯修正。

 

4.半朴素贝叶斯分类器    

        半朴素贝叶斯分类器的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系.“独依赖估计”是半朴素贝叶
斯分类器最常用的一种策略.顾名思议所谓“独依赖”就是假设每个属性在类别之外最多仅依赖于一个其他属性,即     

         

        

        

        AODE是一种基于集成学习机制、更为强大的独依赖分类器,与SPODE 通过模型选择确定超父属性不同AODE,尝试将每个属性作为超父来构建 SPODE,然后将那些具有足够训练数据支撑的 SPODE 集成起来作为最终结果,即

     

5.贝叶斯网

        贝叶斯网亦称“信念网”,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布.

         

结构:

        在“同父”结构中给定父结点x1的取值x3与x4条件独立

        在“顺序”结构z中,给定x的值,则y与条件独立

        V型结构(Vstructure)亦称“冲撞”结构,给定子结点x4的取值x1与x2必不独立,若x4的取值完全未知则V型结构下x1与x2是相独立的:

         

        

        

        学习

        常用评分函数通常基于信息论准则,此类准则将学习问题看作一个数据压缩任务,学习的目标是找到一个能以最短编码长度描述训练数据的模型

        需要注意的是,网络越复杂,拟合程度越好,似然越大,而网络越简单,拟合程度越差,似然越小。

推断

        最理想的是直接根据贝叶斯网定义的联合概率分布来精确计算后验概率,但是,这样的“精确推断”已被证明是 NP 难的[Cooper,1990];换言之当网络结点较多、连接稠密时,难以进行精确推断,此时需借助“近似推断”通过降低精度要求,在有限时间内求得近似解.在现实应用中,贝叶斯网的近似
推常使用吉布斯采样 

6.EM算法

        

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/422585.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何通过Jenkins进行自动化构建项目

1. 介绍 Jenkins 是一个开源的持续集成(CI)和持续交付(CD)工具,旨在自动化软件开发过程中的构建、测试和部署。它是一个基于 Java 编写的自动化服务器,在软件开发生命周期的各个阶段提供自动化支持。 官方…

c语言经典测试题10

1.题1 int fun( int x) {int n 0;while (x 1){n;x x | (x 1);}return n; } int main() {int ret fun(2014);printf("%d", ret);return 0; } 上述代码运行结果是什么呢? 我们来分析一下:这里的fun函数有一个while循环,其判断…

改造小技巧:如何将客厅与阳台完美连通?福州中宅装饰,福州装修

问1:什么户型结构更适合客厅打通阳台? 一般来说,现代、简约或者开放式的户型结构更适合将客厅与阳台打通。这样可以通过移除非承重墙来增加室内采光和空间感。需要注意的是,在打通之前,需要考虑房屋的结构和承重墙的位…

Qt下使用modbus-c库实现PLC线圈/保持寄存器的读写

系列文章目录 提示:这里是该系列文章的所有文章的目录 第一章:Qt下使用ModbusTcp通信协议进行PLC线圈/保持寄存器的读写(32位有符号数) 第二章:Qt下使用modbus-c库实现PLC线圈/保持寄存器的读写 文章目录 系列文章目录…

【活动】前端世界的“祖传代码”探秘:从古老魔法到现代重构

作为一名前端工程师,我时常在项目中邂逅那些被岁月打磨过的“祖传代码”。它们就像古老的魔法书页,用HTML标签堆砌起的城堡、CSS样式表中的炼金术,以及JavaScript早期版本中舞动的符咒。这些代码承载着先驱们的探索精神和独特智慧&#xff0c…

内网信息搜集

目录 内网基础知识 基本流程图 怎么判断是否在域内 常规信息类收集-应用&服务&权限等 cs信息搜集 bloodhound安装及使用 内网基础知识 工作组:将不同的计算机按照功能分别列入不同的组,想要访问某个部门的资源,只要在【网络】里…

种地,成了“糊咖”最好的医美

在《种地吧,少年》(后简称《种地吧》)第二季上线后,这部综艺开启了在骨朵、猫眼、灯塔、艺恩各大综艺榜单的持续霸榜。上线至今,有一半的时间占据在日榜单热度TOP1的位置。 根据灯塔专业版数据显示,《种地…

《TCP/IP详解 卷一》第8章 ICMPv4 和 ICMPv6

目录 8.1 引言 8.1.1 在IPv4和IPv6中的封装 8.2 ICMP 报文 8.2.1 ICMPv4 报文 8.2.2 ICMPv6 报文 8.2.3 处理ICMP报文 8.3 ICMP差错报文 8.3.1 扩展的ICMP和多部报文 8.3.2 目的不可达和数据包太大 8.3.3 重定向 8.3.4 ICMP 超时 8.3.5 参数问题 8.4 ICMP查询/信息…

selenium爬虫

方法选择和安装包 在动态网页并且登陆过程中不需要进行过于复杂的密码验证的时候使用selenium会非常的方便 安装准备过程也相对简单: 下载对应版本的chromedriver并且通过如下代码找到路径下载到python所在的目录: import sysprint(sys.executable) …

Bert-as-service 学习

pip3 install --user --upgrade tensorflow 安装遇到的问题如下: pip3 install --user --upgrade tensorflow 1052 pip uninstall protobuf 1053 pip3 uninstall protobuf 1054 pip3 install protobuf3.20.* 1055 pip3 install open-clip-torch2.8.2 1…

C++/数据结构:AVL树

目录 一、AVL树的概念 二、AVL树的实现 2.1节点定义 2.2节点插入 三、AVL树的旋转 3.1新节点插入较高左子树的左侧:右单旋 3.2新节点插入较高右子树的右侧:左单旋 3.3新节点插入较高左子树的右侧---左右:先左单旋再右单旋 3.4新节点插…

数据结构篇十:红黑树

文章目录 前言1. 红黑树的概念2. 红黑树的性质3. 红黑树节点的定义4. 红黑树的插入4.1 情况一: cur为红,p为红,g为黑,u存在且为红4.2 情况二: cur为红,p为红,g为黑,u不存在/u存在且为黑。4.2.1 …

C++:内存管理|new和delete

创作不易,感谢三连支持! 一、内存分布 为什么需要内存管理呢??因为我们在程序的运行过程中会需要各种各样的数据,而我们根据数据的不同存储在不同的区域里面,是为了更高效地处理数据。而C语言相比Java来说…

Docker与虚拟机比较

在对比Docker和虚拟机前,先简单了解下虚拟化,明确Docker和虚拟机分别对应的虚拟化级别,然后对Docker和虚拟机进行比较。需要注意的是,Docker和虚拟机并没有什么可比性,而是Docker使用的容器技术和虚拟机使用的虚拟化技…

Linux 基础之 sar 工具详解

文章目录 一、前言二、配置说明三、使用说明(一)sar语法(二)sar选项(三)示例示例1示例2示例3示例4示例5示例6示例7示例8示例9示例10其他示例11其他示例12用于排查性能常用的命令 一、前言 sar(System Acti…

【无标题】TMGM官网平台切尔西足球俱乐部合作

TMGM作为一家在三大洲均设有办事处的行业领导者,TMGM 被视为可靠的差价合约交易提供商,其重点是监管合规、技术创新与他联系➕🛰️TMGM818卓越的客户服务。 切尔西足球俱乐部在亚太地区拥有庞大的球迷群体,并在该地区建立了多种亚…

Java中==与equals()的区别

关于“对比”类型的面试题,建议回答时包括: 多个对比项有什么相同/相似之处 多个对比项的区别 在应用中应该如何选取 可能的话,加入一些扩展。 变量与对象是2个不同的概念 Object a = new Object(); 以上代码中的a就是变量,在内存中实际存在的数据就是对象。 所有引…

五大跨平台桌面应用开发框架:Electron、Tauri、Flutter等

hello,我是贝格前端工场,本次介绍跨平台开发的框架,欢迎大家评论、点赞。 一、什么是跨平台桌面应用开发框架 跨平台桌面应用开发框架是一种工具或框架,它允许开发者使用一种统一的代码库或语言来创建能够在多个操作系统上运行的…

使用 frp 实现 windows 远程

前提条件: 拥有一台公网 ip 的服务器; 被远程控制的 windows 系统为专业版(家庭版的其它方式没有尝试过); frp 下载包及使用说明 frp release 包的下载网址:https://github.com/fatedier/frp/releases 中…

人工智能基础——模型部分:模型介绍、模型训练和模型微调 !!

文章目录 前言 一、什么是模型 二、什么是模型训练 三、什么是模型微调 前言 本文将从什么是模型?什么是模型训练?什么是模型微调?三个问题,来展开介绍人工智能基础的模型部分。 模型族谱 一、什么是模型 模型是一个函数&#x…