SVM支持向量机python实现

支持向量机(Support Vector Machine, SVM)是一种强大的监督学习算法,主要用于分类和回归任务。SVM的核心思想是找到一个最优的超平面,使得不同类别的数据点能够被尽可能清晰地分开,并且这个超平面与最近的数据点之间有最大的间隔。这些最近的数据点被称为“支持向量”,因为它们决定了超平面的位置和方向。

支持向量机的关键概念

1. **最大间隔分离器**:
   - SVM的目标是找到一个超平面,该超平面能够将不同类别的数据点以最大间隔分隔开。
   - 这个间隔被称为“边际”(margin),最大化边际可以提高模型的泛化能力。

2. **支持向量**:
   - 支持向量是那些位于边际边界上的训练样本。它们对超平面的位置和方向起决定性作用。
   - 一旦确定了支持向量,其他非支持向量的训练样本对模型没有影响。

3. **核技巧**:
   - 对于线性不可分的数据,SVM通过使用核函数(kernel function)将数据映射到高维空间,在那里可能更容易找到一个合适的分割面。
   - 常见的核函数包括线性核、多项式核、径向基函数(RBF)核和Sigmoid核。

4. **软间隔**:
   - 在实际应用中,数据往往不是完全线性可分的。SVM引入了软间隔(soft margin)的概念,允许一些数据点在边际内或错误分类。
   - 通过正则化参数 \( C \) 来控制误差项的惩罚程度,\( C \) 越大,对误分类的惩罚越重。

### 支持向量机的工作原理

1. **线性可分情况**:
   - 当数据线性可分时,SVM寻找一个超平面 \( w \cdot x + b = 0 \),使得两个类别的数据点分别位于超平面的两侧,并且距离超平面最近的数据点(支持向量)到超平面的距离最大。
   - 目标是最小化 \( \frac{1}{2} \|w\|^2 \),同时满足 \( y_i (w \cdot x_i + b) \geq 1 \) 的约束条件,其中 \( y_i \) 是类别标签(+1 或 -1)。

2. **线性不可分情况**:
   - 当数据线性不可分时,引入松弛变量 \( \xi_i \) 来允许某些数据点违反边际约束。
   - 目标是最小化 \( \frac{1}{2} \|w\|^2 + C \sum \xi_i \),同时满足 \( y_i (w \cdot x_i + b) \geq 1 - \xi_i \) 和 \( \xi_i \geq 0 \) 的约束条件。

3. **核技巧**:
   - 通过核函数 \( K(x, x') \) 将原始特征空间中的数据点映射到高维特征空间。
   - 在高维空间中,数据可能变得线性可分,从而可以使用线性SVM进行分类。
   - 常见的核函数包括:
     - 线性核:\( K(x, x') = x \cdot x' \)
     - 多项式核:\( K(x, x') = (x \cdot x' + c)^d \)
     - RBF核(高斯核):\( K(x, x') = \exp(-\gamma \|x - x'\|^2) \)
     - Sigmoid核:\( K(x, x') = \tanh(\alpha x \cdot x' + c) \)

### 优点
- **高效性**:在高维空间中表现良好,尤其是在特征数量大于样本数量的情况下。
- **鲁棒性**:由于只依赖于支持向量,对噪声和异常值具有一定的鲁棒性。
- **灵活性**:通过选择不同的核函数,可以处理各种类型的数据分布。

### 缺点
- **计算复杂度**:当训练样本数量非常大时,计算复杂度较高。
- **参数选择**:核函数的选择及其参数设置对性能影响较大,需要仔细调参。
- **解释性**:相比于一些简单的模型,SVM的解释性较差。

 代码实现

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report, confusion_matrix

import matplotlib.pyplot as plt

# 生成数据集
np.random.seed(42)
X = np.r_[
    np.random.randn(50, 2) - [2, 2],  # 类别0
    np.random.randn(50, 2) + [2, 2]   # 类别1
]
y = np.array([0] * 50 + [1] * 50)

# 可视化数据
plt.scatter(X[y == 0, 0], X[y == 0, 1], label='Class 0', color='blue')
plt.scatter(X[y == 1, 0], X[y == 1, 1], label='Class 1', color='red')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Generated Data')
plt.legend()
plt.show()

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 创建SVM分类器实例
svm_clf = SVC(kernel='linear', C=1.0, random_state=42)  # 线性核函数

# 训练模型
svm_clf.fit(X_train, y_train)

# 预测
y_pred = svm_clf.predict(X_test)

# 评估模型
print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

刚刚的代码实现了线性分类

核函数:

支持向量机(SVM)中使用的核函数有很多种,每种核函数都有其特定的应用场景和特点。以下是一些常见的核函数:

1. **线性核 (Linear Kernel)**
   - **形式**:\( K(x, y) = x^T y \)
   - **用途**:适用于线性可分的数据集。
   - **特点**:简单且计算效率高。

2. **多项式核 (Polynomial Kernel)**
   - **形式**:\( K(x, y) = (x^T y + c)^d \),其中 \( c \) 是常数项,\( d \) 是多项式的次数。
   - **用途**:适用于需要捕捉特征之间交互效应的情况。
   - **特点**:可以通过调整 \( d \) 来控制模型的复杂度。

3. **径向基函数核 (RBF Kernel, 也称高斯核)**
   - **形式**:\( K(x, y) = \exp(-\gamma \|x - y\|^2) \),其中 \(\gamma > 0\) 是一个参数。
   - **用途**:适用于大多数情况,特别是当数据不是线性可分时。
   - **特点**:具有很强的灵活性,可以适应各种形状的数据分布,但可能会导致过拟合。

4. **Sigmoid核 (Sigmoid Kernel)**
   - **形式**:\( K(x, y) = \tanh(\alpha x^T y + c) \),其中 \(\alpha\) 和 \(c\) 是参数。
   - **用途**:模拟神经网络中的激活函数。
   - **特点**:较少使用,因为它可能导致非正定的核矩阵。

5. **拉普拉斯核 (Laplacian Kernel)**
   - **形式**:\( K(x, y) = \exp(-\gamma \|x - y\|) \),其中 \(\gamma > 0\) 是一个参数。
   - **用途**:类似于RBF核,但在某些情况下可能更适合处理稀疏数据。
   - **特点**:对异常值更鲁棒。

6. **Spline核 (Spline Kernel)**
   - **形式**:\( K(x, y) = \prod_{i=1}^n \max(0, 1 - |x_i - y_i| / \delta) \),其中 \(\delta\) 是一个参数。
   - **用途**:适用于平滑函数的建模。
   - **特点**:在某些情况下可以提供更好的平滑效果。

7. **ANOVA核 (ANOVA Kernel)**
   - **形式**:\( K(x, y) = \sum_{i=1}^d \exp(-\sigma (x_i - y_i)^2) + \kappa \sum_{i < j} \exp(-\sigma (x_i - y_i)^2 - \sigma (x_j - y_j)^2) \),其中 \(\sigma\) 和 \(\kappa\) 是参数。
   - **用途**:适用于多维数据,特别是在处理高维特征时。
   - **特点**:可以捕捉特征之间的相互作用。

8. **弦核 (Chordal Kernel)**
   - **形式**:\( K(x, y) = \sin^{-1}(x^T y / (\sqrt{x^T x} \sqrt{y^T y})) \)
   - **用途**:适用于处理球面或单位圆上的数据。
   - **特点**:适用于几何空间中的数据。

如何选择核函数

- **线性问题**:如果数据是线性可分的,通常选择线性核,因为它的计算效率最高。
- **非线性问题**:对于非线性可分的数据,RBF核是一个常用的选择,因为它对参数敏感度较低,且能够很好地处理多种类型的数据分布。
- **特定领域知识**:有时候基于领域知识,可以选择更适合问题特性的核函数,比如在某些图像处理任务中,多项式核可能更合适。

在`scikit-learn`中设置核函数yingyying

from sklearn.svm import SVC

# 线性核
svm_linear = SVC(kernel='linear')

# 多项式核
svm_poly = SVC(kernel='poly', degree=3, coef0=1)

# RBF核
svm_rbf = SVC(kernel='rbf', gamma='scale')

# Sigmoid核
svm_sigmoid = SVC(kernel='sigmoid', coef0=0.0)

# 自定义核函数
def custom_kernel(x, y):
    return np.dot(x, y.T)  # 示例:自定义线性核

svm_custom = SVC(kernel=custom_kernel)

应用:

支持向量机(SVM)是一种非常强大的机器学习算法,适用于多种实际问题。以下是一些常见的应用场景:

### 1. **文本分类**
- **垃圾邮件检测**:SVM可以用来区分垃圾邮件和正常邮件。
- **情感分析**:通过训练SVM模型来识别文本中的正面或负面情感。
- **文档分类**:将文档分类到不同的类别,如新闻文章、科研论文等。

### 2. **图像识别与计算机视觉**
- **手写字符识别**:SVM在手写数字识别任务中表现出色,例如MNIST数据集。
- **面部识别**:用于人脸识别系统中的特征提取和分类。
- **物体检测**:在图像中检测特定的物体,如行人、车辆等。

### 3. **生物信息学**
- **基因表达分析**:用于识别不同条件下的基因表达模式。
- **蛋白质结构预测**:预测蛋白质的二级结构。
- **疾病诊断**:根据基因表达数据或其他生物标志物进行疾病诊断。

### 4. **金融领域**
- **信用评分**:评估客户的信用风险。
- **股票市场预测**:基于历史数据预测股票价格走势。
- **欺诈检测**:检测信用卡交易中的欺诈行为。

### 5. **医疗健康**
- **医学影像分析**:辅助医生进行医学影像的诊断,如X光片、MRI等。
- **患者分类**:根据患者的特征将其分类为不同的风险组。
- **药物发现**:在药物筛选过程中识别潜在的有效化合物。

### 6. **自然语言处理**
- **命名实体识别**:从文本中识别出人名、地名、组织名等。
- **句子分类**:将句子分类为不同的类别,如陈述句、疑问句等。
- **语义角色标注**:识别句子中的语义角色,如主语、宾语等。

### 7. **推荐系统**
- **用户偏好预测**:根据用户的历史行为预测其可能感兴趣的内容。
- **物品分类**:将物品分类到不同的类别,以便更好地进行推荐。

### 8. **工业应用**
- **质量控制**:在制造过程中检测产品缺陷。
- **故障诊断**:根据传感器数据预测设备故障。
- **能源管理**:优化能源使用,预测能源需求。

### 9. **网络安全**
- **入侵检测**:检测网络中的异常行为,识别潜在的安全威胁。
- **恶意软件检测**:识别和分类恶意软件。

### 10. **社交媒体分析**
- **内容过滤**:自动过滤掉不当内容。
- **用户行为分析**:分析用户的行为模式,提供个性化服务。

### 11. **环境科学**
- **空气质量预测**:基于历史数据预测空气质量指数。
- **气候变化研究**:分析气候数据,预测未来的气候变化趋势。

### 12. **电子商务**
- **客户细分**:根据客户的购买行为和偏好将其分为不同的群体。
- **价格优化**:根据市场需求和竞争情况优化产品价格。

### 13. **语音识别**
- **说话人识别**:识别不同人的声音。
- **语音命令识别**:识别用户的语音命令并执行相应的操作。

### 总结
SVM因其在高维空间中的强大分类能力、对噪声的鲁棒性以及良好的泛化性能,在许多实际问题中得到了广泛应用。选择合适的核函数和参数调优是成功应用SVM的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/894701.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud无介绍快使用,单机Eureka服务注册中心cloud-eureka-server7001搭建(十)

TOC 问题背景 从零开始学springcloud微服务项目 注意事项&#xff1a; 约定 > 配置 > 编码IDEA版本2021.1这个项目&#xff0c;我分了很多篇章&#xff0c;每篇文章一个操作步骤&#xff0c;目的是显得更简单明了controller调service&#xff0c;service调dao项目源码以及…

微软的 Drasi:一种轻量级的事件驱动编程方法

微软的开源数据变化处理平台有望提供一种全新的方式来构建和管理可产生持续事件流的云应用程序。 Microsoft Azure 孵化团队是微软超大规模云中比较有趣的组成部分之一。它介于传统软件开发团队和研究组织之间&#xff0c;致力于构建大规模分布式系统问题的解决方案。 这些解决…

Kettle9.4支持Clickhouse数据源插件开发以及性能测试

前言 最近业务这边有个指标需要用到大数据这边的列式数据库进行处理&#xff0c;由于kettle不支持clickhouse数据源驱动&#xff0c;这里查了一下网上的相关资料&#xff0c;发现了一些别人开发好的驱动包&#xff0c;下载下来后使用效果不尽人意。总结下来有以下几个问题&…

【C++】string类(接口使用详解 下)

我们接着【C】string类&#xff08;接口使用详解 上&#xff09;-CSDN博客 继续介绍string的使用。 1.string类对象的修改操作 我们就说一下用的比较多的接口。 1.1 operator 这个接口可以尾插一个字符&#xff0c;或者一个字符串&#xff0c;或者一个对象。 string s1(&qu…

回归测试内容多,时间紧,人还少,怎么办?

问答网站上看到一个提问&#xff1a; 项目进入测试&#xff0c;但回归测试内容多&#xff0c;发布时间紧迫&#xff0c;人还少&#xff0c;要怎么做&#xff1f; 标准答案应该是自动化测试 回归测试主要关注的是历史功能&#xff0c;如果自动化测试覆盖率达到一定程度的话&…

lazyLoad

//1.通过React的lazy函数配合import()函数动态加载路由组件 > 路由组件代码会被分开打包 const Login lazy(()>import(/pages/Login)) //2.通过<Suspense>指定在加载得到路由打包文件前显示一个自定义loading界面 <Suspense fallback{<h1&…

探索Spring Cloud Config:构建高可用的配置中心

目录 认识Spring Cloud ConfigConfig Server读取配置文件步骤1&#xff1a;&#xff08;1&#xff09;创建config-server项目&#xff08;2&#xff09;在config-server中开启Config Server功能&#xff08;3&#xff09;在config-server配置文件进行相关配置&#xff08;4&…

计算机毕业设计Python深度学习房价预测 房源可视化 房源爬虫 二手房可视化 二手房爬虫 递归决策树模型 机器学习 深度学习 大数据毕业设计

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 房地产是促进我国经济持续增…

征程 6E DISPLAY 功能介绍及上手实践

01 功能概述 本文将带大家一起实现单路、多路 MIPI CSI TX 输出、IDU 回写、IDU oneshot 模式、绑定输出 VPS 数据等功能&#xff0c;此处主要介绍各 sample 的实现与使用方法。 02 软件架构说明 本文中绑定 VPS 输出功能基于 libvio API 实现&#xff0c;调用 libvio 提供的…

Ubuntu16.04安装openssl库

Ubuntu16.04安装openssl库 Chapter1 Ubuntu16.04安装openssl库 Chapter1 Ubuntu16.04安装openssl库 原文链接&#xff1a;https://blog.csdn.net/weixin_36584476/article/details/107321893 记录一下省得忘了 1.首先去openssl官网下载源码www.openssl.org/source/&#xff0…

西瓜书书本内容杂谈

西瓜书书本内容杂谈 把圈子变小&#xff0c;把语速放缓&#xff0c;把心放宽&#xff0c;把生活打理好 只能说快速过了一遍&#xff0c;花了一个多星期吧&#xff0c;然后后边的内容是一点也看不懂了&#xff08;能发现前面记得比较详细&#xff0c;到了后边是看不懂一点了&a…

音视频基础知识分享

音视频基础知识分享 RKMedia的各个组件及其交互 首先上图&#xff1a; 考虑到公司业务主要是相机&#xff0c;所以&#xff0c;主要去关注图像数据流&#xff0c;对于音频数据流直接忽略。 图像数据流向&#xff1a; Camera Sensor将光信号转换成电信号&#xff08;Raw数据&…

基于语音识别的停车共享小程序(lw+演示+源码+运行)

目 录 1 绪论1 1.1 课题研究背景1 1.2 研究现状1 1.3 论文结构安排1 2 系统关键技术2 2.1 微信小程序2 2.2 微信Web开发者工具2 2.3 JavaScript简介2 2.4 微信小程序API接口2 2.5 MYSQL数据库2 3 系统分析1 3.1 可行性分析1 3.1.1 技术可行性1 3.1.2 经济可行性1…

如何查看公众号真实粉丝数,2024年还有哪些粉丝百万以上的大号?

如何查看公众号真实粉丝数&#xff1f;很简单&#xff0c;写了个脚本一键获取&#xff0c;看看2024年还有哪些粉丝百万以上的大号&#xff1f; 猫笔刀这个号2018-2024年的所有历史文章&#xff0c;共1168篇&#xff0c;导出的excel文章数据包含文章日期&#xff0c;文章标题&a…

bean的实例化2024年10月17日

跟不上为基础 1.你的java学习路线 2. 3.课程 注解的装配 contoller调用service用的是注解装配

【Linux】解答:为什么创建目录文件,硬链接数是2;创建普通文件时,硬链接数是1?(超详细图文)

前言 大家好吖&#xff0c;欢迎来到 YY 滴Linux系列 &#xff0c;热烈欢迎&#xff01; 本章主要内容面向接触过C的老铁 主要内容含&#xff1a; 欢迎订阅 YY滴C专栏&#xff01;更多干货持续更新&#xff01;以下是传送门&#xff01; YY的《C》专栏YY的《C11》专栏YY的《Lin…

我在自动化测试方面犯过的3个大错误

每个人都会犯错误&#xff0c;但不管错误看起来有多糟糕&#xff0c;你都可以恢复过来&#xff0c;更重要的是&#xff0c;从错误中学习。 在软件开发过程的任何领域&#xff0c;从编码到测试&#xff0c;我们都会时不时地犯一些错误。通常&#xff0c;这些错误都很小&#xf…

从零开始学PHP之安装开发环境

前言 不整那些虚的&#xff0c;直接开始上干货&#xff0c;争取让小白也看得懂 环境选择 php开发环境一般分为集成环境和编译环境&#xff0c;由于编辑环境费时费力&#xff08;我没搞明白&#xff09;直接使用集成环境&#xff0c;市面上php的集成环境很多我这里用的是phps…

Java—类和对象习题讲解

如果您觉得这篇文章对您有帮助的话 欢迎您一键三连&#xff0c;小编尽全力做到更好 欢迎您分享给更多人哦 目录 习题一&#xff1a; 习题二&#xff1a; 习题三&#xff1a;.import static 能够导入一些静态方法 习题四&#xff1a; 习题五&#xff1a; 习题六&#xff1…

IDEA如何用maven打包(界面和命令两种方式)

前言 我们在使用IDEA开发时&#xff0c;如果是springboot项目的话&#xff0c;一般是用maven来管理我们的依赖的。然后&#xff0c;当我们开发完成之后&#xff0c;就需要打包部署了。 那么&#xff0c;我们应该如何打包呢&#xff1f; 如何打包&#xff08;jar包&#xff09…