【机器学习】自定义数据集 使用scikit-learn中svm的包实现svm分类

一、支持向量机(support vector machines. ,SVM)概念

1. SVM 绪论

支持向量机(SVM)的核心思想是找到一个最优的超平面,将不同类别的数据点分开。SVM 的关键特点包括:

① 分类与回归

  • SVM 可以用于分类(SVC, Support Vector Classification)和回归(SVR, Support Vector Regression)。

  • 分类任务中,SVM 通过找到一个超平面,最大化不同类别之间的间隔(margin)。

  • 回归任务中,SVM 通过找到一个超平面,使得数据点尽可能接近该超平面。

② 核函数(Kernel)

  • SVM 通过核函数将数据映射到高维空间,从而解决非线性问题。

  • 常用的核函数包括:

               线性核(linear

               多项式核(poly

               径向基核(RBF, rbf

               Sigmoid 核(sigmoid

③ 支持向量

  • 支持向量是离超平面最近的数据点,它们决定了超平面的位置和方向。

2. scikit-learn 中的SVM包

SVC

  • 用于分类任务的支持向量机。

  • 主要参数:

    kernel:核函数类型(如 'linear''rbf' 等)。

    C:正则化参数,控制模型的复杂度。

    gamma:核函数的系数(仅对 'rbf''poly' 和 'sigmoid' 核有效)。

SVR

  • 用于回归任务的支持向量机。

  • 主要参数与 SVC 类似。

LinearSVC

  • 线性支持向量分类器,专门用于线性核的 SVM。

  • 比 SVC(kernel='linear') 更高效。

④ LinearSVR

  • 线性支持向量回归器,专门用于线性核的 SVM 回归。

3. SVM包中的主要参数

kernel

  • 核函数类型,默认为 'rbf'

  • 可选值:'linear''poly''rbf''sigmoid' 或自定义核函数。

C

  • 正则化参数,默认为 1.0

  • 较小的 C 值表示更强的正则化,较大的 C 值表示更弱的正则化。

gamma

  • 核函数的系数,默认为 'scale'(即 1 / (n_features * X.var()))。

  • 较小的 gamma 值表示核函数的影响范围较大,较大的 gamma 值表示核函数的影响范围较小。

④ degree

  • 多项式核的阶数,默认为 3

  • 仅对 kernel='poly' 有效。

⑤ probability

  • 是否启用概率估计,默认为 False

  • 如果为 True,可以使用 predict_proba 方法获取类别概率。

4. SVM示例代码

import numpy as np
from sklearn.svm import SVC
import matplotlib.pyplot as plt

# 1. 自定义数据集
np.random.seed(42)
X = np.random.randn(100, 2)  # 100 个样本,每个样本有 2 个特征
y = (X[:, 0] + X[:, 1] > 0).astype(np.int32)  # 根据特征的线性组合生成标签

# 2. 初始化 SVM 模型
svm_model = SVC(kernel='linear', C=1.0, random_state=42)

# 3. 训练模型
svm_model.fit(X, y)

# 4. 可视化决策边界
def plot_decision_boundary(model, X, y):
    # 创建网格点
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                         np.arange(y_min, y_max, 0.01))
    
    # 预测网格点的类别
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    # 绘制决策边界
    plt.contourf(xx, yy, Z, alpha=0.8, cmap='viridis')
    # 绘制样本点
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o', cmap='viridis')
    plt.title("SVM 决策边界")
    plt.xlabel("特征 1")
    plt.ylabel("特征 2")
    plt.show()

# 可视化决策边界
plot_decision_boundary(svm_model, X, y)

二、SVM类型

1. 线性可分支持向量机(Linear Separable SVM)

① 定义

  • 适用于数据 线性可分 的情况,即存在一个超平面可以将不同类别的样本完全分开。

  • 目标是找到一个最优超平面,使得两类样本之间的间隔(margin)最大化。

② 数学形式

  • 超平面方程:w⋅x+b=0,其中:

        w 是法向量,决定了超平面的方向。

        b 是偏置项,决定了超平面的位置。

  • 优化目标:

\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2

  • 约束条件:

y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1, \quad \forall i

        其中y_i \in \{-1, 1\} 是样本的类别标签。

③ 特点

  • 适用于数据完全线性可分的情况。

  • 通过最大化间隔,提高模型的泛化能力。

2. 线性支持向量机(Linear SVM)

① 定义

  • 适用于数据 近似线性可分 的情况,即数据中存在少量噪声或异常点,无法完全分开。

  • 引入 松弛变量(slack variables),允许部分样本违反间隔约束。

② 数学形式

  • 优化目标:

\min_{\mathbf{w}, b, \xi} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i

  • 约束条件:

y_i (\mathbf{w} \cdot \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i

        其中:

                \xi_i是松弛变量,表示第i个样本违反间隔约束的程度。

                C是正则化参数,控制模型对误分类的惩罚力度。

③ 特点

  • 通过引入松弛变量,允许部分样本误分类,提高模型的鲁棒性。

  • 适用于数据近似线性可分的情况。

3. 非线性支持向量机(Nonlinear SVM)

① 定义

  • 适用于数据 非线性可分 的情况,即无法通过一个超平面将不同类别的样本分开。

  • 通过 核函数(Kernel Function) 将数据映射到高维空间,使得数据在高维空间中线性可分。

② 数学形式

  • 核函数的作用是将原始特征空间映射到高维特征空间:

\phi: \mathbb{R}^d \to \mathbb{R}^D

        其中D > d,甚至可以是无限维。

  • 优化目标:

\min_{\mathbf{w}, b, \xi} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i

  • 约束条件:

y_i (\mathbf{w} \cdot \phi(\mathbf{x}_i) + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i

③ 常用核函数

  • 线性核(Linear Kernel)

K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i \cdot \mathbf{x}_j

  • 多项式核(Polynomial Kernel)

K(\mathbf{x}_i, \mathbf{x}_j) = (\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)^d

  • 径向基核(RBF Kernel)

K(\mathbf{x}_i, \mathbf{x}_j) = \exp(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2)

  • Sigmoid 核(Sigmoid Kernel)

K(\mathbf{x}_i, \mathbf{x}_j) = \tanh(\gamma \mathbf{x}_i \cdot \mathbf{x}_j + r)

④ 特点

  • 通过核函数,可以处理非线性可分的数据。

  • 核函数的选择对模型性能有重要影响。

4. 总结

类型适用场景核心思想关键参数/技术
线性可分支持向量机数据完全线性可分最大化间隔无松弛变量
线性支持向量机数据近似线性可分允许部分样本误分类松弛变量、正则化参数 C
非线性支持向量机数据非线性可分通过核函数映射到高维空间核函数、正则化参数 C
  • 线性可分支持向量机 是理想情况,现实中较少见。

  • 线性支持向量机 通过引入松弛变量,提高了模型的鲁棒性。

  • 非线性支持向量机 通过核函数,可以处理复杂的非线性问题。

三、自定义数据集 使用scikit-learn中svm的包实现svm分类

1. 代码示例

import numpy as np
from sklearn.svm import SVC
import matplotlib.pyplot as plt

# 1. 自定义数据集
# 生成 200 个样本,每个样本有 2 个特征
np.random.seed(42)  # 设置随机种子以确保结果可重复
X = np.random.randn(200, 2).astype(np.float32)
# 根据特征的线性组合生成标签,大于 0 标记为 1,否则标记为 0
y = (2 * X[:, 0] + 3 * X[:, 1] > 0).astype(np.int32)

# 2. 初始化 SVM 模型
# 使用线性核函数
svm_model = SVC(kernel='linear', random_state=42)

# 3. 训练模型
svm_model.fit(X, y)

# 4. 可视化决策边界和支持向量
def plot_decision_boundary(model, X, y):
    # 创建网格点
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01),
                         np.arange(y_min, y_max, 0.01))
    
    # 预测网格点的类别
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    # 绘制决策边界
    plt.contourf(xx, yy, Z, alpha=0.8, cmap='viridis')
    # 绘制样本点
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o', cmap='viridis')
    # 绘制支持向量
    plt.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1],
                s=100, facecolors='none', edgecolors='r', label='支持向量')
    plt.title("SVM 决策边界")
    plt.xlabel("特征 1")
    plt.ylabel("特征 2")
    plt.legend()
    plt.show()

# 可视化训练集的决策边界和支持向量
plot_decision_boundary(svm_model, X, y)

2. 代码解释

① 自定义数据集

  • X = np.random.randn(200, 2).astype(np.float32)

         生成 200 个样本,每个样本有 2 个特征。

         使用 np.random.randn 生成符合标准正态分布的随机数。

   astype(np.float32) 将数据类型转换为 32 位浮点数。

  • y = (2 * X[:, 0] + 3 * X[:, 1] > 0).astype(np.int32)

         根据特征的线性组合生成标签。

         公式 2 * X[:, 0] + 3 * X[:, 1] > 0 表示特征的线性组合是否大于 0。

         大于 0 的样本标记为 1,否则标记为 0

   astype(np.int32) 将标签转换为 32 位整数。

② 初始化 SVM 模型

  • svm_model = SVC(kernel='linear', random_state=42)

         使用线性核函数初始化 SVM 模型。

         kernel='linear' 表示使用线性核函数。

         random_state=42 确保每次运行代码时结果一致。

③ 训练模型

  • svm_model.fit(X, y)

         使用训练集数据训练 SVM 模型。

④ 可视化决策边界和支持向量

  • plot_decision_boundary 函数:

        绘制 SVM 的决策边界和支持向量。

        使用 np.meshgrid 创建网格点,覆盖整个特征空间。

        使用 model.predict 预测网格点的类别。

        使用 plt.contourf 绘制决策边界。

        使用 plt.scatter 绘制样本点和支持向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962993.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

电信传输基本理论/5G网络层次架构——超三万字详解:适用期末考试/考研/工作

电信传输的基本概念 信息、通信、电信、电信传输的定义 信息 信息指的是消息中的有效信息量 通信 通信指的是利用传输媒质将信息从一段传输到另一端 电信 电信的意思是利用电子技术来将信息从一段传输到另一端 电信传输 电信传输的概念就是将含有信息的电信号进行传输…

代码练习3

1 #include <stdio.h>void draw(int n) {for (int i n; i > 1; i--) {// 打印空格for (int j 0; j < n - i; j) {printf(" ");}// 打印星号for (int j 0; j < 2 * i - 1; j) {printf("*");}// 换行printf("\n");} }int main()…

好用的翻译工具

最近看到个好用的翻译工具&#xff0c;叫沉浸式翻译 沉浸式翻译 - 双语对照网页翻译插件 | PDF翻译 | 视频字幕翻译 我下载的是谷歌插件 点击下载插件会跳转到使用文档&#xff0c;跟着一步步操作即可 翻译的效果&#xff0c;我这里用的是免费版的&#xff0c;如果需要加强&…

Linux-CentOS的yum源

1、什么是yum yum是CentOS的软件仓库管理工具。 2、yum的仓库 2.1、yum的远程仓库源 2.1.1、国内仓库 国内较知名的网络源(aliyun源&#xff0c;163源&#xff0c;sohu源&#xff0c;知名大学开源镜像等) 阿里源:https://opsx.alibaba.com/mirror 网易源:http://mirrors.1…

el-table组件样式如何二次修改?

文章目录 前言一、去除全选框按钮样式二、表头颜色的修改 前言 ElementUI中的组件el-table表格组件提供了丰富的样式&#xff0c;有一个全选框的el-table组件&#xff0c;提供了全选框和多选。 一、去除全选框按钮样式 原本默认是有全选框的。假如有一些开发者&#xff0c;因…

一起学SysML v2规范(01)

1 00:00:01,560 --> 00:00:05,840 今天我们开始一个新的系列 2 00:00:06,690 --> 00:00:08,190 一起学SysML v2 3 00:00:08,200 --> 00:00:09,570 规范 4 00:00:15,770 --> 00:00:17,040 这里说一起学 5 00:00:17,050 --> 00:00:18,920 就是说我和大家一起学…

(9)下:学习与验证 linux 里的 epoll 对象里的 EPOLLIN、 EPOLLHUP 与 EPOLLRDHUP 的不同。小例子的实验

&#xff08;4&#xff09;本实验代码的蓝本&#xff0c;是伊圣雨老师里的课本里的代码&#xff0c;略加改动而来的。 以下是 服务器端的代码&#xff1a; 每当收到客户端的报文时&#xff0c;就测试一下对应的 epoll 事件里的事件标志&#xff0c;不读取报文内容&#xff0c;…

【Python】第七弹---Python基础进阶:深入字典操作与文件处理技巧

✨个人主页&#xff1a; 熬夜学编程的小林 &#x1f497;系列专栏&#xff1a; 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【MySQL】【Python】 目录 1、字典 1.1、字典是什么 1.2、创建字典 1.3、查找 key 1.4、新增/修改元素 1.5、删除元素 1.6、遍历…

[Linux]从零开始的STM32MP157 U-Boot移植

一、前言 在上一次教程中&#xff0c;我们了解了STM32MP157的启动流程与安全启动机制。我们还将FSBL的相关代码移植成功了。大家还记得FSBL的下一个步骤是什么吗&#xff1f;没错&#xff0c;就是SSBL&#xff0c;而且常见的我们将SSBL作为存放U-Boot的地方。所以本次教程&…

消息队列篇--原理篇--常见消息队列总结(RabbitMQ,Kafka,ActiveMQ,RocketMQ,Pulsar)

1、RabbitMQ 特点&#xff1a; AMQP协议&#xff1a;RabbitMQ是基于AMQP&#xff08;高级消息队列协议&#xff09;构建的&#xff0c;支持多种消息传递模式&#xff0c;如发布/订阅、路由、RPC等。多语言支持&#xff1a;支持多种编程语言的客户端库&#xff0c;包括Java、P…

家居EDI:Hom Furniture EDI需求分析

HOM Furniture 是一家成立于1977年的美国家具零售商&#xff0c;总部位于明尼苏达州。公司致力于提供高品质、时尚的家具和家居用品&#xff0c;满足各种家庭和办公需求。HOM Furniture 以广泛的产品线和优质的客户服务在市场上赢得了良好的口碑。公司经营的产品包括卧室、客厅…

【go语言】数组和切片

一、数组 1.1 什么是数组 数组是一组数&#xff1a;数组需要是相同类型的数据的集合&#xff1b;数组是需要定义大小的&#xff1b;数组一旦定义了大小是不可以改变的。 1.2 数组的声明 数组和其他变量定义没有什么区别&#xff0c;唯一的就是这个是一组数&#xff0c;需要给…

51单片机 01 LED

一、点亮一个LED 在STC-ISP中单片机型号选择 STC89C52RC/LE52RC&#xff1b;如果没有找到hex文件&#xff08;在objects文件夹下&#xff09;&#xff0c;在keil中options for target-output- 勾选 create hex file。 如果要修改编程 &#xff1a;重新编译-下载/编程-单片机重…

HTML一般标签和自闭合标签介绍

在HTML中&#xff0c;标签用于定义网页内容的结构和样式。标签通常分为两类&#xff1a;一般标签&#xff08;也称为成对标签或开放闭合标签&#xff09;和自闭合标签&#xff08;也称为空标签或自结束标签&#xff09;。 以下是这两类标签的详细说明&#xff1a; 一、一般标…

【EasyX 图形化编程保姆级喂嘴里教程】(C/C++) graphics.h 头文件库安装

文章目录 EasyXEasyX 是什么&#xff1f;超低的学习成本超多的应用场景超轻的发布过程 EasyX安装下载好后打开安装文件, 点击下一步。它自动检测已有的IDE&#xff0c;自行选择安装点击安装会提示安装成功接下来就可以在代码中使用 graphics.h 头文件库 EasyX EasyX 是什么&am…

吊打同类软件免费又可批量使用

聊一聊 对于经常用到席卡的人来说&#xff0c;每次打印都觉得麻烦&#xff0c;要是有个软件&#xff0c;直接输入名称就能打印就好了。 这不&#xff0c;只要你想&#xff0c;就肯定能实现&#xff1b;如果没实现&#xff0c;就说明你不够想。 这个软件我测试了下&#xff0…

2.攻防世界PHP2及知识点

进入题目页面如下 意思是你能访问这个网站吗&#xff1f; ctrlu、F12查看源码&#xff0c;什么都没有发现 用kali中的dirsearch扫描根目录 命令如下&#xff0c;根据题目提示以及需要查看源码&#xff0c;扫描以php、phps、html为后缀的文件 dirsearch -u http://61.147.17…

网络工程师 (11)软件生命周期与开发模型

一、软件生命周期 前言 软件生命周期&#xff0c;也称为软件开发周期或软件开发生命周期&#xff0c;是指从软件项目的启动到软件不再被使用为止的整个期间。这个过程可以细分为多个阶段&#xff0c;每个阶段都有其特定的目标、任务和产出物。 1. 问题定义与需求分析 问题定义…

深度学习练手小例子——cifar10数据集分类问题

CIFAR-10 是一个经典的计算机视觉数据集&#xff0c;广泛用于图像分类任务。它包含 10 个类别的 60,000 张彩色图像&#xff0c;每张图像的大小是 32x32 像素。数据集被分为 50,000 张训练图像和 10,000 张测试图像。每个类别包含 6,000 张图像&#xff0c;具体类别包括&#x…