机器学习算法 —— 贝叶斯分类之模拟离散数据集

🌟欢迎来到 我的博客 —— 探索技术的无限可能!


🌟博客的简介(文章目录)

目录

  • 实战(贝叶斯分类)
    • 莺尾花数据
    • 模拟离散数据集
      • 库函数导入
      • 数据导入和分析
      • 模型训练和预测
  • 总结

实战(贝叶斯分类)

莺尾花数据

接上文:机器学习算法 —— 朴素贝叶斯

模拟离散数据集

库函数导入

import random
import numpy as np
import warnings
warnings.filterwarnings('ignore')
# 加载莺尾花数据集
from sklearn import datasets
# 使用基于类目特征的朴素贝叶斯
from sklearn.naive_bayes import CategoricalNB
from sklearn.model_selection import train_test_split

数据导入和分析

# 模拟数据
rng = np.random.RandomState(1)
# 随机生成600个100维的数据,每一维的特征都是[0, 4]之前的整数
X = rng.randint(5, size=(600, 100))
y = np.array([1, 2, 3, 4, 5, 6] * 100)
data = np.c_[X, y]
# X和y进行整体打散
random.shuffle(data)
X = data[:,:-1]
y = data[:, -1]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

所有的数据特征都是离散特征,我们引入基于离散特征的朴素贝叶斯分类器。

模型训练和预测

clf = CategoricalNB(alpha=1)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print("Test Acc : %.3f" % acc)

在这里插入图片描述
        随机数据测试,分析预测结果,贝叶斯会选择概率最大的预测结果,比如这里的预测结果是4,4对应的概率最大,由于我们是随机数据,每个人运行的时候,可能会出现不一样的结果。

x = rng.randint(5, size=(1, 100))
print(clf.predict_proba(x))
print(clf.predict(x))

在这里插入图片描述

总结

贝叶斯分类是一类基于统计学的分类算法,其核心思想是通过计算后验概率来预测样本所属类别

  1. 贝叶斯分类的基础理论

    • 理论基础:贝叶斯分类技术是一种非规则的分类方法,它通过对已分类的样本子集进行训练,学习归纳出分类函数[1]。
    • 特点:贝叶斯分类使用概率来表示所有形式的不确定性,并且能够使所有的属性都参与到分类中,其属性可以是离散的、连续的,也可以是混合的[1]。
    • 原理:基于统计学的贝叶斯分类方法以贝叶斯理论为基础,通过求解后验概率分布,预测样本属于某一类别的概率。朴素贝叶斯分类模型假定任意属性对类别的影响与其他属性对类别的影响无关,这种假设被称为类条件独立朴素假定[1]。
  2. 贝叶斯分类的关键概念

    • 先验概率与后验概率:贝叶斯分类中,先验概率是指在考虑实验结果之前,根据经验及先前知识所得到的概率。而后验概率则是在考虑了实验结果或附加信息之后得到的更新概率[5]。
    • 可能性函数:可能性函数是一个调整因子,使得预估概率更接近真实概率。在贝叶斯推断中,它用于调整先验概率得到后验概率[5]。
    • 条件独立性假设:这是朴素贝叶斯分类器的核心假设,即假设各特征之间相互独立,从而简化了后验概率的计算过程[1][5]。
  3. 朴素贝叶斯的应用实例

    • 文本分类:朴素贝叶斯分类算法在文本分类领域有着广泛的应用,如垃圾邮件过滤、情感分析等[3]。
    • 实际应用方式:朴素贝叶斯分类器可以事先计算好所有概率估值并存储起来,便于快速预测;或者采用懒惰学习方式,待收到预测请求时再进行概率估值;还可以实现增量学习,适应数据不断增加的情况[5]。
  4. 朴素贝叶斯的优缺点

    • 优点:算法简单易懂,学习效率高,尤其在数据量较大的情况下表现出较高的准确率[3]。
    • 缺点:朴素贝叶斯的条件独立性假设在现实中往往不成立,这可能会影响分类的准确性[3]。

此外,在深入了解贝叶斯分类的基础上,以下是一些具体的实践建议:

  • 在应用朴素贝叶斯算法时,应先检查数据集中的特征是否满足或近似满足独立性假设,以避免由于违反这一假设而引起的性能下降。
  • 对于连续属性的数据,需要特别注意概率密度函数的选择和参数估计,以确保模型的准确性。
  • 考虑到朴素贝叶斯可能由于独立性假设而导致精度受限,可以探索使用贝叶斯网络或其他更复杂的贝叶斯模型来提高分类准确性。

总的来说,贝叶斯分类以其独特的概率论基础,在机器学习领域占据了重要的位置。尽管朴素贝叶斯算法存在假设上的局限性,但其简洁性和在一些情况下出人意料的良好性能使其成为许多实际问题的首选方法。通过合理选择和应用不同的贝叶斯分类算法,可以在各种分类任务中达到既高效又准确的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/697957.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一道Delphi的For循环题目

起因 事情是这样的: 俺在一个Delphi交流QQ群,有点冷场,俺想热一下场子就发了下面这个段子。其实这是之前俺带新人时的一道题目。 第一个回答 第一个网友给的答案是 i:i-1; 俺说这个答案是不对的,因为 Delphi在编译时是不允许…

【教学类-64-03】20240611色块眼力挑战(三)-2-10宫格色差10-50(10倍)适合中班幼儿园(星火讯飞)

背景需求: 【教学类-64-02】20240610色块眼力挑战(二)-2-25宫格&色差10-100(10倍)(星火讯飞)-CSDN博客文章浏览阅读360次,点赞17次,收藏13次。【教学类-64-02】2024…

CTFHUB-SQL注入-时间盲注

本题用到sqlmap工具,没有sqlmap工具点击🚀🚀🚀直达下载安装使用教程 理论简述 时间盲注概述 时间盲注是一种SQL注入技术的变种,它依赖于页面响应时间的不同来确定SQL注入攻击的成功与否。在某些情况下,攻…

Java学习-MyBatis学习(一)

MyBatis MyBatis历史 MyBatis本是apache的一个开源项目iBatis,2010年这个项目由apache software foundation迁移到了google code,并且改名为MyBatis。2013年11月迁移到Github。iBATIS一词来源于“internet”和“abatis”的组合,是一个基于J…

三高系统的架构设计方案:高并发、高可用、高性能

文章目录 一、互联网系统三高概述1、互联网的三高2、高并发3、高可用4、高性能 二、高并发、高性能技术解决方案1、多高的并发才算高并发?2、水平扩展3、负载均衡思想4、缓存思想5、池化复用思想6、异步思想7、预处理-惰性更新思想8、分而治之思想 三、高可用技术解…

【Vue】 路由配置 - 一级路由

但凡是单个页面,独立展示的,都是一级路由 路由设计: 登录页首页架子 首页 - 二级分类页 - 二级购物车 - 二级我的 - 二级 搜索页搜索列表页商品详情页结算支付页我的订单页 由于每一个一级路由他会封装一些属于它自己模块的组件&#xff0c…

STM32 Customer BootLoader 刷新项目 (一) STM32CubeMX UART串口通信工程搭建

STM32 Customer BootLoader 刷新项目 (一) STM32CubeMX UART串口通信工程搭建 文章目录 STM32 Customer BootLoader 刷新项目 (一) STM32CubeMX UART串口通信工程搭建功能与作用典型工作流程 1. 硬件原理图介绍2. STM32 CubeMX工程搭建2.1 创建工程2.2 系统配置2.3 USART串口配…

头部外伤怎么办?别大意,科学处理是关键

头部外伤是一种常见的伤害,它可能由跌倒、撞击或其他事故造成。虽然许多头部外伤看似轻微,但如果不妥善处理,可能会带来严重的后果。因此,了解头部外伤的处理方法至关重要。 一、初步判断伤势 头部外伤后,首先要观察伤…

国资e学快速学习实战教程

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

react项目--博客管理

文章目录 技术栈登录存信息配置tokenhooks使用路由配置各页面技术总结首页发布文章文章详情页 个人主页分类页 本篇文章总结一个开发的react项目—博客系统 技术栈 React、react-redux、react-router 6,Ant Design,es6,sass,webp…

微服务之负载均衡器

1、负载均衡介绍 负载均衡就是将负载(工作任务,访问请求)进行分摊到多个操作单元(服务器,组件)上 进行执行。 根据负载均衡发生位置的不同, 一般分为服务端负载均衡和客户端负载均衡。 服务端负载均衡指的是发生在服务提供者一方&#xff…

AWS S3存储桶中如何下载文件

AWS S3存储桶中如何下载文件 1.单个下载 AWS S3 控制台提供了下载单个文件的功能,但是不支持直接在控制台中进行批量下载文件。您可以通过以下步骤在 AWS S3 控制台上下载单个文件:   1.1登录 AWS 管理控制台。   1.2转到 S3 服务页面。   1.3单击…

使用 C# 学习面向对象编程:第 4 部分

C# 构造函数 第 1 部分仅介绍了类构造函数的基础知识。 在本课中,我们将详细讨论各种类型的构造函数。 属性类型 默认构造函数构造函数重载私有构造函数构造函数链静态构造函数析构函数 请注意构造函数的一些基本概念,并确保你的理解非常清楚&#x…

西门子PLC位逻辑指令学习(SCL语言)

R_TRIG 参数 功能 当CLK信号出现一个低电平到高电平的跳变时,输出Q导通一个周期。 实例 定义以下类型变量 "R_TRIG_DB"(CLK:"data".source,Q>"data".result); //当source输入出现低电平到高电平跳变,result信号…

《Brave New Words 》4.2 AI 与学生心理健康辅导的结合

Part IV Better Together 第四部分 携手共进 AI Meets Student Mental Health Coaching AI 与学生心理健康辅导的结合 Here’s the scenario: You’re minutes away from taking a final exam. You’ve studied, but your heart is racing and your mind has gone blank. Anxie…

MIPI A-PHY协议学习

一、说明 A-PHY是一种高带宽串行传输技术,主要为了减少传输线并实现长距离传输的目的,比较适用于汽车。同时,A-PHY兼容摄像头的CSI协议和显示的DSI协议。其主要特征: 长距离传输,高达15m和4个线内连接器; 高速率,支持2Gbps~16Gbps; 支持多种车载线缆(同轴线、屏蔽差分…

探索C++ STL的设计方式:将算法与数据结构分离

STL的设计 一、简介二、STL容器三、C数组四、用户定义的集合4.1、使用标准集合的typedef4.2、重用标准迭代器4.3、实现自己的迭代器 五、总结 一、简介 本文介绍STL的设计方式,以及如何设计自己的组件,使其能够充分利用STL的功能。 STL的设计旨在将算法…

多目标融合参数搜索

多目标融合 权重分类目人群。 trick normlize 不同Score之间含义、量级和分布差异较大:评分计算的不同部分的意义、范围和分布存在显著差异,这使得直接比较或融合它们的结果变得困难。显式反馈(如点赞率)存在用户间差异&#…

盘点四家企业软件巨头的Gen AI应用进程

文/明道云创始人任向晖 目前大部份行业分析还聚焦在Open AI,Langchain这些和Generative AI直接相关的企业和产品上。实际上,企业软件市场的感知和行动已经非常迅速。在此项技术进入公众视野18个月后,我们来盘点一下领先的企业软件应用是如何利…

Lua连接Redis客户端执行命令

该示例演示使用Redis连接池,及Redis执行命令与获取返回数据 require("api.website") local dkjson require("api.dkjson")-- 创建连接池 local pool redis_pool.new() -- 置连接池信息 pool:start("127.0.0.1",6379,"998866&…