实战:朴素贝叶斯文本分类器搭建与性能评估

💗💗💗欢迎来到我的博客,你将找到有关如何使用技术解决问题的文章,也会找到某个技术的学习路线。无论你是何种职业,我都希望我的博客对你有所帮助。最后不要忘记订阅我的博客以获取最新文章,也欢迎在文章下方留下你的评论和反馈。我期待着与你分享知识、互相学习和建立一个积极的社区。谢谢你的光临,让我们一起踏上这个知识之旅!
请添加图片描述

文章目录

  • 🍋贝叶斯定理简介
  • 🍋贝叶斯分类器
  • 🍋朴素贝叶斯分类器
  • 🍋优势与不足
  • 🍋实战代码
  • 🍋结语

🍋贝叶斯定理简介

贝叶斯分类基于贝叶斯定理,其核心思想是通过先验概率和样本数据计算后验概率,从而进行分类。贝叶斯定理表达为:

在这里插入图片描述

其中,P(A∣B) 是在给定观测数据 B 的情况下事件 A 的后验概率,P(B∣A) 是在事件 A发生的情况下观测到 B 的概率,P(A) 是事件 A 的先验概率,P(B) 是观测到 B 的概率。

🍋贝叶斯分类器

基本原理

贝叶斯分类器基于贝叶斯定理构建,对于给定的输入样本,计算每个类别的后验概率,选择具有最高后验概率的类别作为最终分类结果。
在这里插入图片描述
其中,Likelihood 是给定类别的样本条件下观测到输入数据的概率,Prior 是类别的先验概率,Evidence 是观测到输入数据的概率。

🍋朴素贝叶斯分类器

朴素贝叶斯分类器是贝叶斯分类中的一种常见形式,它假设输入特征之间相互独立,简化了计算。对于给定的输入 X=(x1,x2,…,xn),朴素贝叶斯分类器的决策规则为:
在这里插入图片描述
其中,P(C=c) 是类别 c 的先验概率,P(Xi​=xi​∣C=c) 是在给定类别 c 的情况下特征 Xi​ 的条件概率。

🍋优势与不足

优势

  • 简单有效: 贝叶斯分类器具有简单的理论基础,易于实现。
  • 处理小样本数据: 在数据较少的情况下仍然有效,特别适用于小样本场景。
  • 对噪声数据不敏感: 对于噪声和缺失数据具有较好的鲁棒性。

不足

  • 对输入特征的独立性要求: 朴素贝叶斯分类器假设输入特征之间相互独立,这在某些实际问题中可能不成立。
  • 无法学习特征之间的关系: 由于假设特征独立,不能很好地捕捉特征之间的复杂关系。
  • 需要先验概率: 对先验概率的准确估计要求较多领域知识或足够的样本数据。

🍋实战代码

# 导入所需的库和模块
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

# 下载并加载20类新闻数据集
newsgroups = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))

# 特征工程: 将文本转换为TF-IDF表示
vectorizer = TfidfVectorizer(stop_words='english', max_features=1000)
X = vectorizer.fit_transform(newsgroups.data)

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, newsgroups.target, test_size=0.2, random_state=42)

# 构建朴素贝叶斯分类器
classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = classifier.predict(X_test)

# 输出分类报告
print("Classification Report:")
print(metrics.classification_report(y_test, y_pred))

# 输出混淆矩阵
print("Confusion Matrix:")
print(metrics.confusion_matrix(y_test, y_pred))

运行结果如下
在这里插入图片描述
在这里插入图片描述

🍋结语

贝叶斯分类作为一种基于统计学习的方法,在实际问题中展现了良好的性能。通过充分利用先验知识和观测数据,贝叶斯分类为我们提供了一种有效的分类工具,特别在小样本场景和文本分类等任务中表现出色。

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/271154.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

生成超清分辨率视频,南洋理工开源Upscale-A-Video

大模型在生成高质量图像方面表现出色,但在生成视频任务中,经常会面临视频不连贯、图像模糊、掉帧等问题。 这主要是因为生成式抽样过程中的随机性,会在视频序列中引入无法预测的帧跳动。同时现有方法仅考虑了局部视频片段的时空一致性,无法保证整个长视频的整体连贯…

基于电商场景的高并发RocketMQ实战-Broker写入读取流程性能优化总结、Broker基于Pull模式的主从复制原理

🌈🌈🌈🌈🌈🌈🌈🌈 【11来了】文章导读地址:点击查看文章导读! 🍁🍁🍁🍁🍁🍁&#x1f3…

关于OpenCV中 CV_Assert() 的使用引起程序中止/崩溃问题

CV_Assert() 的作用是:若括号中的表达式值为 false ,则返回一个错误信息,并终止程序执行。 但是 CV_Assert() 与 assert 不同,CV_Assert() 会通过异常抛出,所以如果使用 CV_Assert(),可以通过捕获异常而不是…

三列布局 css

实现如下图的三列布局: .box {width:1400px;margin:0 auto;padding-bottom:40px;> .left {float:left;width:180px;margin-top:100px;text-align:center;}> .center {float:left;margin-top:100px;margin-left:130px;item-box {float:left;text-align:left;…

oom问题

问题描述 虚拟机集群节点上pod报oom,最后pod被驱逐,主节点上查看kubectl top node的mem使用率很高,重启系统后,mem会降下来,但还会慢慢增长。 node节点上查看 /sys/fs/cgroup/memory/memory.usage_in_bytes内存使用超…

Spring Boot简单多线程定时任务实现 | @Async | @Scheduled

Spring Boot简单多线程定时任务实现 实现步骤 1 创建一个Spring Boot项目 2 定义定时任务: package com.jmd.timertasktest.task;import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.annotation.Async; impor…

GenerateBlocks Pro插件 构建更好的WordPress网站

GenerateBlocks Pro插件 构建更好的WordPress网站 GenerateBlocks Pro插件是一个 WordPress 插件,几乎可以完成任何事情,可让您创建轻量级和多功能的网站。由与流行且快速的 GeneratePress 主题相同的创作者构建,该插件不负众望。使用 Genera…

H266/VVC帧间预测编码技术概述

帧间预测编码简述 帧间预测利用视频时间域的相关性,使用邻近已编码图像像素值预测当前图像的像素值,能有效去除视频时域冗余。 目前主要的视频编码标准中,帧间预测都采用基于块的运动补偿技术,不同的编码标准有不同的分块方式。 …

智能优化算法应用:基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于驾驶训练算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.驾驶训练算法4.实验参数设定5.算法结果6.…

Android笔记(二十一):Room组件实现Android应用的持久化处理

一、Room组件概述 Room是Android JetPack架构组件之一,是一个持久处理的库。Room提供了在SQLite数据库上提供抽象层,使之实现数据访问。 (1)实体类(Entity):映射并封装了数据库对应的数据表中…

微信小程序备案流程整理

一、备案流程 [找备案入口]–[填主体信息]–[填小程序信息]–[初审]–[短信核验]–[通管局审核] 1,在小程序后台找到备案入口 (1)新的未上架小程序,可以在小程序首页点击【去备案】进入。 (2)已上架小程…

交换机端口镜像技术原理与配置

在网络维护的过程中会遇到需要对报文进行获取和分析的情况,比如怀疑有攻击报文,此时需要在不影响报文转发的情况下,对报文进行获取和分析。镜像技术可以在不影响报文正常处理流程的情况下,将镜像端口的报文复制一份到观察端口&…

基于Java版本与鸿鹄企业电子招投标系统的二次开发实践-鸿鹄企业电子招投标系统源代码+支持二开+鸿鹄电子招投标系统

随着市场竞争的加剧和企业规模的扩大,招采管理逐渐成为企业核心竞争力的重要组成部分。为了提高招采工作的效率和质量,我们提出了一种基于电子化平台的解决方案。该方案旨在通过电子化招投标,使得招标采购的质量更高、速度更快,同…

L1-061:新胖子公式

题目描述 根据钱江晚报官方微博的报导,最新的肥胖计算方法为:体重(kg) / 身高(m) 的平方。如果超过 25,你就是胖子。于是本题就请你编写程序自动判断一个人到底算不算胖子。 输入格式: 输入在一行中给出两个正数,依次为…

ImageJ图像滤波基础

文章目录 滤波简单滤波器卷积滤波Unsharp MaskTop Hat ImageJ系列:安装与初步💎灰度图像处理 滤波 预设滤波器 ImageJ的Process菜单提供了诸多图像滤波器,其中大部分方法均可定制参数,但也提供了一些已经预设参数的处理方法。 …

博易大师智星系统外盘资管系统的功能介绍!

1. 市场行情数据接收和显示:软件需要接收实时的市场行情数据,并将其以图形或数字的形式显示出来,包括价格、成交量、成交额等信息。 2. 交易操作界面:软件需要提供一个交易操作界面,供用户进行交易操作,包括…

少走十年弯路!!!webpack详解

webpack是什么?? 本质上,webpack 是一个用于现代 JavaScript 应用程序的 静态模块打包工具。当 webpack 处理应用程序时,它会在内部从一个或多个入口点构建一个 依赖图(dependency graph),然后将你项目中所需的每一个模…

sql_lab之sqli中的搜索型注入

搜索型注入 原理是运用模糊查询: select * from users where username like %a% 1.找到具有模糊查询的搜索框的注入点 2.构造闭合 因为模糊查询的代码是 select * from users where username like %a% 所以应该 鱼%’ -- s 判断构造闭合的函数是否正确 鱼%…

Spring Boot3 Web开发技术

前期回顾 springboot项目常见的配置文件类型有哪些?哪种类型的优先级最高 yml properties yaml 读取配置文件里的数据用什么注解? value restful风格 RESTful 风格与传统的 HTTP 请求方式相比,更加简洁,安全,能隐…

成为小leader后,最大的感受就是:领导真的更偏爱主动汇报的下属!

* 你好,我是前端队长,在职场,玩副业,文末有福利! 有些朋友在职场,可能会陷入一个误区,觉得我们的付出,领导都能看到。这就大错特错了,很简单,打个比方,你有10…