机器学习理论基础—贝叶斯分类器

机器学习理论基础—贝叶斯分类器

贝叶斯决策论

概述:贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。

定义

以一个多分类任务为例:假设当前有一个N分类问题,即={C1,C2,···CN}

定义一入ij是将一个真实标记为cj的样本误分类为ci所产生的损失。

定义二:单个样本c的期望损失(条件风险)为:
在这里插入图片描述
其中,P (cj|x)为后验概率

定义三:全部样本构成的总体风险为:单个样本的条件风险的合集
在这里插入图片描述
其中,h为分类器(模型)。显然,分类效果越准确的h,其条件风险和总体风险也越小。

贝叶斯判定准则

贝叶斯判定准则:为最小化总体风险R(h),只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即
在这里插入图片描述
h*称之为最优分类器 R(h*)称为贝叶斯风险。

具体地,若目标是最小化分类错误率,则误判损失入ij可写为:
在这里插入图片描述
此时单个样本x的期望损失(条件风险)为:
在这里插入图片描述

将误判损失带入拆解可以得到以下的形式。
在这里插入图片描述

进一步推导即可得到西瓜书中的公式7.5:
在这里插入图片描述
按照贝叶斯准则,最小化分类错误率的贝叶斯最优分类器为:
在这里插入图片描述
即对每个样本x,选择后验概率P(ci|x)最大的类别ci作为标记

生成式模型和判别式模型

判别式模型:给定x直接建模P(c|x)来预测c(本章学习的贝叶斯分类器)
生成式模型:先对联合概率P(x,c)建模,然后再由此推导得出P(c|x):之前学习的模型例如决策树,神经网络和支持向量机。

说明:生成式模型和判别式模型

从贝叶斯决策论(概率框架)的角度:机器学习所要做的就是基于有限的训练样本集尽可能准确地估计出后验概率P(c|x)

从机器学习自己的角度:给定一个样本x,求一个能准确分类x的f(x),其有些算法可以看作是对后验概率建模P(c|x)(例如对数几率回归),而有些算法则是纯粹完成样本分类(例如SVM)

生成式模型建模思路

主要是依据概率论中的贝叶斯公式来进行建模
在这里插入图片描述
贝叶斯定理进一步化简可以得到:
在这里插入图片描述
其中,P( c )是类"先验"概率,P(x|c)是样本c相对于类别标记x的类条件概率,P(x)是用于归一化的“证据”因子。

更为详细的解读可以参考西瓜书中的内容。

朴素贝叶斯分类器

在这里插入图片描述

模型样本的训练过程就是一个参数估计的过程。

提出了属性条件独立性假设:对已知类别,假设所有属性相互独立
在这里插入图片描述
其中,d为属性数目,xi为x在第i个属性上的取值
基于贝叶斯准则可以得到:
在这里插入图片描述
由于对所有类别来说P(x)都相同,所以P(x)视作常量可以略去,从而得到西瓜书中的(7.15)朴素贝叶斯分类器表达式

表达式计算

  • 第一步:估计p( c )的值
    其中,Dc表示训练集D中类别标记为c的样本集合,|Dc|表示集合Dc的样本总数
    在这里插入图片描述
  • 第二步:估计P(xi|c)其中第i个属性为离散的属性
    在这里插入图片描述
    其中,Dc,xi表示Dc中在第i个属性上取值为xi的样本组成的集合

【第i个属性为连续属性】(以正态分布假设为例)
在这里插入图片描述

半朴素贝叶斯分类器

半朴素贝叶斯分类器:适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。

【独依赖估计(ODE)】:假设每个属性在类别之外最多依赖于一个其他属性,即:(西瓜书中的公式7.21
在这里插入图片描述

其中中间的符号表示正比于

其中,pai为属性xi所依赖的属性,称为xi的父属性。

【超父独依赖估计(SPODE)】:假设所有属性都依赖于同一个“超父"属性
在这里插入图片描述

对于之后的贝叶斯网的学习需要使用到后面要学习的概率图模型的基础来进行学习求解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/578305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS开发案例:【 自定义弹窗】

介绍 基于ArkTS的声明式开发范式实现了三种不同的弹窗,第一种直接使用公共组件,后两种使用CustomDialogController实现自定义弹窗,效果如图所示: 相关概念 [AlertDialog]:警告弹窗,可设置文本内容和响应回…

LangChain入门:24.通过Baby AGI实现自动生成和执行任务

随着 ChatGPT 的崭露头角,我们迎来了一种新型的代理——Autonomous Agents(自治代理或自主代理)。 这些代理的设计初衷就是能够独立地执行任务,并持续地追求长期目标。 在 LangChain 的代理、工具和记忆这些组件的支持下,它们能够在无需外部干预的情况下自主运行,这在真…

Mac下使用homebrew管理多版本mysql同时启动

Mac下使用homebrew管理多版本mysql同时启动 思路 给每个版本分配不同的数据目录和配置文件即可 本文尝试了使用 brew 安装管理多个MySQL版本,同时运行、直接切换 安装 如果已有数据文件请自行备份以及使用 安装 mysql 5.7 brew install mysql5.7在 /opt/home…

银狐样本分析

银狐病毒 概述 msi在安装过程中执行恶意脚本,在C盘释放载荷ee.exe,ee.exe解密执行shellcode,shellcode通过多种手段执行反调试操作,添加Windows Defender的排除路径,解密字符串获取url后建立连接下载文件并解密&…

从递归角度串联二叉树-图论-动态规划

一、深度理解二叉树的前中后序遍历 二叉树遍历框架如下: void traverse(TreeNode* root) {if (root nullptr) {return;}// 前序位置traverse(root->left);// 中序位置traverse(root->right);// 后序位置 }先不管所谓前中后序,单看 traverse 函数…

Linux系统安全与应用【二】

目录 1.开关机安全控制 1.2 实例:GRUB 菜单设置密码 2.终端登录安全控制 2.1 限制root只在安全终端登录 ​3.弱口令检测 3.1 Joth the Ripper,JR​编辑 4.网络端口扫描 4.1 nmap命令 1.开关机安全控制 1.1 GRUB限制 限制更改GRUB引导参数 通常情况下在系统…

【源码】WBF多语言交易所/申购+自发币平台币+币币+杠杆+合约/附带安装教程/带VUE工程源码

【源码介绍】 WBF多语言交易所/申购自发币平台币币币杠杆合约/附带安装教程/带VUE工程源码 【源码说明】 带VUE工程源码最新申购,自发币平台币,币币,法币,杠杆,合约多语言交易所,附带pc和手机VUE&#x…

本地认证的密码去哪了?怎么保证安全的?

1. windows登录的明文密码,存储过程是怎么样的?密文存在哪个文件下?该文件是否可以打开,并且查看到密文? 系统将输入的明文密码通过hash算法转为哈希值,且输入的值会在内存中立即删除无法查看。 然后将密文存放在C:…

基础SQL DQL语句

基础查询 select * from 表名; 查询所有字段 create table emp(id int comment 编号,workno varchar(10) comment 工号,name varchar(10) comment 姓名,gender char(1) comment 性别,age tinyint unsigned comment 年龄,idcard char(18) comment 身份证号,worka…

贪吃蛇大作战【纯c语言】

如果有看到不懂的地方或者对c语言某些知识忘了的话,可以找我之前的文章哦!!! 个人主页:小八哥向前冲~-CSDN博客 所属专栏:c语言_小八哥向前冲~的博客-CSDN博客 贪吃蛇游戏演示: 贪吃蛇游戏动画演…

ArcGIS Pro 和 Python — 分析全球主要城市中心的土地覆盖变化

第一步——设置工作环境 1–0. 地理数据库 在下载任何数据之前,我将创建几个地理数据库,在其中保存和存储所有数据以及我将创建的后续图层。将为我要分析的五个城市中的每一个创建一个地理数据库,并将其命名为: “Phoenix.gdb” “Singapore.gdb” “Berlin.gdb” “B…

抖音小店无货源怎么做?新手五步运营法,简单又实用!

大家好,我是电商糖果 很多朋友开抖店之前,对电商没有一点基础。 这个时候就会出现一种非常尴尬的情况,就是店铺开好之后,不知道怎么运营。 糖果做电商有7年时间了,做抖音小店也有四年多了。 现在也开了多家小店&am…

16 - grace数据处理 - 补充 - 读GRACE数据并进行低阶项替换

16 - grace数据处理 - 补充 - 读GRACE数据并进行低阶项替换 *0* 引言*1* 主程序分享0 引言 关于Grace模型数据的介绍可以参考文章00,数据由3家机构发布,这里做一个关于数据读取的补充,源码来自这里,直接运行slepian_delta中的程序会出现😊意想不到😊的错误,下面分享的…

Kubernetes - CentOS7搭建k8s_v1.18集群高可用(kubeadm/二进制包部署方式)实测配置验证手册

Kubernetes - CentOS7搭建k8s集群高可用(kubeadm/二进制包部署方式)实测配置验证手册 前言概述: 一、Kubernetes—k8s是什么 Kubernetes 这个名字源于希腊语,意为“舵手“或”飞行员"。 Kubernetes,简称K8s&#…

无人机+巡飞弹:“柳叶刀”巡飞弹技术详解

“柳叶刀”巡飞弹技术是一种结合了无人机和巡飞弹的先进武器系统,由俄罗斯ZalaAero公司研制,首次公开亮相是在2019年的俄罗斯军队装备展上。该系统以其高度的灵活性和精确打击能力,在现代战场上扮演着重要角色。 系统组成:柳叶刀巡…

网络基础(day3)

【 理论重点】 网络是什么&#xff1f; &#xff08;网络是载体&#xff0c;目的是传输互联网中的数据&#xff0c;数据是终端产生<手机、电脑、服务器等>。&#xff09; 如何组件网络&#xff08;良性网络架构&#xff09;&#xff1f;有网络架构思维&#xff0c;得按层…

uniapp小程序订阅通知

服务 开通订阅服务 const tmplIds ref([tsdasdadasdfgdrtwexQHdEsjZV])//换成自己的 function confirm(){uni.requestSubscribeMessage({tmplIds: tmplIds.value,success: (res) > {// console.log(res)let auth_notice res[tmplIds.value[0]] accept ? 1 : 2 //1是接…

Alibaba Cloud Linux 3.2104 LTS 64位安装mysql 8.0报错

问题描述 Alibaba Cloud Linux 3.2104 LTS 64位安装mysql 8.0提示 Error&#xff1a; GPG check FAILED 问题原因 官方 MySQL 存储库的 GPG 密钥已过期&#xff0c;无法安装或更新 MySQL 包 mysql官网也提交了该bug&#xff1a; https://bugs.mysql.com/bug.php?id106188 …

matlab批量读取csv文件

matlab如何批量读取csv文件 在Matlab中&#xff0c;有多种方法可以批量读取CSV文件。下面是几种常用的实现方法&#xff1a; 方法一&#xff1a;使用dir函数获取文件列表 folder 文件夹路径; files dir(fullfile(folder, *.csv)); numFiles length(files);for i 1:numFi…

每日两题 / 78. 子集 17. 电话号码的字母组合(LeetCode热题100)

78. 子集 - 力扣&#xff08;LeetCode&#xff09; 通过二进制数的方式&#xff0c;若第k位为1&#xff0c;表示最终的集合中存在nums[k] 只要遍历所有可能的二进制数即可 class Solution { public:vector<vector<int>> subsets(vector<int>& nums) {…