Bayes决策:身高与体重特征进行性别分类

代码与文件请从这里下载:Auorui/Pattern-recognition-programming: 模式识别编程 (github.com)

简述

分别依照身高、体重数据作为特征,在正态分布假设下利用最大似然法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。在分类器设计时考察采用不同先验概率(如0.5对0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。

同时采用身高与体重数据作为特征,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。 比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率进行实验,考察对决策和错误率的影响。

最小错误率贝叶斯决策

这里要对男性和女性的数据进行分类,先要求解先验概念P(x),这个概率是通过统计得到的,或者依据自身依据经验给出的一个概率值,所以这个值是可以进行设定的,可选择0.5对0.5,0.75对0.25,0.9对0.1这些进行测试。

在贝叶斯统计中,后验概率是在考虑新信息之后事件发生的修正或更新概率。后验概率通过使用贝叶斯定理更新先验概率来计算。

P(w_{i}|x)=\frac{p(x|w_{i})\times P(w_{i})}{p(x)}

其中p(x)为x的概率密度函数,即是:

p(x)=\sum_{i=1}^{2}p(x|w_{i})p(w_{i})

贝叶斯决策可以使用下面的等式来等价表示为

p(x|w_{1})P(w_{1})>p(x|w_{2})P(w_{2})

如果满足上式条件,则x属于w_{1},否则就属于w_{2},这个就是最小错误贝叶斯决策规则。

最小风险贝叶斯决策

在实际的应用中,分类错误率最小并不一定是最好的标准,不同类别的分类错误可能会导致不同的后果。有时,某些类别的错误分类可能比其他类别更为严重。例如,在医疗诊断中,将疾病误诊为健康可能比将健康误诊为疾病更为严重。在有决策风险时候,根据风险重新选择区域R_{1}R_{2}从而使得P_{e}最小。与w_{k}相关的风险或损失定义为:

r_{k}=\sum_{i=1}^{c}\lambda _{ki}\int_{R_{i}}p(x|w_{k})dx

对于本数据,只有两类:

l_{1}=\lambda _{11}p(x|w_{1})p(w_{1})+\lambda _{21}p(x|w_{2})p(w_{2})

l_{2}=\lambda _{12}p(x|w_{1})p(w_{1})+\lambda _{22}p(x|w_{2})p(w_{2})

l_{1}<l_{2},则x属于w_{i}类,即有

(\lambda _{12}-\lambda _{11})p(x|w_{1})P(w_{1})>(\lambda _{21}-\lambda _{22})p(x|w_{2})P(w_{2})

再经过简化,当w_{2}类的样本被错误的分类会产生更严重的后果,可设置为\lambda _{21}>\lambda _{12},所以若p(x|w_{2})>p(x|w_{1})\frac{\lambda _{12}}{\lambda _{21}},则判定为w_{2}类。

数据预处理

首先我们可以观察我们的数据:

它大概是这样分布的,一行数据为身高和体重。你可以使用python文件按行读取进行数据清洗,这里可以直接使用np.loadtxt,它会返回一个二维的数组,使用切片的方法就能划分出身高和体重的特征并进行均值方差化。

# @Auorui
import numpy as np
from scipy.stats import norm


class Datasets:
    # 一个简单的数据加载器
    def __init__(self, datapath, t):
        self.datapath = datapath
        self.data = np.loadtxt(self.datapath)  # 二维数组
        self.height = self.data[:, 0]
        self.weight = self.data[:, 1]
        self.length = len(self.data)
        self.t = t

    def __len__(self):
        return self.length

    def mean(self, data):
        # 均值,可以使用np.mean替换
        total = 0
        for x in data:
            total += x
        return total / self.length

    def var(self, data):
        # 方差,可以使用np.var替换
        mean = self.mean(data)
        sq_diff_sum = 0
        for x in data:
            diff = x - mean
            sq_diff_sum += diff ** 2
        return sq_diff_sum / self.length

    def retain(self, *args):
        # 保留小数点后几位
        formatted_args = [round(arg, self.t) for arg in args]
        return tuple(formatted_args)

    def __call__(self):
        mean_height = self.mean(self.height)
        var_height = self.var(self.height)
        mean_weight = self.mean(self.weight)
        var_weight = self.var(self.weight)
        return self.retain(mean_height, var_height, mean_weight, var_weight)

数据加载

def Dataloader(maledata,femaledata):
    mmh, mvh, mmw, mvw = maledata()
    fmh, fvh, fmw, fvw = femaledata()

    male_height_dist = norm(loc=mmh, scale=mvh**0.5)
    male_weight_dist = norm(loc=mmw, scale=mvw**0.5)
    female_height_dist = norm(loc=fmh, scale=fvh**0.5)
    female_weight_dist = norm(loc=fmw, scale=fvw**0.5)

    data_dist = {
        'mh': male_height_dist,
        'mw': male_weight_dist,
        'fh': female_height_dist,
        'fw': female_weight_dist
    }

    return data_dist

 这里使用字典的方式存储男女数据的正态分布化。

计算概率密度函数(pdf值)以及贝叶斯决策

这里我们将会采用身高进行最小风险贝叶斯决策,采用体重进行最小错误率贝叶斯决策,采用身高、体重进行最小错误率贝叶斯决策。

def classify(height=None, weight=None, ways=1):
    """
    根据身高、体重或身高与体重的方式对性别进行分类

    :param height: 身高
    :param weight: 体重
    :param ways: 1 - 采用身高
                 2 - 采用体重
                 3 - 采用身高与体重
    :return: 'Male' 或 'Female',表示分类结果
    """
    # 先验概率的公式 : P(w1) = m1 / m ,样本总数为m,属于w1类别的有m1个样本。

    p_male = 0.5
    p_female = 1 - p_male

    cost_male = 0  # 预测男性性别的成本,设为0就是不考虑了
    cost_female = 0  # 预测女性性别的成本
    cost_false_negative = 10  # 实际为男性但预测为女性的成本
    cost_false_positive = 5  # 实际为女性但预测为男性的成本

    assert ways in [1, 2, 3], "Invalid value for 'ways'. Use 1, 2, or 3."
    assert p_male + p_female == 1., "Invalid prior probability, the sum of categories must be 1"

    # if ways == 1:
    #     assert height is not None, "If mode 1 is selected, the height parameter cannot be set to None"
    #     p_height_given_male = male_height_dist.pdf(height)
    #     p_height_given_female = female_height_dist.pdf(height)
    #
    #
    #     return 1 if p_height_given_male * p_male > p_height_given_female * p_female else 2

    if ways == 1:
        assert height is not None, "If mode 1 is selected, the height parameter cannot be set to None"
        p_height_given_male = male_height_dist.pdf(height)
        p_height_given_female = female_height_dist.pdf(height)

        risk_male = cost_male + cost_false_negative if p_height_given_male * p_male <= p_height_given_female * p_female else cost_female
        risk_female = cost_female + cost_false_positive if p_height_given_male * p_male >= p_height_given_female * p_female else cost_male

        return 1 if risk_male <= risk_female else 2

    if ways == 2:
        assert height is not None, "If mode 2 is selected, the weight parameter cannot be set to None"
        p_weight_given_male = male_weight_dist.pdf(weight)
        p_weight_given_female = female_weight_dist.pdf(weight)

        return 1 if p_weight_given_male * p_male > p_weight_given_female * p_female else 2

    if ways == 3:
        assert height is not None, "If mode 3 is selected, the height and weight parameters cannot be set to None"
        p_height_given_male = male_height_dist.pdf(height)
        p_height_given_female = female_height_dist.pdf(height)
        p_weight_given_male = male_weight_dist.pdf(weight)
        p_weight_given_female = female_weight_dist.pdf(weight)

        return 1 if p_height_given_male * p_weight_given_male * p_male > p_height_given_female * p_weight_given_female * p_female else 2

    return 3

使用测试集验证并计算预测准确率

def test(test_path,ways=3):
    test_data = np.loadtxt(test_path)
    true_gender_label=[]
    pred_gender_label=[]
    for data in test_data:
        height, weight, gender = data
        true_gender_label.append(int(gender))
        pred_gender = classify(height, weight, ways)
        pred_gender_label.append(pred_gender)
        if pred_gender == 1:
            print('Male')
        elif pred_gender == 2:
            print('Female')
        else:
            print('Unknown\t')
    return true_gender_label, pred_gender_label

def accuracy(true_labels, predicted_labels):
    assert len(true_labels) == len(predicted_labels), "Input lists must have the same length"
    correct_predictions = sum(1 for true, pred in zip(true_labels, predicted_labels) if true == pred)
    total_predictions = len(true_labels)
    accuracy = correct_predictions / total_predictions
    return accuracy

预测结果

采用身高进行最小风险贝叶斯决策

当采用身高进行最小风险贝叶斯决策,准确率在test1数据上的准确率为94.29%,在test2数据上的准确率为91.0%。

采用体重进行最小错误率贝叶斯决策

当采用体重进行最小风险贝叶斯决策,准确率在test1数据上的准确率为94.29%,在test2数据上的准确率为85.33%。 

采用身高、体重进行最小错误率贝叶斯决策

当采用身高、体重进行最小错误率贝叶斯决策,准确率在test1数据上的准确率为97.14%,在test2数据上的准确率为90.33%。

添加新的特征

除了身高、体重的组合,我们也可以延伸出新的特征,比如bmi。

def calculate_bmi(height,weight):
    # 计算BMI作为新特征
    height_meters = height / 100  # 将身高从厘米转换为米
    bmi = weight / (height_meters ** 2)  # BMI计算公式
    return bmi

这样能做出的特征就更多了,感兴趣的不妨沿着这个思路继续做。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/111007.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

预安装win11的电脑怎么退回正版win10?

对于新购的笔记本 通常来讲预装的系统是全新安装的&#xff0c;是没有之前Windows10系统文件的&#xff0c;无法回退。 可以打开设置-----系统----恢复-----看下是否有该选项。 ------------------------------------------------------------------------------- 若是在上述…

第五章 I/O管理 七、设备的分配与回收

目录 一、设备分配时应该考虑的因素 1、设备的固有属性 2、设备分配算法 3、设备分配中的安全性 &#xff08;1&#xff09;安全分配方式: 优点: 缺点: &#xff08;2&#xff09;不安全分配方式: 优点: 缺点: 4、静态分配 5、动态分配 二、设备分配管理中的数据结…

深入探究ASEMI肖特基二极管MBR60100PT的材质

编辑-Z 在电子零件领域中&#xff0c;肖特基二极管MBR60100PT因其出色的性能和广泛的应用而显得尤为关键。理解其材质不仅有助于我们深入理解其运作原理&#xff0c;也有助于我们做出更合适的电子设计。那么&#xff0c;肖特基二极管MBR60100PT是什么材质呢? 首先&#xff0c…

3D模型怎么贴法线贴图?

1、法线贴图的原理&#xff1f; 法线贴图&#xff08;normal mapping&#xff09;是一种计算机图形技术&#xff0c;用于在低多边形模型上模拟高多边形模型的细节效果。它通过在纹理坐标上存储和应用法线向量的信息来实现。 法线贴图的原理基于光照模型。在渲染过程中&#x…

CentOS 安装 tomcat 并设置 开机自启动

CentOS 安装 tomcat 并设置 开机自启动 下载jdk和tomcat curl https://download.oracle.com/java/21/latest/jdk-21_linux-x64_bin.tar.gz curl https://dlcdn.apache.org/tomcat/tomcat-10/v10.1.15/bin/apache-tomcat-10.1.15.tar.gz解压jdk和tomcat并修改目录名称 tar -z…

【机器学习】二、决策树

目录 一、决策树定义&#xff1a; 二、决策树特征选择 2.1 特征选择问题 2.2 信息增益 2.2.1 熵 2.2.2 信息增益 三、决策树的生成 3.1 ID3算法 3.1.1理论推导 3.1.2代码实现 3.2 C4.5 算法 3.2.1理论推导 ​ 3.2.2代码实现 四、决策树的剪枝 4.1 原理 4.2 算法思路&#xff1a…

Chrome如何解决http自动转为https问题

开发中总遇到http被浏览器转为https导致无法访问404 具体配置如下&#xff1a; 就能正常访问你的http不安全地址

一篇文章让你弄懂Java中的方法

目录 1. 方法概念及使用 1.1 什么是方法(method) 1.2 方法定义 1.3 方法调用的执行过程 1.4 实参和形参的关系 1.5 没有返回值的方法 2. 方法重载 2.1 为什么需要方法重载 2.2 方法重载概念 2.3 方法签名 1. 方法概念及使用 1.1 什么是方法(method) 方法就是一…

SkyWalking官方文档-1-概述

概述 SkyWalking是一个开源的可观测平台&#xff0c;用于收集&#xff0c;分析&#xff0c;聚合&#xff0c;以及可视化处理来自服务和云原生框架的数据。SkyWalking提供了一种简单的方法来维护分布式系统的清晰视图&#xff0c;即使是跨云。 它是一种现代APM&#xff0c;专门…

uniapp 模仿 Android的Menu菜单栏

下面这张图就是我们要模拟的菜单功能 一、模拟的逻辑 1. 我们使用uni-popup组件&#xff08;记得要用hbuilder X导入该组件&#xff09;uni-app官网 2. 将组件内的菜单自定义样式 二、uniapp代码 写法vue3 <template><view><uni-popup ref"showMenu"…

Mgeo:multi-modalgeographic language model pre-training

文章目录 question5.1 Geographic Encoder5.1.1 Encoding5.1.2 question 给定query&#xff0c;如何选取周边n个地理实体。&#xff08;按照距离远近&#xff09; 训练过程如何进行。 5.1 Geographic Encoder 如果没有 GC&#xff0c;仅有地理定位是毫无意义的。地理编码器将…

腾讯待办关停后怎么恢复使用?可自动设置提醒时间的待办工具

你是否曾经有过这样的经历&#xff1a;突然想到一个重要的任务&#xff0c;但却忘记立即记录下来&#xff0c;导致事后无法及时完成&#xff1f;我们的日常生活充满了琐碎的任务&#xff0c;而记录待办事项并设置提醒时间&#xff0c;可以帮助我们更好地组织和管理时间。 记录…

时序预测 | Python实现ARIMA-LSTM差分自回归移动平均模型结合长短期记忆神经网络时间序列预测

时序预测 | Python实现ARIMA-LSTM差分自回归移动平均模型结合长短期记忆神经网络时间序列预测 目录 时序预测 | Python实现ARIMA-LSTM差分自回归移动平均模型结合长短期记忆神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 时序预测 | Python实现ARIM…

CSS色域、色彩空间、CSS Color 4新标准 | 京东云技术团队

引言 近期&#xff0c;三大主流浏览器引擎均发布最新版本&#xff0c;支持W3C的CSS Color 4标准&#xff0c;包含新的取色方法color()和相应语法&#xff0c;可展示更多的色域及色彩空间&#xff0c;这意味着web端能展示更丰富更高清的色彩。虽然目前只有最新版本的现代浏览器…

一文看懂图像格式 RAW、RGB、YUV、Packed/Unpacked、Bayer、MIPI、Planar、Semi-Planar、Interleaved

目录 一、通用属性 1. Packed/Unpacked 2. 压缩/非压缩 二、RAW 1. Bayer格式 2. 分类 3. MIPI RAW 三、RGB 分类 四、YUV 1. YUV与RGB转换 2. 分类 3. 内存计算 五、压缩格式 有的人&#xff0c;错过了&#xff0c;一生再也找寻不到。 本文详细分析各种图像格式…

C#和HttpClient结合示例:微博热点数据分析

概述 微博是中国最大的社交媒体平台之一&#xff0c;它每天都会发布各种各样的热点话题&#xff0c;反映了网民的关注点和舆论趋势。本文将介绍如何使用C#语言和HttpClient类来实现一个简单的爬虫程序&#xff0c;从微博网站上抓取热点话题的数据&#xff0c;并进行一些基本的…

LeetCode 2402.会议室III ----堆+模拟

5e5 的st与ed 容易看出来是用堆来写的一道题目&#xff0c;一开始我只用了一个堆&#xff0c;出现了问题 问题就是当我们当前这个会议有多个可以选择的会议室可以选择的时候不一定选择那个最先结束的会议室而是应该选择可以选择的那些里面编号最小的那一个&#xff0c;因此我们…

我不允许你还不知道公众号菜单栏添加表情的两种方法

在做公众号的环节中&#xff0c;设置菜单栏也很重要&#xff0c;菜单栏可以增加交互性和用户体验的趣味性。表情符号可以使得公众号菜单栏更加生动有趣&#xff0c;吸引用户的注意力&#xff0c;提高用户的使用体验&#xff1b;提高用户辨识度&#xff0c;通过使用表情符号&…

笔记软件Notability mac中文版软件功能

Notability mac是一款帮助用户备注文件的得力工具&#xff0c;Notability Mac版可用于注释文稿、草拟想法、录制演讲、记录备注等。它将键入、手写、录音和照片结合在一起&#xff0c;便于您根据需要创建相应的备注。 Mac Notability mac中文版软件功能 将手写&#xff0c;照片…