【机器学习】数学知识:标准差,方差,协方差,平均数,中位数,众数

标准差、方差和协方差是统计学中重要的概念,用于描述数据的分散程度和变量之间的关系。以下是它们的定义和公式:

1. 标准差 (Standard Deviation)

标准差是方差的平方根,表示数据的分散程度,以与数据相同的单位表示。

  • 公式
    • 对于样本: s = \sqrt{s^2}
    • 对于总体: \sigma = \sqrt{\sigma^2}

2. 方差 (Variance)

方差是衡量一组数据与其均值之间偏差的平方的平均值。它表示数据的分散程度。

  • 公式
    • 对于样本数据: s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
    • 对于总体数据: \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
    • 其中,x_i 是每个数据点,\bar{x} 是样本均值,\mu 是总体均值,n 是样本大小,N 是总体大小。

3. 协方差 (Covariance)

协方差是衡量两个变量之间关系的度量,表示它们如何一起变化。正协方差表示两个变量同向变化,负协方差表示它们反向变化。

  • 公式
    • 对于样本数据: \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
    • 对于总体数据: \text{Cov}(X, Y) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu_x)(y_i - \mu_y)
    • 其中,X 和 Y 是两个随机变量,x_i​ 和 y_i​ 是它们的观测值,\bar{x}\bar{y}​ 是它们的均值,\mu_x\mu_y​ 是总体均值。

这些概念在数据分析、概率论和统计学中非常重要,能够帮助理解数据的分布和变量之间的关系。


中位数、平均数和众数是描述数据集中趋势的三种常用统计量。各有其适用场景和统计意义,选择哪一个更具统计意义取决于数据的性质和分析目的。以下是它们的定义和计算方法及其适用情况:

4. 平均数 (Mean)

平均数是所有数据点的总和除以数据点的数量,通常被称为算术平均数。

  • 公式

        \text{Mean} = \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i 其中,x_i 是每个数据点,n 是数据点的总数量。

  • 优点
    • 平均数利用了所有数据点的信息,能反映整体水平。
    • 在正态分布的情况下,平均数是一个非常有效的集中趋势的指标。
  • 缺点
    • 对极端值(离群值)敏感。极端大或小的值会显著影响平均数,从而使其不能准确反映数据的中心趋势。
  • 适用情况
    • 当数据分布接近正态分布且没有显著的离群值时,平均数是一个很好的集中趋势度量。

5. 中位数 (Median)

中位数是将数据按升序排列后,位于中间位置的数值。如果数据点数量为奇数,中位数是中间的数;如果为偶数,中位数是中间两个数的平均值。

  • 计算方法
    • 将数据按升序排列。
    • 如果 n 是奇数: \text{Median} = x_{\left(\frac{n+1}{2}\right)}
    • 如果 n 是偶数: \text{Median} = \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1\right)}}{2}
  • 优点
    • 中位数不受极端值的影响,因此在数据中存在离群值或数据分布不对称的情况下,它能更准确地反映数据的中心位置。
  • 缺点
    • 中位数不考虑所有数据点的信息,仅依赖于数据的顺序。
  • 适用情况
    • 当数据分布不对称或存在离群值时,中位数是更好的集中趋势度量。

6. 众数 (Mode)

众数是数据集中出现次数最多的数值。一个数据集可以有一个众数(单众数),多个众数(多众数),或没有众数(如果所有数出现的次数相同)。

  • 计算方法
    • 统计每个数值出现的频率,找出出现次数最多的数值。
  • 优点
    • 众数能显示最常见的数据值,适用于定性数据(分类数据)。
    • 在某些情况下,众数可以提供重要的信息,特别是在分析类别数据时。
  • 缺点
    • 数据集中可能没有众数(所有数值出现的次数相同),或有多个众数(多众数),这可能会使其统计意义不明确。
  • 适用情况
    • 当关注最常见的值或类别时,众数是一个重要的指标。

举例说明

假设有以下数据集:3, 7, 7, 2, 5, 9, 3

  • 平均数

    \text{Mean} = \frac{3 + 7 + 7 + 2 + 5 + 9 + 3}{7} = \frac{36}{7} \approx 5.14
  • 中位数: 排序后数据集为:2, 3, 3, 5, 7, 7, 9 由于有7个数(奇数),中位数为第4个数:

    \text{Median} = 5
  • 众数: 7出现的次数最多(2次),因此众数为:

    \text{Mode} = 7

这些统计量可以帮助我们了解数据的中心位置和分布特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/915690.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis8:商户查询缓存2

欢迎来到“雪碧聊技术”CSDN博客! 在这里,您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者,还是具有一定经验的开发者,相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导,我将…

【QT常用技术讲解】优化网络链接不上导致qt、qml界面卡顿的问题

前言 qt、qml项目经常会涉及访问MySQL数据库、网络服务器,并且界面打开时的初始化过程就会涉及到链接Mysql、网络服务器获取数据,如果网络不通,卡个几十秒,会让用户觉得非常的不爽,本文从技术调研的角度讲解解决此类问…

HelloMeme 上手即用教程

HelloMeme是一个集成空间编织注意力的扩散模型,用于生成高保真图像和视频。它提供了一个代码库,包含实验代码和预训练模型,支持PyTorch和FFmpeg。用户可以通过简单的命令行操作来生成图像和视频。 本文将详细介绍,如何在GPU算力租…

公开一下我的「个人学习视频」!

哈喽,大家好,我是六哥。 鉴于上次分享,很多同学说,六哥能整一些百度网盘的资源吗? 可以,来安排,看看有你心动的吗? 性能测试系列 测开系列 python方向 Java方向 主管必会系列 质…

13.观察者模式设计思想

13.观察者模式设计思想 目录介绍 01.观察者模式基础 1.1 观察者模式由来1.2 观察者模式定义1.3 观察者模式场景1.4 观察者模式思考 02.观察者模式实现 2.1 罗列一个场景2.2 用例子理解观察者2.3 案例演变分析2.4 观察者模式基本实现 03.观察者模式分析 3.1 观察者模式案例3.2…

webpack指南

​🌈个人主页:前端青山 🔥系列专栏:webpack篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来webpack篇专栏内容:webpack-指南 概念 中文: webpack | webpack中文文档 | webpack中文网 英文&…

CSS高级技巧_精灵图_字体图标_CSS三角_vertical-align(图像和文字居中在同一行)_溢出文字省略号显示

目录 CSS高级技巧 1. 精灵图 1.1 为什么需要精灵图 1.2 精灵图(sprites)的使用 1.2 精灵图的使用 案例:拼出自己名字 2. 字体图标 2.1 字体图标的产生 2.2 字体图标的优点 2.3 字体图标的下载 2.4 字体图标的引入 2.4.1 字体文件格…

仪表板展示|DataEase看中国:历年双十一电商销售数据分析

背景介绍 2024年“双十一”购物季正在火热进行中。自2009年首次推出至今,“双十一”已经成为中国乃至全球最大的购物狂欢节,并且延伸到了全球范围内的电子商务平台。随着人们消费水平的提升以及电子商务的普及,线上销售模式也逐渐呈现多元化…

若依项目-结构解读

项目结构 admin模块 common模块 framework模块 service模块 配置 依赖关系 前端接口 src 表结构

RTSP前端实时流

因项目需求探索前端实时流,本文介绍了 RTSP 前端不能直接播放,需中间层转换协议,如 RTSP 转 RTMP、HLS、HTTP-FLV,分别阐述其特点、配置和播放方式,还提及关键帧、延迟与卡顿的关系,以及直播平台使用云服务…

植物大战僵尸杂交版v2.6.1最新版本(附下载链接)

B站游戏作者潜艇伟伟迷于11月3日更新了植物大战僵尸杂交版2.6.1版本!!!,有b站账户的记得要给作者三连关注一下呀! 不多废话下载链接放上: 夸克网盘链接:https://pan.quark.cn/s/279e7ed9f878 新…

qsqlmysql.lib的编译和使用

文章目录 打开源码 打开源码 打开qt源码安装路径 src相对路径下的文件Src\qtbase\src\plugins\sqldrivers\mysql 比如我是5.9.9版本我的路径就是:D:\Qt5.9.9\5.9.9\Src\qtbase\src\plugins\sqldrivers\mysql 可以看到待编译的mysql驱动文件 使用IDE打开pro文件进…

Window下PHP安装最新sg11(php5.3-php8.3)

链接: https://pan.baidu.com/s/10yyqTJdwH_oQJnQtWcwIeA 提取码: qz8y 复制这段内容后打开百度网盘手机App,操作更方便哦 (链接失效联系L88467872) 1.下载后解压文件,将对应版本的ixed.xx.win文件放进php对应的ext目录下,如图所示 2.修改ph…

30.超市管理系统(基于springboot和Vue的Java项目)

目录 1.系统的受众说明 2.相关技术和开发环境 2.1 相关技术 2.1.1 Java语言 2.1.2 HTML、CSS、JavaScript 2.1.3 MySQL 2.1.4 Vue.js 2.1.5 SpringBoot 2.2 开发环境 3. 系统分析 3.1 可行性分析 3.1.1 经济可行性 3.1.2 技术可行性 3.1.3 运行可行性 3.2…

去地面算法——depth_clustering算法调试(1)

1 源码下载 论文: 《2016-Fast Range Image-Based Segmentation of Sparse 3D Laser Scans for Online Operation》 《2017-Efficient Online Segmentation for Sparse 3D Laser Scans》 代码:git链接 2 问题记录 2.1 无法找到qt问题 问题截图&…

pyspark入门基础详细讲解

1.前言介绍 学习目标:了解什么是Speak、PySpark,了解为什么学习PySpark,了解课程是如何和大数据开发方向进行衔接 使用pyspark库所写出来的代码,既可以在电脑上简单运行,进行数据分析处理,又可以把代码无缝…

Qt 编写插件plugin,支持接口定义信号

https://blog.csdn.net/u014213012/article/details/122434193?spm1001.2014.3001.5506 本教程基于该链接的内容进行升级,在编写插件的基础上,支持接口类定义信号。 环境:Qt5.12.12 MSVC2017 一、创建项目 新建一个子项目便于程序管理【…

【python】python使用虚拟环境

使用虚拟环境的好处是创建一个独立干净的环境 首先cd到新项目的目录下 创建虚拟环境 使用日期命名方便自己找到版本 python -m venv venv20241114激活虚拟环境 .\venv20241114\Scripts\activate会创建一个文件夹 点进去可以看到是python的脚本所存文件结构 纯净环境 p…

CSS 技巧:如何让 div 完美填充 td 高度

引言 一天哈比比突然冒出一个毫无理头的一个问题: 本文就该问题进行展开… 原文链接: 昆仑虚F2E 一、需求说明 大致需求如下, 当然这里做了些简化 有如下初始代码: 一个自适应的表格每个单元格的宽度固定 200px每个单元格高度则是自适应每个单元格内是一个 div 标签, div 标签…

跟上AI的浪潮

现在AI技术已广泛应用至语音助手、写作、绘图、视频,甚至是各种语言的代码编写。平常我们都是应用别人开发好的模型,或者说智能体,那么我们自己能否做那个开发AI智能体的人,近期加了一个AI学习的大社区,几万在AI道路上…