统计学第1天

描述性统计

统计数据类型分类

按计量尺度划分

分类数据

能归于某一类别的非数字数据,数据是对事进行分类的结果,结果表现为类别,用文字来描述。

例如:人口按照性别(男、女),企业按照所处行业(医药、家电、纺织品等)。

顺序数据

能归于某一有序类别的非数字数据,顺序数据虽然有类别,但是这些类别是有序的。

例如:将产品分为(一等品、二等品、三等品、次品),学习成绩分为(优秀、良好、及格、不及格)。

数值型数据

具体的数值,生活中处理的大部分都是数值型数据

例如:年龄、体重(KG),身高(CM)

按收集方法划分

观测数据

通过调查或观测获得的数据

实验数据

通过实验获得的数据,例如新药(实验过程中的各项数据)、新农作物(实验数据)

按时间状态划分

截面数据

相同或者近似相同的时间节点上不同空间收集得到的数据,用于描述现象在某一时刻的变化。(时间相同、维度不同)

例如:2020年某汽车品牌在全国不同地区的销售量

时间序列数据

不同时间收集到的数据,用于描述现象随时间变化的变化情况(时间不同,维度相同)。

例如:2018-2024年某汽车在某地区每个月的销量情况。

总体和样本

总体

研究的全部个体(数据)的集合。

例如:多个企业构成的集合,多个居民构成的集合

样本

从总体中抽取一部分元素的集合,构成样本的数目称为样本量

抽样目的是根据样本提供的信息推断出总体的特征。

比如:从一个流水线上抽取一百件商品,通过这一百件商品的合格率来推断,这批商品的合格率

参数

用来描述总体的概括性数字度量,总体的某些特征值。

例如:总体平均数、总体方差、总体标准差、总体比例等。

统计量

用来描述样本的概括性数字度量,样本的某些特征值。

例如:样本平均数、样本标准差、样本比例等。

总体、样本、参数、统计量对比

变量

定义

数值会发生变化的量,特点是从一次观察到下一次观察结果呈现出差别(变化)。变量的具体取值称为变量值。

分类

分类变量

事务类别的一个名称,取值是分类数据。(例如:性别、对错)

顺序变量

事务有序类别的一个名称,取值是顺序数据。(例如:产品等级分为‘一等品’、‘二等品’、‘三等品’、‘残次品’)

数字型变量

事务数字特征的一个名称,取值是数值型数据。(例如:商品销售额、销量、单价)

集中趋势分析

  1. 一组数据向其中心值靠拢的倾向和程度
  2. 测试集中趋势就是寻找数据水平的代表值或中心值
  3. 不同类型的数据用不同的集中趋势测量值
  4. 低层次数据的测度值适用于高层次的测量数据,但高层数据的测度值并不适用于低层次的测量数据

众数和中位数

众数

性质
  1. 一组数据中出现最多的变量值
  2. 适用于数据量较多时使用
  3. 不受极端值的影响
  4. 一组数据可能没有众数或有几个众数
  5. 主要用于分类数据,也可用于顺序数据和数值型数据

案例

使用M来表示

Excel函数

Mode()

中位数

性质
  1. 排序处于中间位置上的值(偶数为中间两个值的平均值)
  2. 不受极端值的影响
  3. 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
  4. 各变量值与中位数的离差(差值)绝对值之和最小
案例

Excel函数

median()

平均数(均值)

  1. 集中趋势的最常用测量值
  2. 一组数据的均衡点所在
  3. 体现了数据的必然特征
  4. 易受极端值的影响
  5. 有简单平均数和加权平均数之分
  6. 根据总计数据计算的称为平均数,记为μ;根据样本计算的称为样本平均数,记为x-bar

总体平均数是一个定值,样本平均数会随着样本的不同而变化

算术平均数
Excel函数

average()

加权平均数

算数平均数默认每个数的权重都是相等的,加权平均数给每个数据赋予权值

Excel函数

sumproduct(平均值列:权数列)/sum(权数列)

几何平均值

N个变量的N次方

Excel函数

geomean()

四分位数

性质
  1. 排序后处于25%和75%位置上的值
  2. 不受极端值的影响

Excel函数

quartile(范围,1/2/3)

1代表上四分位(75%)

2代表中位数(50%)

3代表下四分位(25%)

 

众数、中位数、平均数区别

离散程度分析

离散趋势

  1. 数据分布的另一个重要特征
  2. 反应各变量远离其中心值的程度(离散程度)
  3. 从另一个侧面说明了集中趋势测度值的代表程度
  4. 不同类型的数据有不同的离散程度测度值

分类数据:异众比率

非众数组的频率占总频数的比例

顺序数据:四分位差

对顺序数据离散程度的测度,也称为内距或四分间距,为上四分位数与下四分位数之差,反应中间50%数据的离散程度;不受极值的影响,用于衡量中位数的代表性

数据型数据:方差、标准差(开根号)

数据离散程度的最常用测度值,反应了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差(标准差),根据样本计算的称为样本方差

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/472548.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

进程(2)——进程优先级

1、基本概念 cpu资源分配的先后顺序,就是指进程的优先权(priority)。 优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。 还可以把进程运行到指定的CPU上,这样一来&a…

【Unity】捕捉PC桌面的插件

【背景】 之前介绍了如何用一款名为uWindowCapture的Unity免费插件在Unity的Canvas上展示PC桌面。经过一段时间的使用,本篇继续分享此插件的一些功能和限制。 在此感谢作者Hecomi。 【特征和限制】 一般局域网络环境只能最多达到15帧的帧率,所以别幻想用来窜流游戏或者看电…

Linux环境开发工具之vim

前言 上一期我们已经介绍了软件包管理器yum, 已经可以在linux上查找、安装、卸载软件了,本期我们来介绍一下文本编辑器vim。 本期内容介绍 什么是vim vim的常见的模式以及切换 vim命令模式常见的操作 vim底行模式常见的操作 解决普通用户无法执行sudo问…

【机器学习300问】40、如何评估一个异常检测系统?

上一篇文章是我学习异常检测系统如何实现的学习笔记,这篇文章接着上文记录几个评价异常检测系统的关键步骤和指标。如果友友们没有看过之前的文章可以点击下面的链接去看看哦! 【机器学习300问】39、高斯分布模型如何实现异常检测?http://t.…

【鸿蒙HarmonyOS开发笔记】通知模块之发布基础类型通知,内含如何将图片变成PixelMap对象

通知简介 应用可以通过通知接口发送通知消息,终端用户可以通过通知栏查看通知内容,也可以点击通知来打开应用。 通知常见的使用场景: 显示接收到的短消息、即时消息等。 显示应用的推送消息,如广告、版本更新等。 显示当前正…

数据库系统概论-第3章 关系数据库标准语言SQL

3.1 SQL概述 3.2 学生-课程数据库 3.3 数据定义 3.4 数据查询 3.5 数据更新 3.6 空值的处理 3.7 视图 3.8 小结

Wav2Lip+facefusion通过云GPU实现自定义数字人

1 通过Wav2Lip同步嘴型 这里我是用的云GPU,选择的恒通云,下面是我的套餐信息 比较注意的是选择的镜像必须选择拥有python3.6的镜像,因为Wav2Lip需要的环境就是python3.6 开始进入系统执行下面操作 克隆源码: git clone https:…

【四六级最强四六级通关秘籍】十万字经验贴,浅谈 大学生与大学英语四六级的“爱恨情仇“

大学生与大学英语四六级的"爱恨情仇" 一、、创文初衷 1.1创作目的 亲爱的网友们, 大家好!我最近意识到,尽管英语六级考试对许多大学生来说是一个重要的挑战,但并不是每个人都能找到合适的学习方法和技巧来顺利通过这…

计算机设计大赛 题目: 基于深度学习的疲劳驾驶检测 深度学习

文章目录 0 前言1 课题背景2 实现目标3 当前市面上疲劳驾驶检测的方法4 相关数据集5 基于头部姿态的驾驶疲劳检测5.1 如何确定疲劳状态5.2 算法步骤5.3 打瞌睡判断 6 基于CNN与SVM的疲劳检测方法6.1 网络结构6.2 疲劳图像分类训练6.3 训练结果 7 最后 0 前言 🔥 优…

内核移植——开发板的软件抽象(struct machine_desc)

以下内容源于朱有鹏嵌入式课程的学习与整理,如有侵权请告知删除。 内核支持什么架构、支持哪款cpu,这是如何确定的?主要是通过机器码来确定的。 内核中定义了一份机器码,uboot也会给内核传递一个机器码。 在内核启动的汇编阶段&…

【呼市经开区建设服务项目水、电能耗监测 数采案例】

实施方案 针对能耗采集中的水、电能源数据采集,因客观因素条件,数据采集方面存在较大难度。大多数国网电表485接口由于封签限制,不能实施采集,不让拆机接线,采集实施存在困难。水量能耗采集,存在类似问题&a…

网络原理(3)——TCP协议

目录 一、连接管理 二、三次握手 1、何为三次握手? 2、三次握手有何意义? 三、四次挥手 三次握手和四次挥手的相似之处和不同之处 (1)相似之处 (2)不同之处 四、TCP的状态 建立连接: 断开…

Fabric.js在vue2中使用

Fabric.js安装 这里我是基于vue来使用的,先安装上Fabric.js npm install fabric 在main.js中 import fabric from fabric Vue.use(fabric);Fabric 提供了 7 种基础形状: fabric.Circle (圆)fabric.Ellipse (椭圆)fabric.Line (线)fabric.Polyline (多条…

GIS学习

匹配查询,先连接两个表,然后在一个表里面查询 合并两个形状 比较好的colormap http://soliton.vm.bytemark.co.uk/pub/cpt-city/views/totp-cpt.html https://docs.gmt-china.org/latest/cpt/builtin-cpt/ 计算坡度时就要捕捉栅格 重分类时也要捕捉栅…

protobuf原理解析-基于protobuf-c实现序列化,反向序列化

1.一个实例 前面介绍了使用protobuf的流程. (1). 定义proto文件来描述需要序列化和反向序列化传输的消息. (2). 借助proto-c,为proto文件生成对应的代码控制文件. (3). 程序借助生成的代码控制文件和protobuf-c动态库的支持实现类…

HarmonyOS如何创建及调用三方库

介绍 本篇主要向开发者展示了在Stage模型中,如何调用已经上架到三方库中心的社区库和项目内创建的本地库。效果图如下: 相关概念 Navigation:一般作为Page页面的根容器,通过属性设置来展示页面的标题、工具栏、菜单。Tabs&#…

win10 配置 oh-my-posh

win10 配置 oh-my-posh 0. 前置1. 安装1.1. 软件1.2. 字体1.3. 激活1.3.1. Git Bash1.3.2. PowerShell 2. 配置2.1. 效果2.2. 说明2.3. 其他2.3.1. 新版PowerShell2.3.2 conda问题 0. 前置 这个东西毕竟是个,命令行美化工具,所以需要先有一个命令行&…

代码随想录算法训练营第60天 | 84.柱状图中最大的矩形

单调栈章节理论基础: https://leetcode.cn/problems/daily-temperatures/ 84.柱状图中最大的矩形 题目链接:https://leetcode.cn/problems/largest-rectangle-in-histogram/description/ 思路: 本题双指针的写法整体思路和42. 接雨水是一…

ubuntu 20.04 Kimera semantic 运行记录

Ubuntu20.04 Kimera Semantic运行记录 Kimera VIO ROS 配置 MIT Kimera-VIO-ROS 安装 mkdir -p Kimera_ws/src cd Kimera_ws catkin init catkin config --cmake-args -DCMAKE_BUILD_TYPERelease -DGTSAM_TANGENT_PREINTEGRATIONOFF catkin config --merge-develcd src git…