【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录

参考书,学习书

0 统计学知识大致脉络

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

2 数据的来源

2.1 数据的来源

2.2 数据的层级

2.3 样本是什么sample? 

3  如何获得样本数据? 

3.1 随机抽样不是随意调查

3.2 等距抽样

3.3 分层抽样

3.4 群抽样

3.5 混合多阶段抽样


参考书,学习书

  • 日本,图解统计学,今野纪雄
  • 日本,新手小白学统计,本丸谅
  • 《从零开始学统计》 归璐
  • 《戏说统计》李连江

0 统计学知识大致脉络

  • 需要对统计学有个大致脉络
  • 不至于完全陷入到细节里去,时刻清楚自己在地图的哪儿

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

  • 个体---抽样---整体/母体
  • case---sample---polulation
  • 普通----特殊----整体
  • 这个类黑格尔的三段式逻辑的内涵:
  • 我们想从个别例子认识到整体,总结到一般规律,中间必须要借用1个逻辑步骤:抽样样本。
  • 也就是用1个命题+另外1个命题→得到结论的一种推理方式

黑格尔式三段论逻辑:

人都要吃饭

男人是人

所以男人要吃饭

科学网—“三段论(Syllogism)”简介 - 柳渝的博文

在传统逻辑中,“三段论(Syllogism)”指从两个命题(“大前提”和“小前提”)推导出“结论”的一种推理形式,是数学证明、科学研究及日常沟通交流中常用的一种推理

在希腊语中,syllogism由syn(与)和logos(语言)组成,本意指“(一个命题)与(另一个命题)相连”,引申义指“推理”。亚里士多德在“工具论(Organon)”中第一次将三段论系统化。

例子:

- 所有人都是必死的。(大前提)

- 苏格拉底是人。(小前提)

- 苏格拉底是必死的。(结论)

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

  • 我们自己当然可以自己定义一个我们全知的“整体”
  • 在这个角度,我们就是上帝
  • 但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。
  • 就和做题 != 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。

类比的例子

  • 定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?
  • 是因为别人可以设置 -10度,-20作为温度和身高的起点,这样计算乘除的结果就完全不同了。所以是没有意义的。
  • 只有用绝对0度当0度的华氏温度才有 */的意义。

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

大整体/母体的特点

  • 理论都是无穷的,无法穷尽数量的,所以我们不可能认识真正的全部集合里的所有元素!
  • 获得巨大量的数据,成本是很高的。
  • 等等原因

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

  • 从柏拉图等观点来看
  • 因为真正的母体/总体我们无法认识,其实这些是概念,不存在于现实世界,只存在于彼岸世界,是所谓的“形而上”
  • 而我们所有的现实生活的一个个集合,都是对这个概念的一个拙劣的投射/模仿(反正就是这个意思吧,我水平就只能描述道这)

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

  • 哲学里对立的观点本来就很多
  • 有“形而上”的观点,也有 纯经验的观点,比如经验主义,现象学等等
  • 这个不说了,作为普通人的我把握不住。

我认为

  • 真正的整体也许确实永远不可能被全部认识
  • 整体是部分可知的
  • 或者说,整体的一些现实投射是可知的。
  • 我们的日常经验就是对整体的一些认识,这些就是我们认识的材料。

2 数据的来源

2.1 数据的来源

  • 调查,问卷等
  • 统计

2.2 数据的层级

  • 个体:case ,特殊化
  • 整体/母体:不可知
  1. 进行普查:几乎不可能
  2. 进行全面调查,很难,成本很高
  • 所以我们要通过样本取认识整体,样本是什么?

2.3 样本是什么sample? 

  • 样本是整体的一部分
  • 样本不是整体的随便一部分
  • 样本是整体的微缩/结构相同/类似/缩小版

但是问题来了

  • 我们连整体都不能全知,我们怎么知道样本是否和总体是结构类似的?
  • 我们不能保证(因为我们确实验证不了)
  • 我们最多只能从过程中保证

3  如何获得样本数据? 

  • 我们最多只能从过程中保证,样本类似整体,怎么做?
  • 只能从过程上尽量保证随机:每个个体均等机会被抽中。
  • 取样的原则1:公平
  • 取样的原则2:成本可控时,抽样数量要尽可能多一点

保证总体中每个case有相同的概率被抽取到!

这需要考虑到很多

这些case 在各个属性维度上,都要是相同,平等的概率

比如人口调查,需要让人口从年龄,学历,地域,,,,各个维度都平等的抽到

  • 具体的手段:随机抽样/等距抽样,等等

3.1 随机抽样不是随意调查

  • 抽样调查
  • 正确:比如给每个个体编号,然后取随机抽取这些编号
  • 错误:比如给每个个体编号,挑选编号前100个

3.2 等距抽样

  • 比如给每个个体编号,然后按一定距离比如相距10个抽1个
  • 1,11,21,等等

3.3 分层抽样

  • 如果我们知道数据是分层的
  • 并且,我们可以用一些辅助数据可以区分这些分层
  • 那么我们可以在不同的分层中分别抽取数据

数据分层:(有点像聚类分析,不同的类别)

  • 分层间,数据差异大
  • 分层内,数据差异比较小

3.4 群抽样

  • 从直接抽个体,变成直接抽群
  • 群抽样的特点例子,比如学校学生等天然就是分群的

群抽样和分层抽样差异

  • 群抽样,每个群体之间差异小,群里尽量是差异很大,每个群内部都类整体分布
  • 分层抽样相反,层之间差异大,层内差异小。

3.5 混合多阶段抽样

比较复杂,我没仔细看~~

反正就是利用上面各种抽样的优点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/906057.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qgis 开发初级 《ToolBox》

Qgis 有个ToolBox 的,在Processing->ToolBox 菜单里面,界面如下。 理论上Qgis这里面的工具都是可以用脚本或者C 代码调用的。界面以Vector overlay 为例子简单介绍下使用方式。Vector overlay 的意思是矢量叠置分析,和arcgis软件类似的。点…

用图说明 CPU、MCU、MPU、SoC 的区别

CPU CPU 负责执行构成计算机程序的指令,执行这些指令所指定的算术、逻辑、控制和输入/输出(I/O)操作。 MCU (microcontroller unit) 不同的 MCU 架构如下,注意这里的 MPU 表示 memory protection unit MPU (microprocessor un…

HCIA(ACL)

第七节 ACL:访问控制列表 访问控制----在路由器的入或者出的接口上,匹配流量,之后产生动作---允许或拒绝 定义感兴趣流量-----帮助其他软件抓流量 匹配规则: 至上而下,逐一匹配,上调匹配按照上条执行…

冒泡排序和二分查找--go

冒泡排序的逻辑 二分查找的逻辑 func bubbleSort(arr *[5]int){//冒泡排序fmt.Println(*arr)temp : 0for j : len(*arr); j > 0; j-- {for i : 0; i < j-1; i {temp (*arr)[i]if((*arr)[i] > (*arr)[i1]){(*arr)[i] (*arr)[i1](*arr)[i1] temp}}} }func binaryF…

【工具分享】Pylocky勒索病毒解密工具

前言 PyLocky勒索软件首次出现在2018年&#xff0c;以模仿著名的Locky勒索软件而得名。与Locky无实际关联&#xff0c;PyLocky是用Python编写的&#xff0c;并通过PyInstaller打包成可执行文件&#xff0c;使其更难被检测。PyLocky通常通过网络钓鱼邮件传播&#xff0c;邮件伪…

SAP-FICO 月结流程

一、财务月结 1、资产会计-固定资产折旧计提AFAB 正式运行之前&#xff0c;先测试运行&#xff0c;没有问题就正式运行 可以看到&#xff0c;没有错误 因为正式系统的资产会过于庞大&#xff0c;一般都是后台运行资产的折旧 点击程序--后台执行 AFBP查看运行日志&#xff0c…

vscode | 开发神器vscode快捷键删除和恢复

目录 快捷键不好使了删除快捷键恢复删除的快捷键 在vscode使用的过程中&#xff0c;随着我们自身需求的不断变化&#xff0c;安装的插件将会持续增长&#xff0c;那么随之而来的就会带来一个问题&#xff1a;插件的快捷键重复。快捷键重复导致的问题就是快捷键不好使了&#xf…

ETLCloud怎么样?深度解析其在数据管理中的表现

在BI或数据大屏等数据分析工具中&#xff0c;经常需要从多个业务系统中提取原始数据&#xff0c;然后对数据进行清洗、处理&#xff0c;以获取高质量、有效且干净的数据以供后续的BI进行数据统计和分析使用&#xff0c;从高质量的实现企业数据的价值变现。 然而&#xff0c;在…

0xGame 2024 [Week 4] Jenkins

1.前言 由于好久没做web题了&#xff0c;所以今天来尝试来做一波web题&#xff0c;仅供刷题记录。 2.题目 这个给的提示对于小白来说实在是友好的过劲。 3.分析 上网搜到一个关于Jenkins的历史漏洞&#xff0c;下面链接可供参考 https://blog.csdn.net/2301_80127209/arti…

国标GB28181公网直播EasyGBS国标GB28181软件的应用场景

随着科技的飞速发展&#xff0c;安防视频监控技术已经成为现代社会不可或缺的一部分&#xff0c;它在保障公共安全、企业运营安全以及个人财产安全方面发挥着举足轻重的作用。国标GB28181网页直播平台EasyGBS安防视频监控平台&#xff0c;作为集高效性、稳定性与智能化于一体的…

【Vue项目1】第一篇

Vue项目1学习第一篇 01. 环境配置介绍和项目搭建02. Router路由配置引入03. ElementPlus引入和按需加载04. layout布局和菜单aside组件创建05. aside样式问题和treeMenu组件拆分06. treeMenu组件递归实现 01. 环境配置介绍和项目搭建 &#xff08;1&#xff09;安装node.js …

【从零开始的LeetCode-算法】3127. 构造相同颜色的正方形

给你一个二维 3 x 3 的矩阵 grid &#xff0c;每个格子都是一个字符&#xff0c;要么是 B &#xff0c;要么是 W 。字符 W 表示白色&#xff0c;字符 B 表示黑色。 你的任务是改变 至多一个 格子的颜色&#xff0c;使得矩阵中存在一个 2 x 2 颜色完全相同的正方形。 如果可以…

Javaweb梳理8——数据库设计

Javaweb梳理8——数据库设计 8 数据库设计8.1 数据库设计简介8.2 表关系(一对多)8.3 表关系&#xff08;多对多&#xff09;8.4 表关系&#xff08;一对一&#xff09; 8 数据库设计 8.1 数据库设计简介 软件的研发步骤 数据库设计概念 数据库设计就是根据业务系统的具体需…

Edge 浏览器插件开发:图片切割插件

Edge 浏览器插件开发&#xff1a;图片切割插件 在图片处理领域&#xff0c;按比例切割图片是一个常见需求。本文将带你开发一个 Edge 浏览器插件&#xff0c;用于将用户上传的图片分割成 4 个部分并自动下载到本地。同时&#xff0c;本文介绍如何使用 cursor 辅助工具来更高效…

QT QPainter 绘图

QT QPainter 绘图 一、基本绘图类&#xff1a; Qt 中提供了强大的 2D 绘图系统&#xff0c;可以使用相同的 API 在屏幕和绘图设备上进行绘制&#xff0c;它主要基于QPainter、QPaintDevice 和 QPaintEngine 这三个类。 QPainter 用于执行绘图操作&#xff0c;其提供的 API 在…

【C++】位图详解(一文彻底搞懂位图的使用方法与底层原理)

目录 1.位图的概念 2.位图的使用方法 定义与创建 设置和清除 位访问和检查 转换为其他格式 3.位图的使用场景 1.快速的查找某个数据是否在一个集合中 2.排序去重 3.求两个集合的交集和并集 4.位图的底层实现 私有成员定义与初始化 set和reset的实现 前面的博客我们…

在线教育系统源码开发详解:网校培训平台搭建的核心技术

本篇文章&#xff0c;笔者将详细介绍在线教育系统源码的开发过程&#xff0c;重点聚焦网校培训平台搭建的核心技术&#xff0c;以期为有意从事在线教育行业的开发者提供实用的参考。 一、在线教育系统的构成 前端负责用户的交互体验&#xff0c;后端处理业务逻辑&#xff0c;…

qt QPalette详解

1、概述 QPalette是Qt框架中用于管理颜色组和角色的一种机制。它允许开发者为应用程序中的不同组件&#xff08;如窗口、按钮、文本框等&#xff09;定义一套统一的颜色方案。QPalette通过定义颜色角色&#xff08;如背景色、前景色、选择色等&#xff09;和颜色组&#xff08…

Java基本语法和基础数据类型——针对实习面试

目录 Java基本语法和基础数据类型标识符和关键字有什么区别&#xff1f;Java关键字有哪些&#xff1f;Java基本数据类型有哪些&#xff1f;什么是自动装箱和拆箱&#xff1f;自动装箱&#xff08;Autoboxing&#xff09;自动拆箱&#xff08;Unboxing&#xff09; 自动装箱和拆…

逻辑磁盘管理 附实验:逻辑卷的组成与划分

分区类型&#xff1a; 1、系统引导分区 就是存放系统的引导文件和Linux的内核文件 2、swap分区 交换分区&#xff0c;系统的物理内存不足时&#xff0c;从一些长时间未运行的程序当中释放一部分内存释放出来的保存到swap分区&#xff0c;这些未运行的程序一旦运行还要从swap空…