【小白学机器学习19】统计基础:什么是定量分析,量化的4个层级,因果关系分类等

目录

1 定性分析和定量分析

1.1 两种分析方式

1.2 定性分析

1.3 定量分析

1.3.1 定义

1.3.2 名字

1.4 特点和差异

1.5 两者的关系

1.6 测量的评价:切实,可靠

1.7 关于统计分析

2 定量分析的三段式逻辑:个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

2.2 三个分析层级

2.3 总体/母体,population

2.4 样本 Sample

2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢

2.5.1 总体既不可知,那么怎么知道样本近似总体?

2.5.2 那么如何保证样本高度近似,逼近总体呢?

2.5.3 具体的方法就是:随机抽样

随机抽样

随意抽样

3 量化研究的对象: 个体,和个体的属性

3.1 研究的对象:现实中我们观测到的两个维度

3.2 分析单位:

3.3 其中属性又有2个向度:

4  对数据进行定量分析,定量/量化的4个层级

4.1 定量/量化的意思

4.2 量化的4个层级

4.3 定类,称名变量

4.4  定序,顺序变量

4.5  定距,定距变量

4.6 定比,定比变量

4.7 可被定量的等级,和实际定量等级是两回事

5 变化的事物和事物之间的联系

5.1 我们只研究变化的东西

5.1.1 但是变和不变是相对的

5.2 变化的2种不同含义

5.3 对应数据的分类方法1:

5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系

5.2.2 事物之间的关系分为很多种

5.2.3 为什么喜欢研究因果关系

5.2.4 哪些算因果分析

5.3 各种变量的名称


1 定性分析和定量分析

1.1 两种分析方式

人类有两种认识世界上的事物的方式

  • 定性分析:通过发掘问题、理解事件现象,去研究事物的属性,事物之间的关系等。
  • 定量分析:用数学工具,用数字为形容词/名字去描述和记录某些个体的属性的分析方式

下面是百科里来的

定性研究(Qualitative research)是与定量研究(Study on measurement,Quantitative research)相对的概念,也称质化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。

定量研究(Study on measurement,Quantitative research)是与定性研究(Qualitative research)相对的概念,要考察和研究事物的量,就得用数学的工具对事物进行数量的分析,这就叫定量的研究,也称量化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。

1.2 定性分析

很多相似名字,差不多意思

  • 定性研究 qualitative research 
  • 质性研究,质性分析,质化研究等
  • 优点:
  1. 适合人脑的模式分析的思路
  2. 只要想象力丰富,几乎无上限?
  3. 是其他行动的前提
  • 缺点:
  1. 无法证伪,可能导致大量的错的,假的混杂在真的一起。
  2. 很难把研究对象,研究内容随机化

1.3 定量分析

1.3.1 定义

  • 量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
  • 建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力

1.3.2 名字

有很多相近的名字,大概都是差不多的意思

  • 定量分析,量化分析:quantitative analysis
  • 统计分析,统计方法:statistical analysis
  • 优点
  • 缺点
  1. 有时候会因为数据错误,而结论也肯定错误
  2. “错误输入导致错误的输出”
  3. “垃圾进,垃圾出”
  4. 有时候会得出一些肤浅的结论,比如关联度过高,可能本身就是存在共线性的关系等。

1.4 特点和差异

  • 定性分析,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
  • 定量分析,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式

1.5 两者的关系

  • 两种分析方式没啥好鄙视得,
  • 做定量研究之前,一般需要先有理念,设想等,也就是先有定性的分析。
  • 而不做定量分析,定性研究很难证伪,无法落地

  • 所有定量分析之前都需要定性分析吗?
  • 反例:机器学习里的无监督学习是不是已经是不需要先做定性分析的例子? 根据算法去自动分类,形成最终的结果,是研究人员事前并没有设想到的一些结论等?

1.6 测量的评价:切实,可靠

  • 切实 valid :测量的手段是合适的,可测得,可测准的,等等
  • 可靠 reliable / 有效度/ 效度/信度:反复验证,数据变化不应该太大,稳定性比较抢

1.7 关于统计分析

  • 自然科学里可重复的实验室试验,最可靠,可重复,可证伪
  • 其次是医学里的双盲试验等,比实验室试验已经打了折扣
  • 统计分析,其实并上面两者都低,只是一个做不了前面2者的一个替代品!
  • 为什么
  1. 人的特殊性
  2. 人的价值和权力,导致无法对人对实验
  3. 人的复杂性也很难做定量试验

2 定量分析的三段式逻辑:个体 → 样本 → 总体

2.1 定量分析的逻辑链条是

  • 个体 → 样本 → 总体 
  •  普通→ 特殊 → 一般
  • cases  →  特殊 sample statistic  → 一般 population parameter
  • 现象               →  样本     →     自在之物
  • Erscheinung                    →  Ding an sich
  • 定性分析先心里有了一个模型
  • 通过收集cases,形成一个特殊的样本/殊像,再试图去估计总体的参数

  • 这个是类黑格尔逻辑分析的三段论,而不是,从个体到一般的两段论。
  • 为什么一定要有中间过程,我觉得是逻辑上的桥梁,否则很难从逻辑上推论
  • 比如,没有对样本的研究,从个体很难推论到总体

2.2 三个分析层级

  • 第1层级,个体  unit ,case, observation
  • 第2层级,样本  sample
  • 第3层级,总体、母体(认为的那个模型里)参数的具体参数 population

2.3 总体/母体,population

  • 总体是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知
  • 从柏拉图的那些 理念,理想化的实体,只存在于彼岸的东西。
  • 我们可以认识总体的一些部分,但是永远不能完全的认识。
  1. 有些总体已经封闭,比如地球上的恐龙数量
  2. 有很多总体还在变化,其数量等很多属性不可知。

2.4 样本 Sample

定义

  • 错误:样本是总体的随意的一部分
  • 不够准确:样本是总体的一部分。没错但是不够精确
  • 准确:必须尽量和母体高度形似,结构高度相似的才算样本。

样本不是随便取得总体的一部分

  • 样本和整体的关系,不是局部和整体的关系
  • 而是微缩结构和整体结构的关系
  • 理论上,样本尽量是1比1的缩略最好

2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢

2.5.1 总体既不可知,那么怎么知道样本近似总体?

  • 但是因为母体不可被真正完全认识,只能部分认识
  • 所以,样本是否和总体真的同构,高度近似,这个无法验证!

2.5.2 那么如何保证样本高度近似,逼近总体呢?

  • 那么如何保证样本高度近似,逼近总体呢?
  • 答案是:无法完全保证。无法从结果上证实,只能成程序上保证
  • 也就是结果的正确/正义无法保证,只能从过程的正确/正义上去保证

2.5.3 具体的方法就是:随机抽样

随机抽样
  • 什么是随机抽样:总体内的每个个体抽到的机会均等
  • 至少程序上保证每个个体都有被平等抽到的可能/机会/概率。
  • 随机抽样:比如随机抽取的,比如编号后随机,等距抽样等等,
  • 随机抽样,只能保证过程公正,无法保证结果公平(结果是凭运气随机的)

随意抽样
  • 有规律的往往就是非随机的,
  • 现实中,记者街头采访,各种调查都是随意抽样
  • 为什么:比如记者采访调查人们的幸福感,只是选择我国某个城市的某个街道。这也抽样,最多只能代表这个街道的某天某个时刻的人的随机性。
  • 因为,没考虑,地理范围,时间,城市差别,人群年龄,生活习惯等各种差别。
  • 这些往往都很随意,原因是什么?
  • 原因是,没有在做样本调查前,先想清楚,总体是什么,怎么让样本去逼近总体,怎么样做到让每个个体都有被平等抽到的可能。

3 量化研究的对象: 个体,和个体的属性

3.1 研究的对象:现实中我们观测到的两个维度

  • 维度1:会观测到很多的个体(但我们一般只选其中一部分就是样本,不可能研究全部)
  • 维度2:可以观测到每个个体的有很多属性(但我们一般只研究我们看重的属性,而非全部)

3.2 分析单位:

  • 单个的个体 → 一群个体(定量分析必然要分析一群个体:样本,而不只是单个)
  • 个体的部分属性

3.3 其中属性又有2个向度:

  1. 属性的名称,
  2. 属性的尺度: 属性的强弱,大小,高低等特点。针对属性的尺度,有不同的定义方法,见下文


4  对数据进行定量分析,定量/量化的4个层级

4.1 定量/量化的意思

  • 定,不是确定的意思,只是标记数据。
  • 一般来说,如果是确定数据的意义,一般是定性研究已经做完了。
  • 定量研究,是要对数据进行标记。

4.2 量化的4个层级

  • 最低:定类测量:cateforical measurement,名义测量:nominal measurement
  • 定序测量:ordinal measurement
  • 定距测量:interval measurement
  • 最高:定比测量:ratio measurement
  • 这几个层级是向下兼容的,也就是说:定量的数据肯定也是符合定距,定序,定类的!

4.3 定类,称名变量

  • 定类测量:cateforical measurement
  • 名义测量:nominal measurement
  • 只是对数据进行最 粗糙的分类操作
  • 比如,分为2类,分别为0,1类
  • 分为3类,分别为 A,B,C类 或者 A,B ,1-A-B 补集等
  • 分为10类,等等
  • 定类的数据,只能判断 = 或 !=
  • 所以,这里的数字,0,1 和A,B 或者甲乙 区别不大,只是一个标记!不是纯数字!

4.4  定序,顺序变量

  • 定距测量:ordinal measurement
  • 分类,且用数字标记不同的等级,且这些数字之间存在顺序关系。
  • 比如:军棋里的军衔 :司令> 师长> 团长> 连长>排长> 班长 等
  • 这些数据,存在 排序关系,可以比大小 
  • 可以判断  < > =

4.5  定距,定距变量

  • 定距测量:interval measurement
  • 用数字标记不同的间隔,且这个距离本身可以比较。
  • 0 表示比较的标准,不表示没有
  • 可以 + - 
  • 不适合做 x / 运算,就是也可以x / 运算,但是结果无意义

我自己举个例子

  • 比如 AB城市相距 50公里,BC城市相距100公里,CD城市相距50公里,
  • 可以说,AB城市距离=CD城市距离<BC城市距离
  • 但是不能从,从M点到D,是从M点到B的几倍。因为M点在哪儿并没有确定,也就是没有比较绝对距离的基础:原点。

网上的例子2

  • 比如身高里,没有真正的0点,0只是1个标识?
  • 所以180的人比170的人高10CM
  • 但是不能说 180的人身高是90的2倍?这也没有意义?一般不都这说么
  • 为啥? 表示不理解

网上例子3

  • 智商200的人是智商100的人的2倍,不一定?
  • 这个确实不一定是高2倍,但是一般确实是这么说吧

网上例子4

  • 20度不能是10度的2倍
  • 摄氏温度是定距变量,绝对温度才是定比变量。
  • 定距变量与定比变量的区别在于后者才有绝对零点,因此能用乘除运算说明具体数值之间的关系
  • 但是,绝对温度/华氏温度有绝对零度,绝对零度就是没有温度?这就可以是定比变量了?
  • 查了下:据说根本原因是摄氏温度的比例在物理学没有意义

网上例子5

  • 时间,2点比1点多,而且多一小时,这是+-法
  • 但是不能说2点是1点的2倍?

网上查到的比较让人信服的答案,是需要从物理学除非

绝对的0度,是物理上能量的最小值。

一般的0度,可以把10度也定义为0度,没有背后的物理学意义支撑,其实也可以 x/ 只是X /的结果没有意义

网上很多都是垃圾解释

4.6 定比,定比变量

  • 定比测量:ratio measurement
  • 定比测量,是数字标记,可以完全数字化的属性。
  • 完全数字化,意味着,可以进行数字的 +-x /各种运算。
  • 比如年龄,30>15 , 30是15的2倍,这些都是对的。

4.7 可被定量的等级,和实际定量等级是两回事

  • 比如年龄,可以定量为定比数据
  • 但是如果粗略分析里,年龄也可以划分为,儿童,成年人,老人等定序数据。
  • 取决于具体的需要。
  • 但是有些数据,比如性别就只能被 定类,无法做更高层次的分析。

5 变化的事物和事物之间的联系

  • 变化 vary
  • 常量 constant
  • 变量 varibale

5.1 我们只研究变化的东西

  • 不变是相对的,变化是绝对的
  • 日常见到很多东西是不变的
  • 不变的东西,我们无法通过观察,实验等,从中得到任何新的知识。
  • 但是变化的东西,我们可能观察到他们的变化,而且可能通过控制变量控制其变化。
  • 我们希望研究变化的东西,之间是否有关联,

5.1.1 但是变和不变是相对的

  • 变和不变的标准,有时候只合选择标准相关
  • 比如,只分析男队员的数据,那么性别就是常量
  • 如果分析的队员包括男女,那么性别就是变量

5.2 变化的2种不同含义

  • 日新月异之变化,就是事物随着时间的变化
  • 事物在不同个体之间的差异

5.3 对应数据的分类方法1:

  • 按横截面的数据, cross-sectional data
  • 按时间序列获得数据,longitudinal data ,panel data

5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系

5.2.2 事物之间的关系分为很多种

  • 万事万物都互相联系(辩证法),这个可以是相干,相干 relevant
  • 事物A 和事物B相关关系,相关 correlate,相关还有,正负相关的差别。
  • 事物A 发生后,事物B跟着发生,可能是因果关系
  1. 为什么A之后发生B只是可能
  2. 比如天气热了,大家都吃冰淇淋,都穿泳衣
  3. 我们的经验告诉我们,天气热是吃冰淇淋的原因。但是吃冰淇淋是穿泳衣的原因吗?事实上,这2个都是天气热的结果,这2个事件,高度线性相关,存在共线性。

5.2.3 为什么喜欢研究因果关系

  • 预测未来,因为因果关系可以帮我们预测未来,掌握现在的因,试图预知未来的果
  • 掌握未来
  • 理解过去
  • 等等

5.2.4 哪些算因果分析

日常语言里:

  • 1个原因引起1个结果
  • 1个原因引起多个结果
  • 多个原因引起1个结果
  • 多个原因引起多个结果

感觉数学上,无论是函数的定义,还是映射的定义

都只研究下面这几类

  • 1个原因引起1个结果(函数,双射=单射+满射)
  • 1个原因引起多个结果(函数,满射非单射)
  • 每个结果都有原因(函数,满射)

  • 多个原因引起1个结果(非函数,非映射)
  • 有结果,没有原因(非函数,非映射)
  • 有原因,没有结果(非函数,非映射)

5.3 各种变量的名称

变化vary

自变量 IV

  • independent variable
  • 决定其他变量变化的因子,因

因变量 DV

  • dependent variable
  • response variable
  • outcome variable
  • 被其他因素决定的变量,结果,果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/896855.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ArkUI自定义TabBar组件

在ArkUI中的Tabs&#xff0c;通过页签进行内容视图切换的容器组件&#xff0c;每个页签对应一个内容视图。其中内容是图TabContent作为Tabs的自组件&#xff0c;通过给TabContent设置tabBar属性来自定义导航栏样式。现在我们就根据UI设计的效果图来实现下图效果&#xff1a; 根…

react18中如何实现同步的setState来实现所见即所得的效果

在react项目中&#xff0c;实现添加列表项&#xff0c;最后一项自动显示在可视区域范围&#xff01;&#xff01; 实现效果 代码实现 import { useState, useRef } from "react"; import { flushSync } from "react-dom"; function FlushSyncRef() {con…

关于Pytest fixture,我们了解多少?

关于Pytest fixtures&#xff0c;根据官方文档介绍&#xff1a;fixture用于提供一个固定的基线&#xff0c;使 Cases 可以在此基础上可靠地、重复地执行。 对比 PyUnit 经典的setup/teardown形式&#xff0c;它在以下方面有了明显的改进&#xff1a; fixture拥有一个明确的名称…

Linux 之 fdisk 【磁盘分区管理】

删除分区 1.查看磁盘信息 lsblk 2.删除分区sdb硬盘下的所有分区 # 1 进入d的磁盘分区 fdisk /dev/sdb # 2 输入p查看磁盘的分区信息 # 3 输入d进入删除磁盘分区命令 # 4 选择要删除的分区号 重复3&#xff0c;4 全部删除 # 5 w 保存退出并生效操作信息 &#xff08;输入q…

postman使用——在公司的项目落地回顾总结

背景 使用postman做接口自动化以及有差不多一年了&#xff0c;迭代更新了也差不多一年了&#xff0c;本篇文章主要介绍与总结&#xff1a; 为什么使用postman做自动化如何使用postman做接口自动化实际落地的方案实施postman优势与限制 为什么使用postman做接口自动化 有以下…

ORACLE在企业中的运用及岗位介绍

微思 | Oracle 19C OCP 认证培训 厦门面授班 | 全国直播班 同步上课 课程介绍&#xff1a;Oracle OCP 19C课程介绍 培训讲师—吴振兴 往期考试战报&#xff1a;【ORACLE战报】 OCP 认证 OCP &#xff1a;Oracle 数据库认证专家&#xff08; Oracle Certified Professional…

【Linux系列】在 Linux 中使用 `watch` 命令监控 Docker 容器状态

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【Linux】僵尸进程和孤儿进程

一、僵尸进程 何为僵尸进程&#xff1f; 在 Unix/Linux 系统中&#xff0c;正常情况下&#xff0c;子进程是通过父进程创建的&#xff0c;且两者的运行是相互独立的&#xff0c;父进程永远无法预测子进程到底什么时候结束。当一个进程调用 exit 命令结束自己的生命时&#xff…

FineReport 全局参数

全局参数与模板参数的区别如下&#xff1a; 1&#xff09;全局参数&#xff1a;当前工程下的所有模板都可以使用。 2&#xff09;模板参数&#xff1a;只有当前模板才可以使用 注&#xff1a;全局参数 area 并不是在当前模板下创建的&#xff0c;但是可以在模板中直接调用 全…

C++ 十进制数转换成7进制字符串

题目要求&#xff1a; 给定一个整数 num&#xff0c;将其转化为 7 进制&#xff0c;并以字符串形式输出。 C源码&#xff1a; #include "stdafx.h" #include <String> using namespace std;string convertToBase7(int num) {int tempNum num;char t;string…

WGCLOUD可以监控GPU吗

可以的 采集主机GPU信息功能&#xff0c;是WGCLOUD v3.5.5新增的一个功能模块&#xff0c;所以需要升级到v3.5.5或者以上版本 我们在主机管理的列表页面&#xff0c;点击【查看更多】->【扩展监控】按钮&#xff0c;就可以看到该主机的GPU信息 agent每间隔10分钟就会采集一…

DES对称加密算法

DES&#xff08;Data Encryption Standard&#xff0c;数据加密标准&#xff09;是一种对称加密算法。 算法概述 加密类型&#xff1a;对称加密&#xff08;同一密钥用于加密和解密&#xff09;。密钥长度&#xff1a;64位&#xff08;8字节&#xff09;&#xff0c;其中有效…

基于SSM网络在线考试系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;学生管理&#xff0c;在线考试管理&#xff0c;试题管理&#xff0c;考试管理&#xff0c;系统管理 前台账号功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;在线考试&#xff0c;公告信…

最新物流行业CRM系统应用数字化解决方案

因势利导 ——全球化物流的挑战与机遇 在全球经济一体化与互联网技术快速发展的双重驱动下,物流行业正经历着前所未有的变革时期。这一变革不仅影响 着行业的发展模式,还对运营效率和客户体验提出了新的要求。 随着市场需求的不断演变,物流行业已呈现出多元化和专业 化并行的发…

OpenCV双目视觉三角测量代码实现C++

在双目视觉系统中&#xff0c;三角测量是一种基于几何原理的三维重建技术&#xff0c;通过分析同一场景在两个不同视角下的二维图像来确定物体的三维坐标。这种方法的核心在于利用摄像机的内参和相对位姿&#xff08;由旋转矩阵和平移向量描述&#xff09;&#xff0c;将图像中…

数据科学家必须掌握的12个Python功能

Python 已经成为数据科学家的必选语言&#xff0c;从数据处理到机器学习&#xff0c;它几乎无所不能。本文将探讨一些Python特性&#xff0c;这些特性不仅能帮助你编写更高效、更易读、更易维护的代码&#xff0c;还特别适合数据科学的需求&#xff0c;使你的代码简洁且优雅。 …

mysql8 使用idb文件实现数据备份

文章目录 1.备份脚本示例2.设置 Cron 任务3. 数据恢复 本文档只是为了留档方便以后工作运维&#xff0c;或者给同事分享文档内容比较简陋命令也不是特别全&#xff0c;不适合小白观看&#xff0c;如有不懂可以私信&#xff0c;上班期间都是在得 需求&#xff0c;在离线情况下实…

【Linux】————磁盘与文件系统

作者主页&#xff1a; 作者主页 本篇博客专栏&#xff1a;Linux 创作时间 &#xff1a;2024年10月17日 一、磁盘的物理结构 磁盘的物理结构如图所示&#xff1a; 其中具体的物理存储结构如下&#xff1a; 磁盘中存储的基本单位为扇区&#xff0c;一个扇区的大小一般为512字…

研发运营一体化(DevOps)能力成熟度模型

目录 应用设计 安全风险管理 技术运 持续交付 敏捷开发管理 基于微服务的端到端持续交付流水线案例 应用设计 安全风险管理 技术运 持续交付

14 django管理系统 - 注册与登录 - 注销

首先先创建注销的入口&#xff0c;在base.html中修改 <ul class"nav navbar-nav navbar-right"><li><a href"/account/login/">登录</a></li><li><a href"/account/register/">注册</a></l…