目录
1 定性分析和定量分析
1.1 两种分析方式
1.2 定性分析
1.3 定量分析
1.3.1 定义
1.3.2 名字
1.4 特点和差异
1.5 两者的关系
1.6 测量的评价:切实,可靠
1.7 关于统计分析
2 定量分析的三段式逻辑:个体 → 样本 → 总体
2.1 定量分析的逻辑链条是
2.2 三个分析层级
2.3 总体/母体,population
2.4 样本 Sample
2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢
2.5.1 总体既不可知,那么怎么知道样本近似总体?
2.5.2 那么如何保证样本高度近似,逼近总体呢?
2.5.3 具体的方法就是:随机抽样
随机抽样
随意抽样
3 量化研究的对象: 个体,和个体的属性
3.1 研究的对象:现实中我们观测到的两个维度
3.2 分析单位:
3.3 其中属性又有2个向度:
4 对数据进行定量分析,定量/量化的4个层级
4.1 定量/量化的意思
4.2 量化的4个层级
4.3 定类,称名变量
4.4 定序,顺序变量
4.5 定距,定距变量
4.6 定比,定比变量
4.7 可被定量的等级,和实际定量等级是两回事
5 变化的事物和事物之间的联系
5.1 我们只研究变化的东西
5.1.1 但是变和不变是相对的
5.2 变化的2种不同含义
5.3 对应数据的分类方法1:
5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系
5.2.2 事物之间的关系分为很多种
5.2.3 为什么喜欢研究因果关系
5.2.4 哪些算因果分析
5.3 各种变量的名称
1 定性分析和定量分析
1.1 两种分析方式
人类有两种认识世界上的事物的方式
- 定性分析:通过发掘问题、理解事件现象,去研究事物的属性,事物之间的关系等。
- 定量分析:用数学工具,用数字为形容词/名字去描述和记录某些个体的属性的分析方式
下面是百科里来的
定性研究(Qualitative research)是与定量研究(Study on measurement,Quantitative research)相对的概念,也称质化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。
定性研究是指通过发掘问题、理解事件现象、分析人类的行为与观点以及回答提问来获取敏锐的洞察力。几乎每天在每个工作场所和学习环境下都会进行定性研究。
定量研究(Study on measurement,Quantitative research)是与定性研究(Qualitative research)相对的概念,要考察和研究事物的量,就得用数学的工具对事物进行数量的分析,这就叫定量的研究,也称量化研究,是社会科学领域的一种基本研究范式,也是科学研究的重要步骤和方法之一。
1.2 定性分析
很多相似名字,差不多意思
- 定性研究 qualitative research
- 质性研究,质性分析,质化研究等
- 优点:
- 适合人脑的模式分析的思路
- 只要想象力丰富,几乎无上限?
- 是其他行动的前提
- 缺点:
- 无法证伪,可能导致大量的错的,假的混杂在真的一起。
- 很难把研究对象,研究内容随机化
1.3 定量分析
1.3.1 定义
- 量化分析:就是把要分析的一个真实事物/理念中概念:变项,进行数字化,从而成为一个变量 variable,然后分析这个变量。
- 建模:简单的就是建一个函数表达式 /一个方程等,复杂的,很多函数和方程组联立等等超过我的描述能力
1.3.2 名字
有很多相近的名字,大概都是差不多的意思
- 定量分析,量化分析:quantitative analysis
- 统计分析,统计方法:statistical analysis
- 优点
- 缺点
- 有时候会因为数据错误,而结论也肯定错误
- “错误输入导致错误的输出”
- “垃圾进,垃圾出”
- 有时候会得出一些肤浅的结论,比如关联度过高,可能本身就是存在共线性的关系等。
1.4 特点和差异
- 定性分析,可以教基本路数,思维方式,但具体细节,其他靠悟,更接近艺术
- 定量分析,可以教基本路数,还可以具体步骤,套路,招式,可证伪得思维方式
1.5 两者的关系
- 两种分析方式没啥好鄙视得,
- 做定量研究之前,一般需要先有理念,设想等,也就是先有定性的分析。
- 而不做定量分析,定性研究很难证伪,无法落地
- 所有定量分析之前都需要定性分析吗?
- 反例:机器学习里的无监督学习是不是已经是不需要先做定性分析的例子? 根据算法去自动分类,形成最终的结果,是研究人员事前并没有设想到的一些结论等?
1.6 测量的评价:切实,可靠
- 切实 valid :测量的手段是合适的,可测得,可测准的,等等
- 可靠 reliable / 有效度/ 效度/信度:反复验证,数据变化不应该太大,稳定性比较抢
1.7 关于统计分析
- 自然科学里可重复的实验室试验,最可靠,可重复,可证伪
- 其次是医学里的双盲试验等,比实验室试验已经打了折扣
- 统计分析,其实并上面两者都低,只是一个做不了前面2者的一个替代品!
- 为什么
- 人的特殊性
- 人的价值和权力,导致无法对人对实验
- 人的复杂性也很难做定量试验
2 定量分析的三段式逻辑:个体 → 样本 → 总体
2.1 定量分析的逻辑链条是
- 个体 → 样本 → 总体
- 普通→ 特殊 → 一般
- cases → 特殊 sample statistic → 一般 population parameter
- 现象 → 样本 → 自在之物
- Erscheinung → Ding an sich
- 定性分析先心里有了一个模型
- 通过收集cases,形成一个特殊的样本/殊像,再试图去估计总体的参数
- 这个是类黑格尔逻辑分析的三段论,而不是,从个体到一般的两段论。
- 为什么一定要有中间过程,我觉得是逻辑上的桥梁,否则很难从逻辑上推论
- 比如,没有对样本的研究,从个体很难推论到总体
2.2 三个分析层级
- 第1层级,个体 unit ,case, observation
- 第2层级,样本 sample
- 第3层级,总体、母体(认为的那个模型里)参数的具体参数 population
2.3 总体/母体,population
- 总体是一种理想化的东西,可以说永远无法真正的/完全的认识,可以部分认知
- 从柏拉图的那些 理念,理想化的实体,只存在于彼岸的东西。
- 我们可以认识总体的一些部分,但是永远不能完全的认识。
- 有些总体已经封闭,比如地球上的恐龙数量
- 有很多总体还在变化,其数量等很多属性不可知。
2.4 样本 Sample
定义
- 错误:样本是总体的随意的一部分
- 不够准确:样本是总体的一部分。没错但是不够精确
- 准确:必须尽量和母体高度形似,结构高度相似的才算样本。
样本不是随便取得总体的一部分
- 样本和整体的关系,不是局部和整体的关系
- 而是微缩结构和整体结构的关系
- 理论上,样本尽量是1比1的缩略最好
2.5 但是问题来了:总体不可知,如何保证样本和总体同结构呢
2.5.1 总体既不可知,那么怎么知道样本近似总体?
- 但是因为母体不可被真正完全认识,只能部分认识
- 所以,样本是否和总体真的同构,高度近似,这个无法验证!
2.5.2 那么如何保证样本高度近似,逼近总体呢?
- 那么如何保证样本高度近似,逼近总体呢?
- 答案是:无法完全保证。无法从结果上证实,只能成程序上保证
- 也就是结果的正确/正义无法保证,只能从过程的正确/正义上去保证
2.5.3 具体的方法就是:随机抽样
随机抽样
- 什么是随机抽样:总体内的每个个体抽到的机会均等
- 至少程序上保证每个个体都有被平等抽到的可能/机会/概率。
- 随机抽样:比如随机抽取的,比如编号后随机,等距抽样等等,
- 随机抽样,只能保证过程公正,无法保证结果公平(结果是凭运气随机的)
随意抽样
- 有规律的往往就是非随机的,
- 现实中,记者街头采访,各种调查都是随意抽样
- 为什么:比如记者采访调查人们的幸福感,只是选择我国某个城市的某个街道。这也抽样,最多只能代表这个街道的某天某个时刻的人的随机性。
- 因为,没考虑,地理范围,时间,城市差别,人群年龄,生活习惯等各种差别。
- 这些往往都很随意,原因是什么?
- 原因是,没有在做样本调查前,先想清楚,总体是什么,怎么让样本去逼近总体,怎么样做到让每个个体都有被平等抽到的可能。
3 量化研究的对象: 个体,和个体的属性
3.1 研究的对象:现实中我们观测到的两个维度
- 维度1:会观测到很多的个体(但我们一般只选其中一部分就是样本,不可能研究全部)
- 维度2:可以观测到每个个体的有很多属性(但我们一般只研究我们看重的属性,而非全部)
3.2 分析单位:
- 单个的个体 → 一群个体(定量分析必然要分析一群个体:样本,而不只是单个)
- 个体的部分属性
3.3 其中属性又有2个向度:
- 属性的名称,
- 属性的尺度: 属性的强弱,大小,高低等特点。针对属性的尺度,有不同的定义方法,见下文
4 对数据进行定量分析,定量/量化的4个层级
4.1 定量/量化的意思
- 定,不是确定的意思,只是标记数据。
- 一般来说,如果是确定数据的意义,一般是定性研究已经做完了。
- 定量研究,是要对数据进行标记。
4.2 量化的4个层级
- 最低:定类测量:cateforical measurement,名义测量:nominal measurement
- 定序测量:ordinal measurement
- 定距测量:interval measurement
- 最高:定比测量:ratio measurement
- 这几个层级是向下兼容的,也就是说:定量的数据肯定也是符合定距,定序,定类的!
4.3 定类,称名变量
- 定类测量:cateforical measurement
- 名义测量:nominal measurement
- 只是对数据进行最 粗糙的分类操作
- 比如,分为2类,分别为0,1类
- 分为3类,分别为 A,B,C类 或者 A,B ,1-A-B 补集等
- 分为10类,等等
- 定类的数据,只能判断 = 或 !=
- 所以,这里的数字,0,1 和A,B 或者甲乙 区别不大,只是一个标记!不是纯数字!
4.4 定序,顺序变量
- 定距测量:ordinal measurement
- 分类,且用数字标记不同的等级,且这些数字之间存在顺序关系。
- 比如:军棋里的军衔 :司令> 师长> 团长> 连长>排长> 班长 等
- 这些数据,存在 排序关系,可以比大小
- 可以判断 < > =
4.5 定距,定距变量
- 定距测量:interval measurement
- 用数字标记不同的间隔,且这个距离本身可以比较。
- 0 表示比较的标准,不表示没有
- 可以 + -
- 不适合做 x / 运算,就是也可以x / 运算,但是结果无意义
我自己举个例子
- 比如 AB城市相距 50公里,BC城市相距100公里,CD城市相距50公里,
- 可以说,AB城市距离=CD城市距离<BC城市距离
- 但是不能从,从M点到D,是从M点到B的几倍。因为M点在哪儿并没有确定,也就是没有比较绝对距离的基础:原点。
网上的例子2
- 比如身高里,没有真正的0点,0只是1个标识?
- 所以180的人比170的人高10CM
- 但是不能说 180的人身高是90的2倍?这也没有意义?一般不都这说么
- 为啥? 表示不理解
网上例子3
- 智商200的人是智商100的人的2倍,不一定?
- 这个确实不一定是高2倍,但是一般确实是这么说吧
网上例子4
- 20度不能是10度的2倍
- 摄氏温度是定距变量,绝对温度才是定比变量。
- 定距变量与定比变量的区别在于后者才有绝对零点,因此能用乘除运算说明具体数值之间的关系
- 但是,绝对温度/华氏温度有绝对零度,绝对零度就是没有温度?这就可以是定比变量了?
- 查了下:据说根本原因是摄氏温度的比例在物理学没有意义
网上例子5
- 时间,2点比1点多,而且多一小时,这是+-法
- 但是不能说2点是1点的2倍?
网上查到的比较让人信服的答案,是需要从物理学除非
绝对的0度,是物理上能量的最小值。
一般的0度,可以把10度也定义为0度,没有背后的物理学意义支撑,其实也可以 x/ 只是X /的结果没有意义
网上很多都是垃圾解释
4.6 定比,定比变量
- 定比测量:ratio measurement
- 定比测量,是数字标记,可以完全数字化的属性。
- 完全数字化,意味着,可以进行数字的 +-x /各种运算。
- 比如年龄,30>15 , 30是15的2倍,这些都是对的。
4.7 可被定量的等级,和实际定量等级是两回事
- 比如年龄,可以定量为定比数据
- 但是如果粗略分析里,年龄也可以划分为,儿童,成年人,老人等定序数据。
- 取决于具体的需要。
- 但是有些数据,比如性别就只能被 定类,无法做更高层次的分析。
5 变化的事物和事物之间的联系
- 变化 vary
- 常量 constant
- 变量 varibale
5.1 我们只研究变化的东西
- 不变是相对的,变化是绝对的
- 日常见到很多东西是不变的
- 不变的东西,我们无法通过观察,实验等,从中得到任何新的知识。
- 但是变化的东西,我们可能观察到他们的变化,而且可能通过控制变量控制其变化。
- 我们希望研究变化的东西,之间是否有关联,
5.1.1 但是变和不变是相对的
- 变和不变的标准,有时候只合选择标准相关
- 比如,只分析男队员的数据,那么性别就是常量
- 如果分析的队员包括男女,那么性别就是变量
5.2 变化的2种不同含义
- 日新月异之变化,就是事物随着时间的变化
- 事物在不同个体之间的差异
5.3 对应数据的分类方法1:
- 按横截面的数据, cross-sectional data
- 按时间序列获得数据,longitudinal data ,panel data
5.2 人的思维模式,喜欢去探求不同事件之间的联系,尤其是因果关系
5.2.2 事物之间的关系分为很多种
- 万事万物都互相联系(辩证法),这个可以是相干,相干 relevant
- 事物A 和事物B相关关系,相关 correlate,相关还有,正负相关的差别。
- 事物A 发生后,事物B跟着发生,可能是因果关系
- 为什么A之后发生B只是可能
- 比如天气热了,大家都吃冰淇淋,都穿泳衣
- 我们的经验告诉我们,天气热是吃冰淇淋的原因。但是吃冰淇淋是穿泳衣的原因吗?事实上,这2个都是天气热的结果,这2个事件,高度线性相关,存在共线性。
5.2.3 为什么喜欢研究因果关系
- 预测未来,因为因果关系可以帮我们预测未来,掌握现在的因,试图预知未来的果
- 掌握未来
- 理解过去
- 等等
5.2.4 哪些算因果分析
日常语言里:
- 1个原因引起1个结果
- 1个原因引起多个结果
- 多个原因引起1个结果
- 多个原因引起多个结果
感觉数学上,无论是函数的定义,还是映射的定义
都只研究下面这几类
- 1个原因引起1个结果(函数,双射=单射+满射)
- 1个原因引起多个结果(函数,满射非单射)
- 每个结果都有原因(函数,满射)
- 多个原因引起1个结果(非函数,非映射)
- 有结果,没有原因(非函数,非映射)
- 有原因,没有结果(非函数,非映射)
5.3 各种变量的名称
变化vary
自变量 IV
- independent variable
- 决定其他变量变化的因子,因
因变量 DV
- dependent variable
- response variable
- outcome variable
- 被其他因素决定的变量,结果,果