【抽样调查】分层抽样上

碎碎念:在大一大二时听课有的时候会发现听不太懂,那时候只觉得是我自己的基础不好的原因,但现在我发现“听不懂”是能够针对性解决的。比如抽样调查这门课,分析过后我发现我听不懂的原因之一是“没有框架”,一大堆知识扑面而来但我没有建立起自己的逻辑框架,那些零零碎碎的知识看起来毫无章法,才导致我听不懂。那今天的分层抽样就按照讲故事的顺序展开吧~

第一次更新:2024/5/8

 

目录

一. 分层抽样概述

1. 什么是分层抽样

2. 如何分层

⭐ 分层原则

(1)特征分层

(2)自然分层

step1. 初步分层

step2. 合并层并计算新的

step3. 修正分层(看情况可以不写)

3. 如何抽样

(1)抽样方式

(2)样本量确定

1) 总样本量确定

2)样本量分配


一. 分层抽样概述

1. 什么是分层抽样

我们先不看课本上那一长串的符号描述,我们来看国家统计局的定义:

分层抽样(stratified sampling)也称类型抽样,它首先将要研究的总体按某种特征或某种规则划分为不同的层(组),然后按照等比例或最优比例的方式从每一层(组)中独立、随机地抽取个体,最后将各层的样本结合起来对总体的目标量进行估计

这么来看,分层抽样做的不过就是三个工作:分层、抽样、估计

那我们就按照这个顺序来展开这项工作。

2. 如何分层

国家统计局的定义里写道 “ 将研究的总体按某种特征或某种规则划分为不同的层(组)”,在实际抽样操作中通常确实采用这种方式,如按照行政机构设置来分层、按照社会经济特征(家庭规模、收入水平等)。但是我们如果在抽取一些工厂样品时,没有明显特征,但是又想要用分层那该怎么分?那就用到统计方法了。

我们在这里将有明显特征的数据定义为“特征分层”,无明显特征的数据定义为“自然分层”。(只是为了方便书写的描述,主要小编没有找到这两者都兼顾到的相关的论文)

⭐ 分层原则

  • 层内相似,层间相异(提高估计精度)
  • 不重不漏

(1)特征分层

特征分层是什么?

在分层抽样中,通常会根据一定的特征或因素对总体进行分层,这些因素可以根据研究目的和总体特征来选择。例如,可以根据地区、年龄、性别、职业、收入等因素进行分层。每个层应该具有相似的特征,以便在每个层中进行随机抽取样本时能够更好地代表该层的特点。

为什么要进行特征分层?

首先,根据总体的某些特征来分层操作较为简便

其次,根据总体中的人口特征(如年龄、性别、职业、收入等)、地理位置、时间等因素进行分层,可以更好地研究不同群体在不同环境或条件下的变化和趋势。

如何进行特征分层?

在实际操作中我们通常会按照行政机构设置来分层,当层(组)是按行业或行政区划进行划分时,分层抽样为组织实施调查提供了方便。

比如在最近一场市场调查分析大赛中,我们调查的对象是全体武汉市常住居民,首先通过PPS抽样从武汉市的13个区中抽取6个行政区,接着采用分层抽样从6个行政区中抽取入样街道。依据这样的分层标准,在实时操作中极大提高了效率。

(2)自然分层

什么是自然分层?

自然分层/组,通常是按照数据集自身特征进行分组(可以等距也可以不等距)。来个例子理解一下:

不等距
等距

第一列的组限就是我们自然分组的标识。

为什么要进行自然分层?

调查总体没有什么明显特征时通常可以用自然分组来分类汇总。

如何确定分层的层数?——累计平方根法

我们在这里只讲结论和应用,具体论证可以看这篇论文:

“累积平方根法”最优解严格的数学证明及应用 - 道客巴巴

主要原理就是要保证层内相似,层间相异

DH方法(累计平方根)给出结论:各层所占的频率(频数)的平方根与各层所占间距的平方根之乘积相等。也就是保证分层后的:

\sqrt{d_iN_i}\approx \sqrt{d_jN_j}

其中di表示第i层的层内间距,Ni表示第i层的频数。

我们直接上干货——做题方法

在这一类型的题目中通常会给我们一些数据变量:在一个表格中列出分层变量的取值范围(组限)、对应的频数、频数的平方根、向下累积的频数平方根。如下:

不等距
step1. 初步分层

经验模拟表明使用5~6个层是比较适宜的。

摘自《抽样调查》北大出版社

如果要分k层,就用累计频数平方根除以k得到分层点。

我们就用右下角那个累计的数字1483.44除以5得296.69

那就规定第一层边界点在296.69处,第二层边界点在2×296.69=593.38处,第三层边界点在3×296.69=890.07处以此类推。是不是发现表内的累计\sqrt{dN}和我们计算出的有点差距,没关系我们找最接近这个值的当作边界点就可以。

 

step2. 合并层并计算新的\sqrt{dN}

我们将这5个层的组距d,频数N,和\sqrt{dN}进行统计,绘制新表格:

 

step3. 修正分层(看情况可以不写)

那怎么知道我们分的好不好呢?这就要用到我们说的DH方法(也就是累计平方根)原理了(人话版):

看最后一列\sqrt{dN}差距大不大,明显很大就调整,不大就分成这样就行了。

309.84、297.99、283.73、267.58、352.14这几个数里267.58很明显有点小,而352.14又很明显有点大。所以可以尝试给第四层多50个样本,第五层少50个样本,再做新统计:

间距d

频数N

𝒅𝑵

第一层

2400

40

309.84

二层

1200

74

297.99

三层

700

115

283.73

四层

450

226

267.58

五层

200

449

352.14

现在\sqrt{dN}是不是差不多了。

“给第四层多50个样本,第五层少50个样本”这一步数据哪儿来的,还有另一个组限分的更细的表有写,如果题目只给了上面一个表,咱就不需要再调整了。

3. 如何抽样

我们在这个部分聚焦于两个问题:怎么抽和抽多少,专业一点就叫做抽样方式和样本量分配

(1)抽样方式

  • 如果每层都是按照简单随机抽样进行抽取,则是分层随机抽样,大多数情况下都是分层随机抽样。
  • 分层抽样也可以依据每层样本的特点选择合适的抽样方式如:PPS抽样、ΠPS抽样等

(2)样本量确定

想要确定我们在每层抽多少我们还需要考虑两方面:一共要抽多少(总样本量确定)以及每层抽多少(样本量分配)

1) 总样本量确定

先看这篇文章,我们会再单独出一期详细的样本量确定方法的

《抽样技术》第3章 分层随机抽样(st)_累计平方根-CSDN博客

2)样本量分配

我们知道要抽取的总的样本量为n,划分层数为K层时,每层抽取的样本量假设为ni

等额分配

各层样本量n_i=\frac{n}{K}

按比例分配

各层样本量n_i=n\cdot \frac{N_i}{N}=n\cdot W_i

均方误差:V(\bar{y_{st}})=\frac{1-f}{n}\sum_{i=1}^{K}W_iS_{Yi}^2

适用情况:各层单元数或者层权已知,其他信息量很少

奈曼最优分配

各层样本量n_i=n\frac{W_iS_i}{\sum_{j=1}^{K}W_jS_j}

均方误差:V(\bar{y_{st}})=\sum_{i=1}^{K}(\frac{1}{n_i}-\frac{1}{N_i})W_i^2S_i^2

最小均方误差:V(\bar{y_{st}})=\frac{1}{n}(\sum_{i=1}^{K}W_i^2S_i)^2-\frac{1}{N}\sum_{i=1}^{K}W_iS_i^2

核心原理:层内方差最小

考虑费用的最优分配

费用表示:C=C_0+\sum_{i=1}^{K}n_iC_i

样本总量n=\frac{C-C_0}{\sum_{i=1}^{i=k}\sqrt{C_i}W_i S_i}\cdot\sum_{i=1}^{i=K}\frac{1}{\sqrt{C_i}W_iS_i}

各层样本量n_i=n\frac{W_iS_i}{\sum_{i=1}^{K}W_iS_i}\propto \frac{W_iS_i}{\sqrt{C_i}}

适用情况:费用固定层内方差最小;层内方差固定费用减少

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/604920.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年第六届世界软件工程研讨会(WSSE 2024)即将召开!

2024年第六届世界软件工程研讨会(WSSE 2024)将于2024年9月13-15日在日本京都举行。软件工程领域的发展离不开各位专家学者和业界精英的共同努力和贡献。WSSE 2024将就软件工程领域的最新研究成果、实践经验和发展趋势进行深入交流和探讨,汇聚…

Ubuntu将软件图标添加到应用列表

一.简介snap snap和yum,apt一样都是安装包工具,但是snap里的软件源是自动更新到最新版本,最好用 比如Ubuntu的软件商城就是使用的snap软件包 二. Ubuntu软件商城更新 1.ps -ef | grep snap-store 查询并kill snap-store的所有进程 2.sudo …

【Linux进程间通信(六)】深入理解 System V IPC

(一)引入 (二)IPC 命名空间 (三)ipc_ips结构体 (四)ipc_id_ary结构体 (五)kern_ipc_perm结构体 (六)操作系统对IPC资源是如何管理…

县供电公司员工向媒体投稿发文章用亲身经历告诉你并不难

在县供电公司的日子里,我肩负着一项至关重要的使命——信息宣传工作。这不仅仅是一份职责,更是连接公司与外界的桥梁,通过新闻稿件传递我们的声音,展示我们的成果。然而,回忆起刚刚踏入这个领域的时光,那段经历至今让我感慨万千。 初涉投稿,步履维艰 刚接手这项工作时,我的投稿…

探索DeepSeek平台:新一代MoE模型的深度体验

简介 DeepSeek是一个创新的人工智能平台,它最近推出了其最新版本的模型——DeepSeek-V2 MoE(Mixture of Experts)。这个平台不仅提供了一个交互式的聊天界面,还提供了API接口,让用户可以更深入地体验和利用这一先进的…

全体模型师请做好日入过万的准备!3D模型库海量资源,老子云平台免费用

在数字化的大背景下,3D转型已然成为了多行业关注的重点战略版块。无论是科技、金融、互联网、化工、建筑等等各个行业都在加速布局,3D手段会成为下一个重要的技术风口。也正因如此,3D市场潜能巨大,并且3D需求每年都在暴涨&#xf…

3d中如何对模型粉碎处理?---模大狮模型网

在3D建模和动画设计中,模型粉碎处理是一种引人注目的效果,可以为场景增添动态和震撼的视觉效果。无论是用于电影特效、游戏设计还是虚拟现实项目,都可以通过模型粉碎处理来创造出引人入胜的场景。本文将介绍如何在3D中轻松实现模型粉碎处理&a…

本地连接服务器Jupyter【简略版】

首先需要在你的服务器激活conda虚拟环境: 进入虚拟环境后使用conda install jupyter命令安装jupyter: 安装成功后先不要着急打开,因为需要设置密码,使用jupyter notebook password命令输入自己进入jupyter的密码: …

Windows端之Python3.9及以上高版本工程打包得到的exe逆向工程解包得到pyc文件进而得到py文件的流程实现

参考来自 【python逆向 pyc反编译】python逆向全版本通杀_python反编译pyc-CSDN博客https://blog.csdn.net/zjjcxy_long/article/details/127346296Pyinstaller打包的exe之一键反编译py脚本与防反编译_pyinstaller防止反编译-CSDN博客https://blog.csdn.net/as604049322/artic…

「网络流 24 题」魔术球 【最小路径覆盖】

「网络流 24 题」魔术球 注意这里的球是依次放置&#xff0c;也就是说如果当前放到第 i i i 号球&#xff0c;那么 1 → i − 1 1 \rarr i - 1 1→i−1 号球都已经放好了&#xff0c;否则可以放无数个球 思路 首先我们对于 i < j 且 i j 完全平方数 i < j 且 i j…

在思科和华为上实现两个主机A,B A能ping通B,B不能ping通A

1.华为实验的topo如下 常规状态下任意两台主机都是可以ping通的 此时的需求是PC4能ping通PC2和PC3但是PC2和PC3不能ping通PC4 这里需要用到ACL策略 在接口上调用 验证&#xff1a; PC4能ping通PC2和PC3 PC2和PC3不能ping通PC4 2.思科类似 正常情况下是都能互相ping通 加上ac…

嵌入式Linux的QT项目CMake工程模板分享及使用指南

在嵌入式linux开发板上跑QT应用&#xff0c;不同于PC上的开发过程。最大的区别就是需要交叉编译&#xff0c;才能在板子上运行。 这里总结下嵌入式linux环境下使用CMake&#xff0c;嵌入式QT的CMake工程模板配置及如何使用&#xff0c;分享给有需要的小伙伴&#xff0c;有用到的…

Github的使用教程(下载和上传项目)

根据『教程』一看就懂&#xff01;Github基础教程_哔哩哔哩_bilibili 整理。 1.项目下载 1&#xff09;直接登录到源码链接页或者通过如下图的搜索 通过编程语言对搜索结果进一步筛选。 2&#xff09;红框区为项目的源代码&#xff0c;README.md &#xff08;markdown格式&…

企业如何用数字化为预提摊销业务赋能?

对于企业来说&#xff0c;想要实现系统化、智能化、自动化的预提摊销管理&#xff0c;需要做足哪些功课&#xff1f;常见场景下的业务难题又该如何破解&#xff1f;今天胜意科技就给大家介绍一下&#xff0c;企业如何通过数字化手段搞定预提摊销业务难题。 一、预提摊销痛点 在…

Spring后端参数校验——自定义校验方式(validation)

文章目录 开发场景技术名词解释——Spring Validation自定义校验 技术细节小结1.实体参数校验2.自定义校验 完整代码 开发场景 业务场景&#xff1a;新增文章 基本信息 请求路径&#xff1a;/article 请求方式&#xff1a;POST 接口描述&#xff1a;该接口用于新增文章(发布文…

小样本学习

小样本学习的概念最早从计算机视觉(computer vision)[8]领域兴起, 近几年受到广泛关注, 在图像分类任务中已有很多性能优异的算法模型[9-11].但是在自然语言处理领域(natural language processing)[12]的发展较为缓慢, 原因在于图像和语言特性不同.图像相比文本更为客观, 所以当…

学习方法的重要性

原贴&#xff1a;https://www.cnblogs.com/feily/p/13999204.html 原贴&#xff1a;https://36kr.com/p/1236733055209095 1、 “一万小时定律”的正确和误区 正确&#xff1a; 天才和大师的非凡&#xff0c;不是真的天资超人一等&#xff0c;而是付出了持续不断的努力&…

C++:菱形继承与菱形虚拟继承

一、菱形继承 单继承&#xff1a;一个子类只有一个直接父类时称这个继承关系为单继承 多继承&#xff1a;一个子类有两个或以上直接父类时称这个继承关系为多继承 菱形继承&#xff1a;菱形继承是多继承的一种特殊情况&#xff0c;派生类继承自两个间接基类&#xff0c;而这…

MVC与MVVM架构模式

1、MVC MVC&#xff1a;Model-View-Controller&#xff0c;即模型-视图-控制器 MVC模式是一种非常经典的软件架构模式。从设计模式的角度来看&#xff0c;MVC模式是一种复合模式&#xff0c;它将多个设计模式结合在一种解决方案中&#xff0c;从而可以解决许多设计问题。 MV…

C++缺省参数、函数重载、引用

一、缺省参数 1.1缺省参数概念 缺省参数是声明或定义函数时为函数的参数指定一个缺省值。在调用该函数时&#xff0c;如果没有指定实参则采用该形参的缺省值&#xff0c;否则使用指定的实参。 void func(int n 0) {cout << n << endl; }int main() {func();func…