【个人学习笔记】概率论与数理统计知识梳理【六】

文章目录

  • 第六章 样本及抽样分布
  • 一、随机抽样
  • 二、直方图与箱线图
    • 2.1 直方图
    • 2.2 箱线图
  • 三、抽样分布
  • 总结


第六章 样本及抽样分布

好久没更新了,重新捡起来把它更完吧,可能会再开一个机器学习的笔记系列,参考用书是周志华的西瓜书。前五章主要是概率论,现在开始的后面四章则主要是数理统计。数理统计就是将概率论的知识合理地应用到现实中的随机现象的研究中。


一、随机抽样

在概率论中,我们往往是在已知随机变量的分布的情况下去研究它的数字特征之类的。而在现实中的复杂的随机现象,我们并不能一开始就知道其分布,所以数理统计研究的主要工作就是如何通过对随机变量进行观察统计分析的方法,对其分布做出推断。

所以我们的着眼点不能再是概率分布了,而应该回到更早的随机试验随机变量的概念重新出发。首先数理统计都是研究数的,对于定性描述的随机变量也都可以通过定量化变成数,这一点是毋庸置疑的,但是明确这一点是必要的。

首先是统计分析的几个基本概念,从小学开始学统计,这几个概念也是反反复复接触了。总体:试验中所有的观察值称为总体。个体:总体包含的每个具体的观察值称为个体。容量:总体中包含的个体数量称为容量。容量有限的为有限总体,无限的为无限总体。总体的观察值就是随机变量的取值,总体对应着一个随机变量,数理统计对总体的研究就是对其对应的随机变量的研究。样本:从总体中抽取一部分个体,这些个体就叫样本。在相同条件下对总体进行独立重复的多次观察得到一系列个体就称为简单随机样本,从获取方式可以知道它的性质就是独立同分布。对于无限总体,抽取样本不会影响其分布,所以可以直接采用不放回抽样获取简单随机样本;而有限总体采用放回抽样也能获得简单随机样本,但是操作麻烦,当总体容量远大于样本容量时,可以用不放回抽样来近似放回抽样。

二、直方图与箱线图

2.1 直方图

好家伙,这东西着实没什么可讲,就当个可查阅词典,把直方图的画法过一遍吧

频率直方图是一种描绘样本各个区间数据发生频率的图形。作图之前先对样本做简单统计,得到最大值与最小值,再根据想要划分的区间的多少来确定组距,最后计算落在每个区间内的数据的频率,根据频率与组距的比值作出图像。如下图:
在这里插入图片描述
所以频率直方图中矩形的面积才是频率,而不是高度。

2.2 箱线图

样本分位数:样本的p分位数(0<p<1)记为 x p x_p xp,它满足至少有np个观察值小于等于 x p x_p xp,至少有n(1-p)个观察值大于等于 x p x_p xp
这个概念是不是很熟悉,中位数不就是这里所说的0.5分位数,一般记为 Q 2 Q_2 Q2。常用的分位数还有0.25分位数、0.75分位数,记作 Q 1 , Q 3 Q_1,Q_3 Q1Q3,称为第一四分位数和第三四分位数。

有了这些,箱线图就出来了,将各个分位数的观察值以及最大最小值标注在数轴上,然后像下图一样画好箱子就行了。箱线图的好处在于,当把两个数据集的箱线图放在一个数轴下时,可以明显的看出来两者的差异。
在这里插入图片描述
在数据集中总有一些与众不同的数据,它和其他数据相差甚远,这种数据称为异常值。在箱线图中确定异常值的方法,是看它是否落在区间 ( Q 1 − 1.5 I Q R , Q 3 + 1.5 I Q R ) (Q_1-1.5IQR,Q_3+1.5IQR) (Q11.5IQR,Q3+1.5IQR)内,落在区间外就会被认为是异常值,在箱线图中用一个*符号表示即可。其中 I Q R = Q 3 − Q 1 IQR=Q_3-Q_1 IQR=Q3Q1,称为四分位数间距。

三、抽样分布

统计量:设 X 1 , X 2 , . . . X N X_1,X_2,...X_N X1,X2,...XN是来自总体X的一个样本, g ( X 1 , X 2 , . . . X N ) g(X_1,X_2,...X_N) g(X1,X2,...XN)是样本的函数,若g中不含未知参数,则称其为统计量, g ( x 1 , x 2 , . . . x n ) g(x_1,x_2,...x_n) g(x1,x2,...xn)为其观察值。
常见的统计量有样本平均值,样本方差,标准差,原点矩等等,其定义与之前的随机变量的相关概念的定义的差别就是将期望变成了统计平均。而样本方差有一点不同,其求平均时分母为样本容量n-1,而不是n。这与估计有关,后面会讲。

经验分布函数 S ( x ) = n u m b e r ( X ≤ x ) S(x)=number(X\leq x) S(x)=number(Xx)为样本中小于x的个体的个数,那么总体X的经验分布函数的定义为: F n ( x ) = S ( x ) n , x ∈ R F_n(x)=\frac{S(x)}{n},x\in R Fn(x)=nS(x)xR 其中n为样本容量。

可以看到经验分布函数其实就是用分布函数的定义,将样本中频率作为概率得到的。该经验分布函数被证明当n趋近于无穷大时,是一致收敛于总体的分布函数F(x)的。

统计量是随机变量的函数,所以它也是随机变量,那么也就有其服从的分布,将统计量的分布称为抽样分布

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/439333.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第107讲:Mycat实践指南:取模分片下的水平分表详解

文章目录 1.使用取模分片水平分表2.水平分表取模分片案例2.1.准备测试的表结构2.2.配置Mycat实现范围分片的水平分表2.2.1.配置Schema配置文件2.2.2.配置Rule分片规则配置文件2.2.3.配置Server配置文件2.2.4.重启Mycat 2.3.写入数据观察水平分表效果 1.使用取模分片水平分表 平…

Enzo Life Sciences Cortisol(皮质醇) ELISA kit

皮质醇又称为氢化可的松&#xff0c;是一种由胆固醇合成的类固醇激素。它是肾上腺皮质产生和分泌的主要糖皮质激素。皮质醇在血液中以游离皮质醇的形式存在&#xff0c;或与皮质类固醇结合球蛋白(CBG)结合。皮质醇水平在早上7点左右最高&#xff0c;晚上最低。皮质醇可以调节新…

简单认识Linux

今天带大家简单认识一下Linux&#xff0c;它和我们日常用的Windows有什么不同呢&#xff1f; Linux介绍 Linux内核&发行版 Linux内核版本 内核(kernel)是系统的心脏&#xff0c;是运行程序和管理像磁盘和打印机等硬件设备的核心程序&#xff0c;它提供了一个在裸设备与…

机器学习笔记 DeepFakes和换脸技术简述

一、简述 人脸检测一直是 2000 年代初的主要研究课题。差不多二十年后,这个问题基本上得到了解决,并且人脸检测在大多数编程语言中都可以作为库使用。甚至换脸技术也不是什么新鲜事,并且已经存在了好些年了。 早在2016年左右就有基于OpenCV进行面部交换的方式了,主要是基于…

《Ubuntu20.04环境下的ROS进阶学习0》

一、逛ROS应用商店 在上一专栏http://t.csdnimg.cn/oGlcu&#xff0c;我们了解了ROS的基本功能。这一专栏将会在此基础上做出进一步拓展学习。那么首先我们要学会下载并阅读别人的代码。常用的两个应用商店一个是ROS的官方应用商店ROS index&#xff0c;另一个就是我们熟知的gi…

msys2下mingw32无法使用gcc编译命令

【问题现象&#xff1a;】 安装好msys2的环境后打开mingw32命令行&#xff0c;无法使用gcc命令。 【问题原因&#xff1a;】 没有配置安装对应的命令。 【解决方法&#xff1a;】 使用pacman命令安装gcc即可&#xff1a; 安装完成后&#xff0c;使用gcc -v测试&#xff0c…

【Pytorch】进阶学习:基于矩阵乘法torch.matmul()实现全连接层

【Pytorch】进阶学习&#xff1a;基于矩阵乘法torch.matmul()实现全连接层 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&#x1f448…

用真实数据告诉你前10大AI对话工具排行!(国内+国外篇)

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

【项目】仿muduo库One Thread One Loop式主从Reactor模型实现高并发服务器

本篇博客记录从0到1实现一个仿mudo库的One Thread One Loop式主从Reactor模型的高并发服务器组件。 在此之前我们要明确的是&#xff0c;该项目仅作为一个高并发服务器组件&#xff0c;因此该项目并不包含实际的业务需求处理内容。 前置知识背景 一、HTTP服务器 概念&#xf…

【李沐精读系列】GPT、GPT-2和GPT-3论文精读

论文&#xff1a; GPT&#xff1a;Improving Language Understanding by Generative Pre-Training GTP-2&#xff1a;Language Models are Unsupervised Multitask Learners GPT-3&#xff1a;Language Models are Few-Shot Learners 参考&#xff1a;GPT、GPT-2、GPT-3论文精读…

png格式怎么改成jpg?3种转换方法轻松掌握

png格式怎么改成jpg&#xff1f;在日常生活和工作中&#xff0c;PNG格式转换成JPG格式的需求十分普遍。无论是制作网页时需要优化图片加载速度&#xff0c;还是在图片编辑过程中需要调整图片格式以兼容不同平台&#xff0c;亦或是需要共享图片时减小文件大小&#xff0c;PNG转J…

简析内部审计数字化转型的方法和路径【小落送书(第6期)】

个人名片&#xff1a; &#x1f43c;作者简介&#xff1a;一名大三在校生&#xff0c;喜欢AI编程&#x1f38b; &#x1f43b;‍❄️个人主页&#x1f947;&#xff1a;落798. &#x1f43c;个人WeChat&#xff1a;hmmwx53 &#x1f54a;️系列专栏&#xff1a;&#x1f5bc;️…

【小黑送书—第十一期】>>如何阅读“计算机界三大神书”之一 ——SICP(文末送书)

《计算机程序的构造和解释》&#xff08;Structure and Interpretation of Computer Programs&#xff0c;简记为SICP&#xff09;是MIT的基础课教材&#xff0c;出版后引起计算机教育界的广泛关注&#xff0c;对推动全世界大学计算机科学技术教育的发展和成熟产生了很大影响。…

【AI视野·今日CV 计算机视觉论文速览 第304期】Thu, 7 Mar 2024

AI视野今日CS.CV 计算机视觉论文速览 Thu, 7 Mar 2024 Totally 67 papers &#x1f449;上期速览✈更多精彩请移步主页 Daily Computer Vision Papers DART: Implicit Doppler Tomography for Radar Novel View Synthesis Authors Tianshu Huang, John Miller, Akarsh Prabhak…

C# 由左上、右下两个坐标点计算矩形的长、宽以及两点的距离

一、计算长、宽 直接使用坐标点计算 // 定义矩形左上角和右下角的坐标 Point topLeft new Point(0, 0); Point bottomRight new Point(5, 10); // 计算矩形的长和宽 int width bottomRight.X - topLeft.X;//矩形宽度 int height bottomRight.Y - topLeft.Y;//矩形高度或是…

谷歌最新版本下载最新驱动网址chrome driver Version: 122.0.6261.111

谷歌最新版本下载最新驱动网址chrome driver Version: 122.0.6261.111 https://googlechromelabs.github.io/chrome-for-testing/ 下载完之后放在谷歌安装路径下即可

【随笔记】小程序轮播图,一屏显示三个swiper-item

常见的轮播是一屏显示一个swiper-item,有的时候需要一屏显示三个swiper-item,左右两边都显示出一点 【目前小程序基础库2.12.3 效果正常,3.几的效果会有点不正常】 效果图 wxml <!-- 轮播begin --> <swiper wx:if="{{up_down}}" class="card-swipe…

Nessus2024.3.1.1版

功能介绍&#xff1a; nessus最新版通过修补系统中发现的漏洞&#xff0c;从而有效保护您的系统安全。 nessus最新版高速洞发现,以确定哪些主朷正在运行哪些服务。 无代理审核,以确保网络上没有主机丢失安全补丁。 合规性检查,以验证网络上的每个主机都遵守您的安全策略。 …

服务器又被挖矿记录

写在前面 23年11月的时候我写过一篇记录服务器被挖矿的情况&#xff0c;点我查看。当时是在桌面看到了bash进程CPU占用异常发现了服务器被挖矿。 而过了几个月没想到又被攻击&#xff0c;这次比上次攻击手段要更高明点&#xff0c;在这记录下吧。 发现过程 服务器用的是4090…