统计学-R语言-1

文章目录

  • 统计学介绍
  • 基本类型
  • 数据和变量
  • 数据抽样
  • 总结


统计学介绍

统计学(statistics)是“数据的科学”
1.是用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法。
2.统计学进行推断的基础是数据(data)。数据不仅仅限于数字,也可能是图表、视频、音频或者文字。
3.收集到数据之后,利用一些方法来整理和分析数据,最后得到结论。

统计学可以应用于什么领域呢?
统计学与各个学科的数据都有联系,可以应用于所有领域。
在网络、遥感、金融、电信、地理、商业、旅游、军事、生物医学等各个领域不断产生海量的数据。截至2016年年初,全球网民数量达到34亿,移动用户更是达到37.9亿,超过全球总人口的一半;中国的社交网络工具——微信,在2015年创下了月活跃用户破6.5亿的记录;2015年11月11日,阿里巴巴网上销售平台全天销售额达到创纪录的912亿元。庞大的互联网用户群体不停地生产着数据,这就是海量数据的源头。随着物联网的普及,全球所有设备都会为互联网贡献数据。


在这里插入图片描述
统计涉及两个阶段可以分为两个部分:描述统计学和推断统计学。

基本类型

总体( population):就是指问题所涉及的所有可能的个人、物体或度量的集合。 这些观察值有时是有限多个,有时也可以是无限多个(宇宙中的所有行星)。
统计学的目标是研究总体中包含的统计学规律。 然而,总体往往难以全部获得, 因此,我们从总体中抽取一部分观察值,通过研究它们的规律推理出总体的规律,这部分被抽取出来的观察值就是样本

数据和变量

变量(variable)是一个可以取两个或更多可能值的特征或属性。
在收集数据进行统计分析之前,要给变量一个明确的适合研究目的的定义。这个过程并不容易。如果对问题考虑得不全面,那么就没有理由指望回答问题的人能按照我们的期望回答问题。因此,在做研究之前,对变量必须要有一个清晰的定义。

定量变量有连续型变量(continuous variable)和离散型变量(discrete variable),以及既有连续成份、也有离散成份的混合型变量。

离散型变量(discrete variable)只能取某些特定的值,并且不同取值之间通常都存在间距。通常,离散变量是通过计数得到的。
离散变量的例子包括具有某种特征的人口数(取正整数值)、某种事故发生的次数(非负整数)、足球射门次数、安静时的心率等。

连续型变量(continuous variable)的观测值可以遍取某一 区间中的任何值。通常,连续变量是通过测量得到的。身高、体重、热量、速度、长度等都是连续变量

数据是变量的观测值或者是试验结果。比如,身高是一个变量,测量一个人的身高,就好比一次试验,可观测到一次试验结果,即观测值(observation)。

一般所说的数据是一个集合名词,每一个数据包含很多观测值,每个观测值也称为一个数据点(data point,point)。 请注意,为了处理性别、籍贯等类似的数据,通常对类别进 行1,2,3等编码,以便于计算机的计数。

数据的测量水平一共有4个:
1.定类或分类(categorical data)
2.定序或有序(ordinal data)
3.定距或区间(interval data)
4.定比或比例(ratio data)。

数据的测量水平制约着在数据概括或显示时可以选用的计算方法,还决定了应使用何种统计检验方法

数据:采集方法四种方法:
(1)公开发表资料,(2)实验设计,(3)调查,(4)观察

数据抽样

在R中可以进行有放回、无放回抽样。
sample函数。sample的默认行为是无放回抽样,并且size不能超过被抽样向量的长度。如果想有放回抽样,那么需要加上参数replace=TRUE。
bootstrap重抽样法。该方法的基本思想是在原始数据的范围内做有放回抽样,样本量仍为n,原始数据中每个观测值每次被抽到的概率相等,为1/n,所得的样本为bootstrap。

如果想从1~100中随机取10个数字,那么可以写如下命令:

>sample(1:100,10)  

[1] 45 100 65 59 91 36 10 94 70 22

sample(x,size)第一个参数(x)是一个被抽样的值向量,第二个参数( size)是抽样大小,并且size不能超过被抽样向量的长度
一个单个的数字就可以代表整数序列的长度,上述命令用sample(100,10)足够了

有放回抽样适用于扔硬币或掷骰子模型。比如,模拟10次扔硬币:

>sample(c("H","T"),10,replace=T)

[1] “T” “T” “H” “T” “T” “T” “T” “H” “T” “H”

有放回抽样适用于扔硬币或掷骰子模型。比如,模拟10次扔硬币:

>sample(c("H","T"),10,replace=T)

随机事件的思想显然不局限于对称情形,它同样适用于其他情形。如一个考试成功的结果,也许我们希望成功的机会超过50%时,可以通过使用 sample()函数中的prob参数模拟那种结果不具有相等概率的数据,如成功的可能性是85%,因此,可以使用如下命令:

>sample(c("成功","失败"),10, replace=T, prob=c(0.85,0.15))

[1] “成功” “成功” “成功” “成功” “失败” “成功” “成功” “成功” “成功” “成功”

一个重要的有放回抽样方法就是 bootstrap重抽样法( resampling),它是美国统计学家 Efron于1982年发明的。

该方法的基本思想是在原始数据的范围内做有放回抽样,样本量仍为n,原始数据中每个观测值每次被抽到的概率相等,为1/n,所得的样本为bootstrap

以R软件自带的数据faithful中的变量eruptions为例。 eruptions变量记录了火山爆发的时间,属于不常见的分布,对它进行bootstrap重抽样 :

>attach(faithful) //获取数据集
>sample(eruptions,10,rep=T)
>b.sample=sample(eruptions,1000,rep=T)#抽取一个样本量为1000的bootstrap样本
>par(mfrow=c(1,2))
>hist(eruptions,breaks=25)
>hist(b.sample,breaks=25)

在这里插入图片描述


总结

1、举出你所知道的统计应用的例子(三个即可)。
统计学与各个学科的数据都有联系,可以应用于所有领域。
在网络、遥感、金融、电信、地理、商业、旅游、军事、生物医学等各个领域不断产生海量的数据。截至2016年年初,全球网民数量达到34亿,移动用户更是达到37.9亿,超过全球总人口的一半;中国的社交网络工具——微信,在2015年创下了月活跃用户破6.5亿的记录;2015年11月11日,阿里巴巴网上销售平台全天销售额达到创纪录的912亿元。庞大的互联网用户群体不停地生产着数据,这就是海量数据的源头。随着物联网的普及,全球所有设备都会为互联网贡献数据。

现在从各个领域中产生的数据量远远超过了人们对它们的分析和处理能力。把数据中的重要信息迅速、有效地提取出来是非常重要的。传统的数据库技术无法高效处理这些海量数据,那么就需要统计学结合以革命性的新处理模式,比如分布式文件系统GFS、HDFS;并行处理架构MapReduce和分布式数据存储系统Bigtable等。
数据挖掘、人工智能、机器学习等领域的出现对统计学、计算机科学及各个相关领域提出了更高的要求,同时也带来了机会和挑战。

2、解释定性数据和定量数据的区别,分别给出一个定性数据和一个定量数据的例子。
定性变量的取值称为水平(level)或者类(class)。比如,姓名、行业、出生地、国籍/地区以及汽车类型都是定性变量。

定量变量的例子比较多,比如年龄、寿命、公司的员工人数、薪水金额等。

3、列出测量的4个水平,写明一下每个测量水平的数据特征,表征形式,以及具有什么运算功能并对每个测量水平举出一个实例。

在统计学中,通常有四个测量水平,它们分别是名义(或分类)、顺序、间隔和比例水平。下面是每个测量水平的数据特征、表征形式以及运算功能,并举出了一个实例:

名义水平:
数据特征:名义水平是最基本的测量水平,用于对对象进行分类或分组,没有任何排序或数量关系。
表征形式:标签或符号,没有数值含义。
运算功能:主要用于计数和描述频数,不能进行数学运算。
实例:性别(男、女)是一个名义水平的变量。

顺序水平:
数据特征:顺序水平在名义水平的基础上添加了顺序或排序信息,表示项目之间的相对大小或顺序。
表征形式:可以使用整数或有序标记来表示不同的级别。
运算功能:可以进行排序、计算中位数、描述相对大小等。
实例:学生的成绩等级(A、B、C、D、F)是一个顺序水平的变量。

间隔水平:
数据特征:间隔水平在顺序水平的基础上添加了等距信息,表示项目之间的差异具有恒定的单位。
表征形式:使用数值来表示不同的级别,可以包含负数。
运算功能:可以进行加减运算、计算平均值、描述差异等。
实例:温度(摄氏度或华氏度)是一个间隔水平的变量。

比例水平:
数据特征:比例水平是最高级的测量水平,具有等距和绝对零点的特征,表示项目之间的差异具有恒定的单位,并且存在绝对意义上的零点。
表征形式:使用数值来表示不同的级别,包括零值。
运算功能:可以进行加减乘除运算、计算平均值和比率等。
实例:身高(厘米)是一个比例水平的变量。

4、下表是按收入五等分划分的我国农村居民平均每人纯收入数据(单位:元)
(1)在R中录入上表数据,并存为R格式
(2)将下述数据框转换为矩阵
在这里插入图片描述
(1)

names<-c("低收入户","中等偏下户","中等收入户","中等偏上户","高收入户")
a<-c(1500,2935,4203,5929,11290)
b<-c(1549,3110,4502,6468,12319)
c<-c(1870,3621,5222,7441,14050)
d<-c(2002,4256,6208,8894,16783)
 e<-c(2316,4808,7041,10142,19009) #把数据以列向量的形式录入
f<-data.frame(指标=names,"2008年"=a,"2009年"=b,"2010年"=c,"2011年"=d,"2012年"=e) #把数据组织成数据框的形式
f
f<-edit(f)
save(f,file="C:/Users/125/Desktop/example/ch1/f.RData")

在这里插入图片描述
(2)

matrix1_1<-matrix(cbind(a,b,c,d,e),ncol=5) #使用matrix()函数将数据部分以列的形式合并
dimnames(matrix1_1)<-list(c("低收入户","中等偏下户","中等收入户","中等偏上户","高收入户"),c("2008年","2009年","2010年","2011年","2012年"))#命名,矩阵的行名称,列名称进行命名
matrix1_1

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/309776.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构排序——详解快排及其优化和冒泡排序(c语言实现、附有图片与动图示意)

上次讲了选择排序和堆排序&#xff1a;数据结构排序——选择排序与堆排序 今天就来快排和冒泡 文章目录 1.快排1.1基本介绍1.2不同的分区方法及代码实现1.2.1Hoare版1.2.2挖坑版1.2.3 前后指针版 1.3快排的优化1.3.1三数取中选key1.3.2递归到小的子区间时&#xff0c;可以考虑…

09、Kafka ------ 通过修改保存时间来删除消息(retention.ms 配置)

目录 通过修改保存时间来删除消息★ 删除指定主题的消息演示1、修改kafka检查过期消息的时间间隔2、修改主题下消息的过期时间3、查看修改是否生效4、先查看下主题下有没有消息5、添加几条消息看效果6、查看消息是否被删除 ★ 恢复主题的retention.ms配置1、先查看没修改前的te…

NLP(十八):LLM 的推理优化技术纵览

原文&#xff1a;NLP&#xff08;十八&#xff09;&#xff1a;LLM 的推理优化技术纵览 - 知乎 目录 收起 一、子图融合&#xff08;subgraph fusion&#xff09; 1.1 FasterTransformer by NVIDIA 1.2 DeepSpeed Inference by Microsoft 1.3 MLC LLM by TVM 二、模型压…

可视可交互!在全志H618上用OpenCV读取图像显示到PyQt5窗口上

OpenCV能够处理图像、视频、深度图像等各种类型的视觉数据&#xff0c;在某些情况下&#xff0c;尽管OpenCV可以显示窗口&#xff0c;但PyQt5可能更适合用于创建复杂的交互式应用程序&#xff0c;而自带GPU的H618就成为了这些图像显示的最佳载体。 这里分享一个代码&#xff0…

实战(CVE-2023-42442)JumpServer未授权访问漏洞

声明&#xff1a; 该文章仅供网络安全领域的学习使用&#xff0c;请勿利用文章内的相关技术从事任何非法行为。 测试资产为日本IP&#xff0c;因此未做任何打码处理&#xff0c;我们只进行poc&#xff08;漏洞验证&#xff09;&#xff0c;不进行exp&#xff08;漏洞利用&#…

使用numpy处理图片——模糊处理

大纲 高斯模糊方框模糊其他算法median_filtermaximum_filterminimum_filterpercentile_filterrank_filtergaussian_laplacecorrelatemorphological_laplacewhite_tophatmorphological_gradientblack_tophat 在《使用numpy处理图片——滤镜》一文中&#xff0c;我们尝试了去掉一…

Python文件自动化处理

os模块 Python标准库和操作系统有关的操作创建、移动、复制文件和文件夹文件路径和名称处理 路径的操作 获取当前Python程序运行路径不同操作系统之间路径的表示方式 windows中采用反斜杠(\)作为文件夹之间的分隔符 Mac和Linux中采用斜杠(/)作为文件夹之间的分隔符 把文件…

cuda12.0 安装 pytorch

前两天买的y7000p到了&#xff0c;然后就要重新配下环境。 流程如下 首先下载miniconda &#xff0c;我下的是python3.8的创建自己的自定义环境检查自己的cuda版本&#xff0c;我的是cuda:12.0然后再pytorch上找到对应cuda版本的进行下载&#xff0c;pip install或者conda in…

Fluids —— Fluid sourcing

目录 FLIP Boundary: None FLIP Boundary: Velocity FLIP Boundary: Pressure Other methods SOP FLIP流体为生成粒子提供三种Boundary方式&#xff08;None、Velocity、Pressure&#xff09;&#xff1b; 注&#xff0c;源对象必须是封闭且实体3D或体积对象&#xff0c;开…

(超详细)2-YOLOV5改进-添加SimAM注意力机制

1、在yolov5/models下面新建一个SimAM.py文件&#xff0c;在里面放入下面的代码 代码如下&#xff1a; import torch import torch.nn as nnclass SimAM(torch.nn.Module):def __init__(self, e_lambda1e-4):super(SimAM, self).__init__()self.activaton nn.Sigmoid()self…

【局域网window10系统搭建共享文件夹或与手机共享】

局域网window10系统搭建共享文件夹或与手机共享 1、Window 10之间搭建共享文件夹1.1 ping通两台window 10 电脑1.2 创建共享账号&#xff08;window 10专业版&#xff09;1.3 创建共享文件夹以及配置1.4访问共享文件夹 2、手机访问window10 共享文件夹&#xff08;结合步骤一&a…

vulhub中的Nginx 文件名逻辑漏洞(CVE-2013-4547)

目录 Nginx 文件名逻辑漏洞&#xff08;CVE-2013-4547&#xff09; 1.cd到CVE-2013-4547 2.执行docker-compose up -d 3.查看靶场是否开启成功 4.访问浏览器 5.上传含有一句话木马的图片 6.burp抓包 7.在shell.gif加空格 8.放包 9.访问路径 10.继续抓包 11.在aa后面…

【vitest 单元测试】如何蹭 ant-design-web3 的PR

这篇文章分享单测经验&#xff0c;希望你能收获到有用的单测知识或者pr思路&#xff0c;填补单测的过程可以深刻理解组件内部的每一个流程&#xff0c;相信一定有所收获。 ant-design-web3 前言查看单测覆盖情况运行命令&#xff0c;本地会生成一份临时目录通过live server打开…

如何用GPT制作PPT和写代码?

详情点击链接&#xff1a;如何用GPT制作PPT和写模型代码&#xff1f; 一OpenAI 1.最新大模型GPT-4 Turbo 2.最新发布的高级数据分析&#xff0c;AI画图&#xff0c;图像识别&#xff0c;文档API 3.GPT Store 4.从0到1创建自己的GPT应用 5. 模型Gemini以及大模型Claude2二定…

《路由与交换技术》---简答题

1、什么是STP&#xff1f;解决什么问题&#xff1f; STP代表生成树协议&#xff08;Spanning Tree Protocol&#xff09;。它是用于在计算机网络中解决环路问题的一种协议。 STP的主要目标是消除环路&#xff0c;保持网络的稳定性和可靠性&#xff0c;同时提供冗余路径以实现网…

Python爬虫-新能源汽车对应的“年份月份”销量榜

前言 本文是该专栏的第15篇,后面会持续分享python爬虫干货知识,记得关注。 在本专栏前面,笔者有单独详细介绍采集新能源汽车销量榜,感兴趣的同学,可以往前翻阅查看《Python爬虫-新能源汽车销量榜》。而之后,也有很多同学单独私信,那如果要单独采集某个年份,某个月份的…

【论文综述】一篇关于GAN在计算机视觉邻域的综述

前言 这是一篇关于GAN在计算机视觉领域的综述。 正文 生成对抗网络是一种基于博弈论的生成模型&#xff0c;其中神经网络用于模拟数据分布。应用领域&#xff1a;语言生成、图像生成、图像到图像翻译、图像生成文本描述、视频生成。GAN模型能够复制数据分布并生成合成数据&a…

用React给XXL-JOB开发一个新皮肤(二):目录规划和路由初始化

目录 一. 简述二. 目录规划三. Vite 配置 3.1. 配置路径别名3.2. 配置 less 四. 页面 4.1. 入口文件4.2. 骨架文件4.3. 普通页面 五. 路由配置六. 预览启动 一. 简述 上一篇文章我们介绍了项目初始化&#xff0c;此篇文章我们会先介绍下当前项目的目录规划&#xff0c;接着对…

了解统计分类中的贝叶斯理论误差限

一、介绍 统计分类和机器学习领域正在不断发展&#xff0c;努力提高预测模型的准确性和效率。这些进步的核心在于一个基本基准&#xff0c;即贝叶斯理论误差极限。这个概念深深植根于概率和统计学&#xff0c;是理解分类算法的局限性和潜力的基石。本文深入探讨了贝叶斯错误率的…

实现多级缓存(Redis+Caffeine)

文章目录 多级缓存的概述多级缓存的优势 多级缓存的概述 在高性能的服务架构设计中&#xff0c;缓存是一个不可或缺的环节。在实际的项目中&#xff0c;我们通常会将一些热点数据存储到Redis或MemCache这类缓存中间件中&#xff0c;只有当缓存的访问没有命中时再查询数据库。在…