day1:集中趋势,离散测度,均值,中位数,众数,方差等。点估计,区间估计等相关的知识
现代数据分析:把数据放到一个数据空间中,通过这个空间的个各种形变与分析而挖掘除数据底层所携带的信息
一:数据类型
类型1:离散型数据:离散随机变量是指一个只取有限个或可数无限个数值的随机变量。通常用古典概型来描述
连续性数据:连续随机变量是指一个取任何实数的概率都为零的变量。通常用集合概型来描述
类型2:横截面数据:一个时间点或一个时间段内取到的所有数据
时间序列数据:当带有时间属性,那么数据就带有了某种相关性
面板数据:既有时间属性,又有空间属性(例:去年一年企业在全国各大城市的销量数据)
类型三:
排序 | 计算 | 数据类型 | 举例 |
NO | NO | 定类型 | 国籍 |
YES | NO | 定序型 | 健康状况 |
YES | YES | 数值型 | 时间 |
二:数学模型
2.1什么是数学模型:从数学角度看,基于统计数据的拟合函数的方法
2.2:分析模型
挖掘模型:只能挖掘未来,不能分析过去
统计模型:既能挖掘未来,又能分析过去
2.3回归模型:
2.3.1: 最简单的回归模型是一元线性回归模型:
举例:
1. •𝐿𝑂𝐿胜率=𝛽0+𝛽1练习时间+𝜖LOL胜率=β_0+β_1 练习"时间"+ϵ
练习时间每多一分钟,会使胜率提高𝛽1β_1个百分点
2.•皮肤光泽度=𝛽0+𝛽1燕窝摄入量+𝜖皮肤光泽度=β_0+β_1 燕窝摄入量+ϵ
每多吃一斤燕窝,会使皮肤光泽提高𝛽1β_1度。
2.3.2:回归模型扩展
三:线性代数
3.1向量
3.2:向量的坐标
3.3向量运算
向量的加法:2维空间内,就是求给定2个向量所围成的平行四边形的对角线
向量的数乘:将给定向量按比例缩放(拉伸),负数表示反向拉伸。
3.4线性组合:
将一个向量组中的向量做数乘后相加,即得到该向量组的一个所谓的线性组合
3.4:张成空间
含义:所有可以表示为给定向量的线性组合的向量集合,被称为给定向量张成(span)的空间
若给定多个向量,移除其中一部分而不减小张成空间,是为线性相关。
如果所有向量都给张成空间增加了维度,是为线性无关。