2024美赛备战1--数据处理(数据预处理,异常值处理,预测模型,插值拟合 *****必看****)

1.数据预处理

所谓数据预处理,就是指在正式做题之前对数据进行的一些处理。在有些情 况下,出题方提供的数据或者网上查找的数据并不能直接使用,比如缺少数据甚 至是异常数据,如果直接忽略缺失值,或者没发现异常数据,都会严重地影响结 果的正确性。此外,带单位的数据也需要通过无量纲处理以减少单位对计算的影响。因此正确的数据预处理是前期值得关注的任务。

2.缺失数据

(1)均值填充法

如果缺失值是数值型的,就根据该属性在其他所有对象取值的平均值来填充该缺失的属性值,比如年龄、距离等属性

如果缺失值是非数值型的,就根据统计学中的众数原理,用该属性在其他所 有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。比如

性别、类别等属性。

(2)就近补齐法

对于一个包含缺失值的对象,就近补齐法在完整数据中找到一个与它最相似 的对象, 然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标

准来对相似进行判定。该方法的难度在于如何定义相似标准,主观因素较多。

(3)聚类填充法

聚类是按照某个特定标准(如距离、密度等)把一个数据集分割成不同的类或 簇,同一类的数据尽可能聚集到一起,不同类数据尽量分离,使得同一个簇内的 数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能 地大。把数据分好类后可以在每个类别中处理缺失值,最经典的聚类算法是K-  近邻算法 (KNN) , 建议同学们在使用时根据数据属性合理选择距离和K(类别)

个数

(4)回归方程法

用不含缺失值的数据集建立回归方程,把缺失值的点代入回归方程即可预测 缺失值,在具体使用时应该注意要留出一部分数据验证你的回归方程的准确性

(建议测试数据比例20%)。

3.异常值处理

异常值是指样本中的个别值,其数值明显异于其他观测值,异常值也叫离群 点。在比赛中,出题方可能会故意提供异常数据,考察参赛选手的数据分析和处理能力。

(1)检测方法

  基于实际问题

在一些实际问题中, 一方面可以用物理模型剔除一些异常值,比如用圆周运 动的临界条件筛选速度异常值;另一方面,可以根据生活常识剔除异常值,比如车速有上限。

 

  基于统计学原理

若数据服从正态分布,根据正态分布的定义可知,在默认情况下我们可以认 定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,

认为该样本为异常值。

  箱线图法

分位数:把数据分布划成4个相等的部分,每个部分表示数据分布的四分之 一,称为四分位数,100-分位数通常称为百分位数,即划为100个大小相等的部

分。中位数、四分位数和百分位数是使用最广泛的分位数。

四分位极差:第1个和第3个四分位数之间的距离称为四分位数极差,定义

为 :

IQR=Q₃-Q₁

五数概括由中位数(图片图片)、四分位数图片图片,最大值和最小值组成。

异常值识别的通常规则:挑选落在第3个四分位数之上或第1个四分位数之 下至少1.5×IQR的值。箱线图的断点一般在四分位数上,盒的长度是四分位数 极差IQR,   中位数用盒内的线标记,盒外的两条线(胡须)延申到最小和最大观 测值。仅当最大和最小观测值超过四分位数不到1.5×IQR 时,胡须扩展,否则 胡须再出现在四分位数的1.5×IQR之内的最极端观测值处终止,剩下的情况个

别列出。

该方法的优点在于既能对数据进行统计学描述,了解数据的整体特征,又能

可视化展示结果,简洁清晰。

(2)处理方法

a). 为了避免异常值影响结果的正确性,直接删除。

b). 在总体样本量较少的情况下,不能简单地删除异常值,因为样本量也很

影响结果,因此可以将异常值视为缺失值,使用缺失值处理方法来处理异常值。

4.无量纲化处理

无量纲化,也称为数据的规范化,是指不同指标之间由于存在量纲不同致其

不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分

析。

常见的无量纲化处理方法主要有标准化(各指标均值为0,标准差为1)、 均值化(各指标数据构成协方差矩阵)和归一化(将一列数据“拍扁”到某个固

定区间(常为[0,1]),和最大/小值有关),如归一化公式:

5.数据量问题

数据样本量不够或者查不到数据,可以在一定约束条件下用随机数生成,模 型适用即可。但切记要对模型做灵敏性分析和误差分析,来证明随机生成的数据

对模型的影响非常小。

数据不够确实令人做题时无从下手,但物极必反,数据太多也不是什么好事, 如果某个赛题提供了很多数据,需要对多维数据做降维处理,减少数据冗余,常

见的方法有主成分分析法 (PCA) 、 线性判别分析等。

6.预测模型

预测模型要根据题目所给数据样本量的大小,选择合适的方法:

(1)灰色预测模型(样本量<15)

数据样本点个数少, 一般建议为6-15个,或者数据呈现指数或曲线的形式。

(2)微分方程预测(样本量<100)

无法直接找到原始数据之间的关系,但可以建立微分方程,利用推导出的公

式预测数据。

(3)回归预测(100<样本量<1000)

回归预测就是把预测的相关性原则作为基础,把影响预测目标的各因素找出 来,然后找出这些因素和预测目标之间的函数关系的近似表达,并且用数学的方 法找出来。依据相关关系中自变量的个数不同分类,可分为一元回归分析预测法

和多元回归分析预测法。

7.插值与拟合

拟合与插值在数学建模竞赛中非常常见,但有以下几点需要留意:

(1)拟合与插值区别: 插值是离散函数逼近的重要方法,利用它可通过函 数在有限个点处的取值状况,估算出函数在其他点处的近似值;拟合是指将平面

上的一系列点与光滑曲线连接起来。

(2)灵活掌握不同插值方法的适用条件:拉格朗日插值( 一 维)、分段线

性插值(多条件)、三次样条插值(空间中的点)。

(3)灵活选择拟合函数: 比如一道经典的数模国赛车流量预测问题,对于 车流量,每个点代表每一小时的平均值,而且车流量可以看作是以天为周期的周

期函数,再联系不规则的函数曲线,可以考虑用傅里叶级数拟合。

8.推荐工具

(1)Excel:       越简单,越强大。你可能忽略了这个最常见的软件,但在数据处理方面,它毫不逊色专业软件,在数据可视化方面也方便操作。

(2)SPSS:   用于统计分析,围绕统计学知识的一些基本应用,包括描述统 计,方差分析,因子分析,主成分分析,基本的回归,分布的检验等等,我们前边提到的箱线图就可以用 SPSS一 键生成!

(3)Python:        熟练掌握Numpy,Pandas,Matplotlib      库 ,python    的强大无需多言,综合且高效!

(4)Tableau:        主要用于数据可视化展示,操作简单,可以直接用鼠标来选 择行、列标签来生成各种不同的图形图表,而且Tableau   的设计、色彩及操作界

面简单清新,做出来的图更美观。

(5)数据查找网站:

联合国数据中心:https://www.un.org/zh/databases/

联合国粮食及农业组织: FAOSTAT

谷歌学术: 思谋学术_谷歌学术搜索和文献资源

 

美国运输统计局: Bureau of Transportation Statistics

美国劳工统计局: https://stats.bls.gov/

美国农业部: USDA

美国人口统计局: http://www.census.gov/

美           国            普           查           局

http://2010.census.gov/2010census/language/chinese-simplified.php

中国国家统计局: http://www.stats.gov.cn/tjsj/

世界卫生组织: www.who.int/data/gh   o

 

美国商务部经济分析局: www.bea.gov/data

 Free GIS Data:freegisdata.rtwilson.com

 欢迎点击下方名片加入通过下方名片加入美赛备战 交流群

或者关注GZH :建模忠哥 ,建模期间提供免费的chatgpt3.5      

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/236822.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Axure RP 9 入门教程

1. Axure简介 Axure 是一个交互式原型设计工具&#xff0c;可以帮助用户创建复杂的交互式应用程序和网站。Axure 能够让用户快速构建出具有高度可交互性的原型&#xff0c;可以在团队中进行协作、分享和测试。 使用 Axure 可以设计出各种不同类型的原型&#xff0c;包括网站、移…

企业网站运营不稳定有什么影响

如果一个公司的网站打开都有困难&#xff0c;那么用户会对这个企业的实力产生怀疑&#xff0c;企业网站除了作为企业的名片外&#xff0c;更多的是承担增加企业交易订单的任务。因此很多网站会做有关的网络广告或者搜索引擎优化的工作。如果网站无法正常打开&#xff0c;那么用…

HNU计算机体系结构-实验3:多cache一致性算法

文章目录 实验3 多cache一致性算法一、实验目的二、实验说明三 实验内容1、cache一致性算法-监听法模拟2、cache一致性算法-目录法模拟 四、思考题五、实验总结 实验3 多cache一致性算法 一、实验目的 熟悉cache一致性模拟器&#xff08;监听法和目录法&#xff09;的使用&am…

类人智能体概念、能力与衍生丨AI Agents闭门研讨观点集锦

导读 在智源社区举办的「青源Workshop第27期&#xff1a;AI Agents 闭门研讨会」上&#xff0c;来自英伟达的高级应用科学家王智琳、CAMEL一作李国豪、AutoAgents一作陈光耀&#xff0c;以及相关技术专家们共同参与交流讨论&#xff0c;分享了最新的研究成果&#xff0c;共同探…

【UE5】初识MetaHuman 创建虚拟角色

步骤 在UE5工程中启用“Quixel Bridge”插件 打开“Quixel Bridge” 点击“MetaHumans-》MetaHuman Presets UE5” 点击“START MHC” 在弹出的网页中选择一个虚幻引擎版本&#xff0c;然后点击“启动 MetaHuman Creator” 等待一段时间后&#xff0c;在如下页面点击选择一个人…

mysql:建议使用INT UNSIGNED类型存储IPv4地址

建议使用INT UNSIGNED类型存储IPv4地址&#xff0c;而不要使用INT类型&#xff0c;也不建议使用VARCHAR(15)类型存储。 在mysql中&#xff0c;内嵌函数INET_ATON(expr)可以将IP地址字符串转换为整数&#xff0c;内嵌函数INET_NTOA(expr)可以将整数转换为ip地址字符串。 例如&a…

【基础知识】SAR成像:从背景到应用的全方位概述

最近有项目接触到SAR成像图像&#xff0c;为了对SAR有一个全面的认识&#xff0c;本文结合自身研究经验&#xff0c;从背景到应用做一下简要概述。 背景 SAR&#xff08;Synthetic Aperture Radar&#xff0c;合成孔径雷达&#xff09;成像是一种先进的雷达技术&#xff0c;…

Kalman滤波、扩展Kalman滤波、无迹Kalman滤波和异步滤波的原理及其Matlab代码

目录 引言Kalman滤波代码及其结果展示 扩展Kalman滤波代码及其结果展示 无迹Kalman滤波无迹变换无迹Kalman滤波代码及其结果展示 异步无迹Kalman滤波原理代码及其结果展示 引言 本文给出了Kalman Filter&#xff08;卡尔曼滤波&#xff09;、Extended Kalman Filter&#xff0…

新零售模式:跨境电商如何实现线上线下融合?

随着数字时代的发展&#xff0c;新零售模式逐渐崭露头角&#xff0c;成为跨境电商发展的重要趋势。线上线下融合不仅拓宽了销售渠道&#xff0c;更提供了更丰富、更便捷的购物体验。 本文将深入探讨新零售模式在跨境电商中的应用&#xff0c;以及如何实现线上线下融合&#xf…

测距传感器

测距传感器 电子元器件百科 文章目录 测距传感器前言一、测距传感器是什么二、测距传感器的类别三、测距传感器的应用实例四、测距传感器的作用原理总结前言 测距传感器广泛应用于自动化控制、机器人导航、无人驾驶、测量仪器等领域。不同类型的测距传感器具有不同的测距范围、…

ASP.NET Core 8 在 Windows 上各种部署模型的性能测试

ASP.NET Core 8 在 Windows 上各种部署模型的性能测试 我们知道 Asp.net Core 在 windows 服务器上部署的方案有 4 种之多。这些部署方案对性能的影响一直以来都是靠经验。比如如果是部署在 IIS 下&#xff0c;那么 In Process 会比 Out Process 快&#xff1b;如果是 Self Hos…

从零开始搭建企业管理系统(六):RBAC 权限管理设计

RBAC 权限管理设计 前言权限分类功能权限设计什么是 RBACRBAC 组成RBAC 模型分类基本模型RBAC0角色分层模型RBAC1角色限制模型RBAC2统一模型RBAC3 RBAC0 权限设计用户管理角色管理权限管理关联表 总结 前言 作为一个后台管理系统&#xff0c;权限管理是一个绕不开的话题&#…

[Linux基础知识]页表

文章目录 1.页表 环境变量2.进程 1.页表 环境变量 一个分页存储管理系统中&#xff0c;地址长度为 32 位&#xff0c;其中页号占 8 位&#xff0c;则页表长度是 页号即页表项的序号&#xff0c;总共占8个二进制位&#xff0c;意味着页表项的个数就是2^8 在CPU和物理内存之间进行…

基于ssm高校教师科研信息展示网站论文

摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对高校教师科研项目展示信息管理混乱&#xff0c;出错率高&#xff0c…

【23真题】难!最后的几所985!

今天分享的是23年天津大学815的信号与系统试题及解析&#xff01;985的题目做一套少一套&#xff0c;考研前我也发不了几所985的真题了&#xff0c;大家珍惜&#xff01; 本套试卷难度分析&#xff1a;22年天津大学815考研真题&#xff0c;我也发布过&#xff0c;若有需要&…

聚首引领行业风潮!聚首品牌联动资源价值平台发布会正式启航

2023年12月10日&#xff0c;由杭州建筑装饰学会、浙江聚首联优材料科技有限公司主办&#xff0c;天尚设计集团、公和设计集团、铭扬工程设计集团、地标设计集团、上宸工程设计集团、华坤建筑设计院、广厦建筑设计研究院、上海传承博华建筑规划设计院、航冠工程设计院、浙江鸿能…

SQL进阶 | CASE表达式

本文所有案例基于《SQL进阶教程》实现。 概述 SQL中的CASE表达式是一种通用的条件表达式&#xff0c;类似于其他语言中的if/else语句。它用于在SQL语句中实现条件逻辑。CASE表达式以WHEN子句开始&#xff0c;后面跟着一个或多个WHEN条件&#xff0c;每个WHEN条件后面跟着一个TH…

【S32DS RTD实战】-1.3-S32K3工程生成S19,BIN,Hex文件,以及Post-build steps的妙用

目录 1 方法一&#xff1a;逐个生成Motorola S-record&#xff08;s19&#xff0c;srec…&#xff09;&#xff0c;Intel HEX&#xff0c;Bin文件 1.1 生成Motorola S-record&#xff08;s19&#xff0c;srec…&#xff09;文件 1.2 生成Intel HEX文件 1.3 生成Bin文件 2 …

关于 SAP S/4HANA 中的控制您应该了解什么-Part1

原文地址&#xff1a;What you should know about controlling in SAP S/4HANA. (Part 1) | SAP Blogs &#xff08;自 SAP S/4HANA 版本 1909 起更新&#xff09; 作为一名CO顾问&#xff0c;我对 SAP ERP 中央组件 (ECC) 向 SAP S/4HANA 的演变感到非常兴奋。 自从第一个版…