数学建模中常用的数据处理方法

常用的数据处理方法

本文参考 B站西电数模协会的讲解视频 ,只作笔记提纲,想要详细学习具体内容请观看 up 的学习视频。一般来说国赛的 C 题一般数据量比较大。

这里介绍以下两种方法:
数据预处理方法
数据分析方法

数据预处理方法

1. 数据清洗

为了提高数据质量和适用所做数据分析的软件

 (1) 缺失值
  • 删除法:例如调查人口信息,发现“身高”这一项缺失 40%,直接删除该项指标
  • 替换法:适用于数据基数较大,对个体精度要求不高(例如人口的数量、年龄、经济产业情况等统计数据)
    • 人口的身高、年龄等数据可以用均值补缺
    • 人口的性别、文化程度、事件调查的满意度可以用出现次数最多的值(众数)补缺
  • 插值法:适用于对个体精度有要求
    • 常用插值法:分段线性插值、牛顿插值、拉格朗日多项式插值、Hermite插值、三次样条插值和克里金插值
    • 牛顿插值
      • 根据固定公式,构造近似函数,补上缺失值,适用性强
      • 会出现龙格现象,即区间边缘处有不稳定振荡,不适合对导数有要求的题目
      • 适用赛题:只追求函数值精确而不关心变化的数据。例如:热力学温度、地形测量、定位等
    • 三次样条插值
      • 用分段光滑的曲线去插值,函数曲线连续可导
      • 适用赛题:函数值精确度要求高,有突变的数据。例如:零件加工,水库水流量,机器人轨迹等
 (2) 异常值
  • 查找异常数据:
    • 正态分布 3 σ 3\sigma 3σ 原则
      • 适用题目:总体符合正态分布,例如人口身高、测量误差、生产加工质量、考试成绩等
      • 不适用题目:总体符合其他分布,例如固定时间内到公交站、地铁站人数符合泊松分布等
    • 箱型图法
      • 流程:箱型图法
      • 普遍适用
  • 删去异常值,当作缺失值处理

2. 数据变换

数据变换就是转化成适当的形式,以满足软件或分析理论的需要

(1) 简单函数变换
  • 将不具有正态分布的数据变成有正态分布的数据,常用的方法有开方、取对数、Box-Cox变换等
  • 利用对数或差分运算将非平稳序列转化成平稳序列
(2) 数据的规范化

        规范化就是剔除掉变量量纲上的影响,比如直接比较身高和体重的差异,单位的不同和取值范围的不同让这件事不能直接比较

  • 最小 – 最大规范化
    • 对数据进行线性变换,将其范围变成 [0,1]
    • 规范公式:(原始值-最小值)/(最大值-最小值)
    • 不适用情形:原始数据存在小部分很大或很小的数据时,会造成大部分数据规范化后接近于 0/1,区分度不大
  • 零 – 均值规范化
    • 处理后的数据均值等于 0,标准差为 1
    • 规范公式:(原始值-平均值)/标准差
    • 注意:得到的是给定数据距离其均值多少个标准差,结果
      没有实际意义,仅用于比较
  • 小数定标规范化
    • 移动属性值的小数位数,将属性值映射到 [-1,1]
    • 规范公式:原始值/10^k
    • 注意: k k k 取决于数据属性中数值的最大绝对值

数据分析方法

        通过采用合理的数据处理方法,将实际问题化繁为简,将定性分析变为定量分析,获得科学可靠的结论

1. 回归分析

        在统计学中,回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

  • 根据自变量个数,有一元回归和多元回归
  • 根据因变量与自变量的关系,有线性回归和非线性回归

2. 插值与拟合

3. 数据降维

(1) 主成分分析
  • 将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行以降维
(2) 因子分析
  • 将原始变量分解为两部分:一部分是公共因子的线性组合,浓缩了原始变量中的绝大部分信息。另一部分是与公共因子无关的特殊因予,反映了公共因子线性组合与原始变量间的差距。
(3) 二者区别:

示例:现有 10 位同学的语文、数学、英语、物理、化学、政治、历史、地理、生物的成绩数据。
主成分分析:文科和理科
因子分析:计算能力、阅读能力、逻辑能力、记忆能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/787481.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024 Q3 NAND闪存价格|企业级依然猛涨,消费级放缓

在企业领域持续投资于服务器基础设施,特别是在人工智能应用的推动下,企业级SSD需求增加的同时,消费电子市场却依旧疲软。加之NAND供应商在2024年下半年积极扩大生产,预计到2024年第三季度,NAND闪存供应充足率将上升至2…

【Go】函数的使用

目录 函数返回多个值 init函数和import init函数 main函数 函数的参数 值传递 引用传递(指针) 函数返回多个值 用法如下: package mainimport ("fmt""strconv" )// 返回多个返回值,无参数名 func Mu…

Java项目:基于SSM框架实现的农家乐信息管理平台含前后台【ssm+B/S架构+源码+数据库+答辩PPT+开题报告+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的农家乐信息管理平台 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功…

01:简易的电动车防盗报警器

简易的电动车防盗报警器 1、震动传感器模块的使用2、使用震动传感器模块控制继电器开关3、433M无线发射接收模块的使用 需要材料: 1、51单片机 2、震动传感器模块 3、继电器模块 4、高功率喇叭 5、433M无线发射接收模块 6、弱干杜邦线 1、震动传感器模块的使用 接好…

安全求交集PSI

安全求交集定义 求交集的PSI:交集可以被两方看见或其中一方看见,非交集进行保护有两方的PSI半诚实的PSI:攻击者要严格遵守协议,在此基础上得到他人的秘密是做不到的 Two-Party Semi-Honest PSI 挑战一:隐藏非交集元素…

Day65 代码随想录打卡|回溯算法篇---组合总和II

题目(leecode T40): 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意:解集不能包含…

硕博电子移动控制器在无人驾驶卡车上的应用

传统港口行业一直是一个典型的劳动密集型行业,以前,集装箱的每次起吊操作需要多人配合,包括操作员、指挥手、理货员等至少7名现场工作人员。传统码头设施陈旧,重型设备难以更新换代。而且,港口还经常受到天气状况的影响…

GraphRAG——一个基于图的检索增强生成的开源项目【送源码】

GraphRAG 最近几天,微软团队开源了GraphRAG,这是一种基于图(Graph)的检索增强生成方法。 先说说RAG吧,检索增强生成,相当于是从一个给定好的知识库中进行检索,接入LLM模型,让模型生…

ByteMD富文本编辑器的vue3配置

Git地址:GitHub - bytedance/bytemd: ByteMD v1 repository 控制面板输入 npm install bytemd/vue-next 下载成功后在src/main.ts中引用 import "bytemd/dist/index.css";引入后保存,下面是一些插件,比如说我用到gmf和hightLight&…

数据类型及数据块认知

西门子STEP7编程语言 梯形图(LAD) 功能块图(FBD) 语句表(STL) 其中梯形图和功能块图可以相互转换 CPU常用数据区 信号输入区 I 信号输出区 Q 程序中表现形式,IX.X/QX.X;IWX/QWX-访问的是CPU输出输入过程映像区 另一种形式IWX:P/QWX:P-访问的是信号端口地址&#xf…

Transformer-LSTM预测 | Matlab实现Transformer-LSTM时间序列预测

Transformer-LSTM预测 | Matlab实现Transformer-LSTM时间序列预测 目录 Transformer-LSTM预测 | Matlab实现Transformer-LSTM时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现Transformer-LSTM时间序列预测,Transformer-LSTM&#xf…

如何评价Flutter?

哈喽,我是老刘 我们团队使用Flutter已经快6年了。 有很多人问过我们对Flutter的评价。 今天在这里回顾一下6年前选择Flutter时的原因,以及Flutter在这几年中的实际表现如何。 选择Flutter时的判断 1、性能 最开始吸引我们的就是其优秀的性能。 特别是…

【SQL】做项目时用到的语句整理(去重/多表关联)

1. 对日期去重(groupby) 需要:新建一张表,对原来表中的某个列(href)进行去重,并按照最新的日期进行排版 适用:如果有一张表,我们重复往里面存入数据,有一些除了日期以外&#xff0…

符号同步、定时同步和载波同步

符号同步、定时同步和载波同步是通信系统中重要的同步技术,它们各自承担着不同的功能和作用。以下是对这三种同步技术的详细解释: 符号同步 定义: 符号同步,也称为定时恢复或时钟恢复,是指在数字通信系统中&#xff…

Java字符串(String、字符串拼接、原理)

文章目录 一、String字符串1.1创建方式【直接赋值、new一个对象】1.1.1 使用字符串字面值直接赋值:(1)字符串字面量创建String对象的转换过程(2)一些方法(3)说明 1.1.2 使用new关键字创建字符串…

MySQL:TABLE_SCHEMA及其应用

MySQL TABLE_SCHEMA及其应用 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550263/ar…

285个地级市出口产品质量及技术复杂度(2011-2021年)

出口产品质量与技术复杂度:衡量国家竞争力的关键指标 出口产品质量是衡量国内企业生产的产品在国际市场上竞争力的重要标准。它不仅要求产品符合国际标准和目标市场的法律法规,而且需要保证产品质量的稳定性和可靠性。而出口技术复杂度则进一步体现了一…

龙迅LT8641UXE HDMI四进一出切换开关,支持标准HDMI 2.0内置MCU

龙迅LT8641UXE描述: Lontium LT8641UX HDMI2.0开关具有符合HDMI2.0/1.4规范的4:1开关,最大6Gbps高速数据速率,自适应均衡RX输入和预先强调的TX输出支持长电缆应用,没有XTAL板上节省BOM成本。LT8641UX HDMI2.0开关自动…

C++之goto陈述

关键字 goto用于控制程式执行的顺序&#xff0c;使程式直接跳到指定标签(lable) 的地方继续执行。 形式如下 标签可以是任意的识别字&#xff0c;后面接一个冒号。 举例如下 #include <iostream>int main() {goto label_one;label_one: {std::cout << "Lab…

数字人直播时代来了!数字人直播系统搭建,AI虚拟数字人直播系统源码部署

数字人直播系统这是一种利用人工智能技术&#xff0c;实现自动化生成真实人物直播销售商品的综合性解决方案。 一、目前数字人直播支持的平台&#xff1a; 抖音、快手、视频号、小红书、淘宝、支付宝生活号、TikTok、阿里国际站等。 技术栈 数据库&#xff1a;mysql5.7 技术搭…