2024 年第十四届 APMCM 亚太地区大学生数学建模竞赛B题超详细解题思路+数据预处理问题一代码分享

B题 洪水灾害的数据分析与预测

亚太中文赛事本次报名队伍约3000队,竞赛规模体量大致相当于2024年认证杯,1/3个妈杯,1/10个国赛。赛题难度大致相当于0.6个国赛,0.8个妈杯。该比例仅供大家参考。

本次竞赛赛题难度A:B:C=3:1:4,选题人数估计A:B:C=1:9:2。基于于本次比赛B题选题人数可能会占据很大的比例的现状,我们将提供两个版本论文,思路完全不同的B题资料【一篇论文+两套代码+售后群不禁言】。下面给大家带来详细的解题思路。

对于数据类型的题目,第一步一定是先进行数据处理,而非直接进行问题一的求解。

数据预处理

缺失值处理:

    - 检查数据中的缺失值情况。

    - 根据数据分布情况选择合适的填补方法,如均值填补、中位数填补或插值法。

异常值处理:

    - 绘制箱线图,识别和处理异常值。

- 根据数据的实际意义和分布情况决定是否去除或调整异常值。

数据标准化:

- 对所有数值型数据进行标准化处理,以消除量纲差异对分析结果的影响。

下面进行部分异常值展示,对于数据中提供的各项指标得分中取值区间均为0-17,其中“地形排水”,存在得分为18,该值可以认定为异常值。进行后续的相关处理即可。对于异常值处理的结果,我们可以采用克里斯插值、三次样条等相关处理进行插值即可

问题 1. 请分析附件 train.csv 中的数据,分析并可视化上述 20 个指标中,哪些指标与洪水的发生有着密切的关联?哪些指标与洪水发生的相关性不大?并分析可能的原因,然后针对洪水的提前预防,提出你们合理的建议和措施。

步骤 1: 相关性分析

1. 计算相关系数:

    - 使用皮尔逊相关系数计算各指标与洪水发生概率之间的相关性。

    - 可以选择使用Spearman或Kendall相关系数进行补充分析。

2. 可视化相关性:

    - 使用Seaborn绘制相关性矩阵热力图,直观展示各指标之间的相关性。

- 分析哪些指标与洪水发生概率的相关性较强,哪些指标相关性较弱。

 

步骤 2: 数据可视化

1. 散点图与回归分析:

    - 绘制每个指标与洪水发生概率的散点图,观察数据分布和趋势。

    - 使用线性回归或其他回归方法拟合数据,分析指标与洪水发生概率的关系。

2. 箱线图与分布图:

    - 使用箱线图展示不同指标在不同洪水发生概率区间内的分布情况。

- 使用直方图和密度图分析各指标的分布特征。

 步骤 3: 文字描述

1. 指标分析:

    - 根据相关性分析和可视化结果,讨论各指标对洪水发生的潜在影响机制。

    - 分析可能的人为因素和自然因素对洪水发生的影响。

2. 提出建议:

    - 针对高相关性指标,提出相应的洪水提前预防措施,如加强河流管理、改善排水系统、控制森林砍伐等。

问题 2. 将附件 train.csv 中洪水发生的概率聚类成不同类别,分析具有高、中、低风险的洪水事件的指标特征。然后,选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型,最后进行模型的灵敏度分析。

步骤1: 聚类分析

1. K-means聚类:

    - 使用K-means算法将洪水发生概率分为高、中、低三个风险类别。

    - 对数据进行聚类前的标准化处理,以提高聚类效果。

2. 聚类结果分析:

    - 分析不同类别的指标特征,找出各类别之间的显著差异。

    - 使用可视化方法展示聚类结果,如雷达图、箱线图等。

步骤 2: 权重计算与模型建立

1. 特征选择与权重计算:

    - 使用信息增益、Gini系数等特征选择方法,计算不同指标的权重。

    - 选取重要指标,建立加权和的洪水风险评估模型。

2. 模型灵敏度分析:

    - 通过改变模型参数或去除某些指标,分析模型预测结果的变化。

- 评估模型的鲁棒性和敏感性,确保模型在不同条件下的稳定性。

特征重要性柱状图

问题 3. 基于问题 1 中指标分析的结果,请建立洪水发生概率的预测模型,从 20 个指标中选取合适指标,预测洪水发生的概率,并验证你们预测模型的准确性。如果仅用 5 个关键指标,如何调整改进你们的洪水发生概率的预测模型?

步骤1: 特征选择与模型建立

1. 特征选择:

    - 根据问题1的分析结果,选取与洪水发生概率关系密切的指标。

    - 尝试多种机器学习模型,如线性回归、决策树、随机森林、XGBoost等,建立洪水发生概率的预测模型。

2. 模型训练与优化:

    - 使用交叉验证和网格搜索优化模型参数,选择最优模型。

    - 评估模型的预测精度,确保模型的泛化能力。

步骤2: 模型验证与改进

1. 模型验证:

    - 使用 `train.csv` 中的部分数据进行训练,其余数据进行验证,评估模型的预测精度。

    - 分析预测误差,优化模型结构和参数。

2. 关键指标模型:

    - 如果仅使用5个关键指标,调整模型结构,重新训练和验证模型。

    - 比较不同模型的预测效果,选择最佳方案。

 

问题 4. 基于问题 2 中建立的洪水发生概率的预测模型,预测附件 test.csv 中

所有事件发生洪水的概率,并将预测结果填入附件 submit.csv 中。然后绘制这 74

多万件发生洪水的概率的直方图和折线图,分析此结果的分布是否服从正态分布。

 步骤1: 预测与提交结果

1. 模型预测:

    - 使用问题3中选定的最佳模型,预测 `test.csv` 中每个事件的洪水发生概率。

    - 将预测结果填入 `submit.csv` 文件中。

 步骤2: 分布分析

1. 直方图与折线图:

    - 绘制74万件洪水事件的概率直方图和折线图,分析洪水发生概率的分布情况。

    - 使用正态性检验方法(如Shapiro-Wilk检验),判断预测结果是否符合正态分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/772215.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

中霖教育:税务师考试报名现有职称怎么写?

【中霖教育怎么样】】【中霖教育好吗】 报考税务师考试的考生在报名期间需要登录税务师职业资格考试网上报名系统填写报名信息。 税务师报名现有职称按照实际情况填写会计助理、会计或者会计主管,没有工作的考生在填写工作信息的时候填写待业即可。 在报名阶段&a…

Linux_进程池

目录 1、进程池基本逻辑 2、实现进程池框架 3、文件描述符的继承 4、分配任务给进程池 5、让进程池执行任务 6、回收子进程 7、进程池总结 结语 前言: 在Linux下,进程池表示把多个子进程用数据结构的方式进行统一管理,在任何时候…

MATLAB和Python发那科ABB库卡史陶比尔工业机器人模拟示教框架

🎯要点 🎯模拟工业机器人 | 🎯可视化机器人DH 参数,机器人三维视图 | 🎯绘制观察运动时关节坐标位置、速度和加速度 | 🎯绘制每个关节处的扭矩和力 | 🎯图形界面示教机器人 | 🎯工业…

通过9大步骤,帮助企业在数字化转型中搭建数据分析的报表体系!

引言:在数字化转型中,企业搭建数据分析的报表体系是一个系统性的过程,需要综合考虑业务需求、数据来源、技术平台等多个方面。此外从报表生命周期的角度来说,从产生、使用以及最后消亡退出体系,都需要通盘考虑&#xf…

[数据集][目标检测]轮椅检测数据集VOC+YOLO格式13826张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):13826 标注数量(xml文件个数):13826 标注数量(txt文件个数):13826 标…

remix测试文件测试智能合约

remix内其实也是可以通过编写测试文件来测试智能合约的,需要使用插件自动生成框架以及测试结果。本文介绍一个简单的HelloWorld合约来讲解 安装插件多重检测: (solidity unit testing) 编译部署HelloWorld合约 // SPDX-License-…

在线图片转文字的软件,分享3种强大的软件!

在信息爆炸的时代,图片作为信息的重要载体之一,其内容往往蕴含着巨大的价值。然而,面对海量的图片信息,如何高效、准确地将其转化为文字,成为了许多人的迫切需求。今天,就为大家盘点几款功能强大的在线图片…

Xilinx FPGA:vivado关于RAM的一些零碎的小知识

一、xilinx fpga嵌入式存储单元 RAM----随机存取存储器:上电工作时可以随时从任何一个指定的地址写入(存入)或读出(取出)信息。缺点是一旦断电所存储的数据将随之丢失。RAM在计算机和数字系统中用来暂时性存储程序、数…

腾讯云COS分布式对象存储

腾讯云COS分布式对象存储 腾讯云对象存储(Cloud Object Storage,COS)是腾讯云提供的一种用于存储海量文件的分布式存储服务。 腾讯云 COS 适用于多种场景,如静态网站托管、大规模数据备份和归档、多媒体存储和处理、移动应用数据存…

【test】小爱同学通过esp32控制电脑开关

文章目录 一、环境准备二、开关机原理数据传输框架 三、环境搭建1.巴法云平台设置2.米家设置3.windows网络唤醒设置4.搭建esp32开发环境并部署(1)新建项目(2)导入esp32库(3) 添加库(4&#xff0…

YOLOv8入门 | 重要性能衡量指标、训练结果评价及分析及影响mAP的因素【发论文关注的指标】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

从CVPR 2024看 NeRF 最新改进&应用

三维重建领域必不可少的NeRF技术最近又有新突破了! 首先是SAX-NeRF框架,专为稀疏视角下X光三维重建设计,无需CT数据进行训练,只使用 X 光片即可,等于给NeRF开透视眼! 还有清华提出的GenN2N,一…

Canvas合集更更更之实现由画布中心向外随机不断发散的粒子效果

实现效果 1.支持颜色设置 2.支持粒子数量设置 3.支持粒子大小设置 写在最后🍒 源码,关注🍥苏苏的bug,🍡苏苏的github,🍪苏苏的码云

VSCode 自动调整格式失效了 ESLint

ESLint【最新注意2.4.4版本有问题,需退回2.4.2版本就恢复正常了】 参考:vscode自动格式化失效_vscode保存自动格式化失效-CSDN博客

【启明智显分享】手持遥控器HMI解决方案:2.8寸触摸串口屏助力实现智能化

现代生活不少家居不断智能化,但是遥控器却并没有随之升级。在遥控交互上,传统遥控器明显功能不足:特别是大屏智能电视,其功能主要由各种APP程序实现。在电脑上鼠标轻轻点击、在手机上触摸屏丝滑滑动,但是在电视上这些A…

新的超好用的baas服务他来了!

新的超好用的BaaS服务它来了! 你是否厌倦了搭建服务的繁琐过程?你是否因为接口API的开发而头疼不已?你是否梦想着能够用最少的精力打造出最棒的应用?如果你的答案是“是”,那么恭喜你,你的救星来了&#x…

kubernetes dashboard安装

1.查看符合自己版本的kubernetes Dashboard 比如我使用的是1.23.0版本 https://github.com/kubernetes/dashboard/releases?page5 对应版本 kubectl apply -f https://raw.githubusercontent.com/kubernetes/dashboard/v2.5.1/aio/deploy/recommended.yaml修改对应的yaml,…

秋招突击——设计模式补充——单例模式、依赖倒转原则、工厂方法模式

文章目录 引言正文依赖倒转原则工厂方法模式工厂模式的实现简单工厂和工厂方法的对比 抽线工厂模式最基本的数据访问程序使用工厂模式实现数据库的访问使用抽象工厂模式的数据访问程序抽象工厂模式的优点和缺点使用反射抽象工厂的数据访问程序使用反射配置文件实现数据访问程序…

2024亚太杯中文赛数学建模选题建议及各题思路来啦!

大家好呀,2024年第十四届APMCM亚太地区大学生数学建模竞赛(中文赛项)开始了,来说一下初步的选题建议吧: 首先定下主基调, 本次亚太杯推荐大家选择B题目。C题目难度较高,只建议用过kaiwu的队伍…

决策树算法的原理与案例实现

一、绪论 1.1 决策树算法的背景介绍 1.2 研究决策树算法的意义 二、决策树算法原理 2.1 决策树的基本概念 2.2 决策树构建的基本思路 2.2 决策树的构建过程 2.3 决策树的剪枝策略 三、决策树算法的优缺点 3.1 决策树算法的优势 3.2 决策树算法的局限性 3.3 决策树算…