2024 年第十四届 APMCM 亚太地区大学生数学建模竞赛
B题 洪水灾害的数据分析与预测
附件 train.csv 中提供了超过 100 万的洪水数据,其中包含洪水事件的 id、季风强度、地形排水、河流管理、森林砍伐、城市化、气候变化、大坝质量、淤积、农业实践、侵蚀、无效防灾、排水系统、海岸脆弱性、滑坡、流域、基础设施恶化、人口得分、湿地损失、规划不足、政策因素和发生洪水的概率。
附件 test.csv 中包含了超过 70 万的洪水数据,其中包含洪水事件的 id 和上述 20 个指标得分,缺少发生洪水的概率。附件 submit.csv 中包含 test.csv 中的洪水事件的 id,缺少发生洪水的概率。
请你们的团队通过数学建模和数据分析的方法,预测发生洪水灾害的概率,解决以下问题:
问题 1. 请分析附件 train.csv 中的数据,分析并可视化上述 20 个指标中,哪些指标与洪水的发生有着密切的关联?哪些指标与洪水发生的相关性不大?并分析可能的原因,然后针对洪水的提前预防,提出你们合理的建议和措施。
问题 1:分析指标与洪水发生的关联性
目标:
分析附件 train.csv 中的数据,识别与洪水发生密切相关的指标,进行可视化,并提出预防建议。
思路:
1. 数据预处理:
o 读取 train.csv 文件,检查缺失值和异常值。
o 对缺失值进行处理,如插值或删除。
2. 特征选择:
o 使用相关性分析(如皮尔逊相关系数)计算各指标与洪水发生概率的相关性。
3. 数据可视化:
o 绘制热力图显示各指标之间的相关性。
4. 结果分析:
o 根据分析结果识别与洪水发生密切相关的指标。
5. 提出建议:
o 根据结果提出合理的洪水预防措施和建议。
精力有限,以下只是简略的图文版初步思路,更详细的视频版完整讲解请移步:
2024亚太杯中文赛数学建模选题建议及ABC题详细思路!_哔哩哔哩_bilibili
目前第一问求解结果:
问题 2. 将附件 train.csv 中洪水发生的概率聚类成不同类别,分析具有高、中、低风险的洪水事件的指标特征。然后,选取合适的指标,计算不同指标的权重,建立发生洪水不同风险的预警评价模型,最后进行模型的灵敏度分析
问题 2:聚类分析与风险评价模型
目标:
将洪水发生概率聚类成不同类别,分析不同风险的洪水事件特征,建立预警评价模型。
思路:
1. 数据预处理:
o 使用标准化方法对数据进行标准化处理。
2. 聚类分析:
o 使用K-means聚类方法对洪水发生概率进行聚类,确定高、中、低风险类别。
o 分析各类别的指标特征,绘制特征雷达图等进行可视化。
3. 特征选择与权重计算:
o 使用主成分分析(PCA)或因子分析选择关键指标。
o 计算不同指标的权重,可以使用层次分析法(AHP)或基于信息增益的方法。
4. 预警评价模型:
o 根据选取的指标和权重,建立洪水风险的预警评价模型。
o 进行模型灵敏度分析,验证模型的稳定性和可靠性。
问题 3. 基于问题 1 中指标分析的结果,请建立洪水发生概率的预测模型,从 20 个指标中选取合适指标,预测洪水发生的概率,并验证你们预测模型的准确性。如果仅用 5 个关键指标,如何调整改进你们的洪水发生概率的预测模型?
问题 3:洪水发生概率的预测模型
目标:
建立洪水发生概率的预测模型,并验证其准确性。
思路:
1. 特征选择:
o 基于问题1中的分析结果,选择与洪水发生关系密切的指标。
2. 模型选择与训练:
o 使用机器学习算法(如逻辑回归、随机森林、XGBoost等)建立预测模型。
3. 模型验证:
o 使用测试集验证模型的预测准确性,计算常见评价指标(如准确率、F1-score等)。
4. 模型改进:
o 如果仅使用5个关键指标,重新进行特征选择和模型训练,比较不同模型的表现。
问题 4. 基于问题 2 中建立的洪水发生概率的预测模型,预测附件 test.csv 中所有事件发生洪水的概率,并将预测结果填入附件 submit.csv 中。然后绘制这 74多万件发生洪水的概率的直方图和折线图,分析此结果的分布是否服从正态分布。
问题 4:预测 test.csv 中洪水发生的概率
目标:
使用问题3中建立的预测模型,预测 test.csv 中所有事件的洪水发生概率,并进行结果分析。
思路:
1. 数据预处理:
o 读取 test.csv 文件,进行相同的预处理步骤(如标准化)。
2. 预测:
o 使用训练好的模型预测 test.csv 中每个事件的洪水发生概率。
3. 结果填充与可视化:
o 将预测结果填入 submit.csv 中。
o 绘制直方图和折线图,分析预测结果的分布情况,检查是否服从正态分布。
OK,上述思路的文档领取、视频讲解以及后续的完整成品论文预定请点击我的下方个人卡片查看↓: