【私信送源码+文档】基于机器学习的印度森林火灾发生概率的分析与预测
对应的ppt
摘 要
随着全球气候变化的不断加剧,火灾的频发和规模逐渐增大,成为备受关注的问题。本文旨在提高对火灾发生概率的准确性,为火灾的预防和管理提供科学支持。在绪论中,明确了研究背景和国内外研究现状,突显了火灾预测领域的重要性。系统性地梳理了传统机器学习的应用,为后续模型选择提供了理论支持。在数据集分析阶段,对数据集进行了多方面的描述,包括地理坐标、亮度、置信度等多维度参数,对文本信息进行了标签编码的预处理,为后续的数据可视化分析提供了基础。在数据可视化分析阶段,通过相关性分析和特征选择,研究优化了数据集,尤其为机器学习模型的应用提供了更好的输入。考虑到火灾概率随时间的变化,以挖掘火灾发生概率的时间属性。最终,在火灾预测模型评估中,研究采用多种模型,包括SVM、RF、和岭回归,并使用RMSE、MAE和R2等指标进行全面比较。结果表明RF模型在各项指标上均表现卓越。研究系统性地探讨了火灾预测的理论和实践问题,通过对数据集的细致分析和模型评估,为提高火灾预测准确性提供了有力支持。
关键词:火灾预测;机器学习;随机森林;支持向量机;岭回归
ABSTRACT
With the intensification of global climate change, the frequency and scale of fires are gradually increasing, which has become a matter of great concern. The purpose of this paper is to improve the accuracy of the probability of fire occurrence and provide scientific support for the prevention and management of fires. In the introduction, the research background and research status at home and abroad are clarified, and the importance of the field of fire prediction is highlighted.This paper systematically sorts out the application of traditional machine learning, and provides theoretical support for the subsequent model selection. In the dataset analysis stage, the dataset was described in many aspects, including multi-dimensional parameters such as geographic coordinates, brightness, and confidence, and the text information was preprocessed with label encoding, which provided a basis for subsequent data visualization and analysis. In the stage of data visualization and analysis, through correlation analysis and feature selection, the research optimizes the dataset, especially provides better input for the application of machine learning models. Considering the change of fire probability with time, the temporal attribute of fire occurrence probability is mined. Finally, in the evaluation of the fire prediction model, a variety of models were used, including SVM, RF, and Ridge regression, and indicators such as RMSE, MAE, and R2 were used for comprehensive comparison. The results show that the RF model performs well in all indicators. This study systematically discusses the theoretical and practical problems of fire prediction, and provides strong support for improving the accuracy of fire prediction through detailed analysis of data sets and model evaluation.
Keywords: Fire prediction; Machine learning; Random Forest; Support Vector Machine; Ridge Regression
目 录
第1章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状分析 2
1.2.1 国内研究现状 2
1.2.2 国外研究现状 2
1.3 本文研究内容 3
第2章 相关理论知识 4
2.1 岭回归 4
2.2 支持向量机 5
2.3 随机森林 5
2.4 网格搜索 6
2.5 本章小结 6
第3章 火灾预测数据集分析 7
3.1 数据准备 7
3.1.1 数据来源 7
3.1.2 数据内容说明 7
3.2 数据预处理 9
3.2.1 数据特征转换 9
3.2.2 数据缺失性分析 9
3.3 本章小结 10
第4章 数据可视化分析 11
4.1 单属性分析 11
4.1.1 火源的亮度影响分析 11
4.1.2 通道31的火焰亮度温度影响分析 12
4.1.3 辐射功率影响分析 12
4.2 火灾数据时间维度分析 13
4.3 相关性分析 14
4.4 特征选择 16
4.5 本章小结 16
第5章 构建模型对比评估 17
5.1 对比实验 17
5.2.1 岭回归 17
5.2.2 支持向量机 19
5.2.3 随机森林算法 22
5.2 对比评估 25
5.3 本章小结 27
第6章 总结与展望 28
6.1 总结 28
6.2 展望 28
参考文献 30
致谢 31
第1章 绪论
随着全球气候变化的不断加剧,火灾的频发成为备受关注的问题。本章主要概括和介绍了研究森林火灾发生概率的背景意义,以及对森林火灾发生概率国内外的研究状况。
1.1 研究背景及意义
火灾作为一种自然灾害,对人类社会和生态系统都带来了严重的影响。在这一背景下,火灾概率预测变得尤为重要。火灾对生态系统的影响引起了科学家和环保人士的广泛关注。大面积的火灾不仅导致植被破坏和土壤侵蚀,还对动植物的生存和繁衍产生负面影响。此外,火灾释放的大量烟雾和有毒气体对空气质量和气候产生影响,加剧了环境问题的复杂性。火灾对人类社会的威胁日益显现,可能导致财产损失、生命安全受到威胁,甚至可能引发人道主义危机。因此,提前了解火灾可能发生的概率,采取科学有效的预防和控制措施,对于社会的安全和稳定具有重要意义。全球气温上升导致了更频繁的极端天气事件,包括高温、干旱和风暴,这些都是火灾发生的关键条件。人类活动不仅改变了地表覆盖,还引入了更多的火灾因子。不适当的土地利用、乱倒垃圾、非法野火等都增加了火灾发生的可能性。火灾对生态系统的破坏会导致生物多样性的丧失、土壤侵蚀和水资源污染等问题。特别是一些生态脆弱地区,如森林和草原,更容易受到火灾的威胁。通过研究火灾概率,可以更好地保护生态系统,维护地球生态平衡。火灾概率预测的研究与气候变化和全球环境问题密切相关。随着地球气温升高,干旱和极端天气事件频发,火灾的发生条件变得更加有利[1]。因此,深入了解火灾概率的预测模型有助于更好地适应气候变化的挑战,制定相关政策和应对措施。这项研究不仅仅是单一领域的问题,还涉及多个学科的交叉研究。地理坐标、亮度、扫描和跟踪信息等多维数据的综合分析需要遥感技术气象学和数据科学等多学科的协同合作。这种综合性的研究将推动相关领域的科学发展,为更好地理解和应对火灾问题提供坚实的基础[2]。通过深入研究火灾概率预测模型,可以更准确地了解火险的时空分布规律,从而提高火灾的预防能力。及早预警和有效应对有助于减轻火灾带来的负面影响,保护人类生命和财产安全[3]。同时还可以为灾害管理提供科学依据,帮助政府和相关机构制定更合理、有效的灾害应对策略。研究火灾概率预测有助于更好地理解人类活动对土地利用的影响,从而支持可持续土地管理。火灾概率预测涉及大量的遥感数据、气象数据和地理信息数据的处理与分析,推动了科技创新和数据科学的发展[4]。在研究过程中涌现的新技术和方法也为其他领域提供了借鉴和应用的可能性。灾是一个全球性问题,不受国界限制。通过国际合作和信息共享,可以更好地理解全球火灾的时空分布,为全球应对火灾挑战提供更加协同的解决方案[5]。综上所述,火灾概率预测的研究背景和意义深刻地根植于对气候变化、人类活动和生态系统脆弱性的关切。通过深入研究火灾概率预测,能够更好地应对日益严峻的火灾挑战,促进社会的可持续发展和环境的持续保护。
1.2 国内外研究现状分析
本文所选择的研究对象为“印度森林火灾的发生概率”,在对印度森林火灾的发生概率探究时,为能够更好的进行研究,下面从国内外研究现状进行分析。
1.2.1 国内研究现状
当前国内火灾预测领域的研究呈现出丰富多彩的发展态势。一系列研究充分展现了学界在这一领域的关注和深入研究。高丰伟等人的研究[6]以阿尔及利亚森林火灾为例,采用Spark MLlib中的决策树算法进行预测研究,为森林火灾预测提供了具体案例。同时,高博关注吉林省森林火灾的动态及预测模型构建,为地区性火灾研究提供了实证研究。陆梓萍等人以支持向量机为工具,研究综合管廊火灾纵向温度的实时预测,强调对火灾实时性的关注。孙焱焱则基于机器学习进行林火预警和应急管理模型的研究,对综合应对火灾提供了理论支持。在算法优化方面,胡晗宇[7]涉及群智能优化算法在森林火灾预测中的应用,强调了算法改进对提高预测准确性的潜力。而诺敏的博士论文[8]研究不同时期草原防火政策对内蒙古草原火灾发生概率的影响,将政策因素引入火灾预测研究。在地质方面,李通等人[9]通过研究重庆缙云山森林火灾干扰边坡的滑坡易发期,为火灾与地质灾害的关联性提供了新的视角。而杜秋洋等人[10]的研究则探讨了森林火灾预测模型,为火灾影响因素的全面考虑提供了一种方法。新兴技术的应用方面,孟晓静等人[11]采用卷积与长短期记忆网络在火灾源强实时预测中的应用,结合深度学习技术在火灾预测中的潜力。同时,王顺函和梁霄[12]运用随机森林和XGBoost的方法对森林火灾毁坏面积进行预测,展示了机器学习在火灾研究中的广泛应用。
这些研究共同构成了国内火灾预测领域的研究现状。从不同角度、不同地域、不同数据类型和不同方法的研究中,我们可以看到对火灾预测问题的全方位思考和探索,为提高火灾预测的准确性和实用性提供了丰富的经验和理论基础。随着技术的不断发展,相信未来国内火灾预测领域将迎来更多创新和突破。
1.2.2 国外研究现状
国外在火灾预测领域的研究取得了显著的进展,涵盖了多个方面的创新和应用。Xu等人的研究[13]采用了基于地理相似性的采样方法,通过非火点数据进行空间预测,为森林火灾的空间预测提供了一种新的取样方法。这种基于地理相似性的方法在考虑地理位置的同时,也考虑了空间的相似性,为提高空间预测的准确性提供了新思路。Jagdale等人[14]提出了一种基于优化聚类和深度长短时记忆网络(Deep LSTM)的数据降维方法,用于物联网(IoT)数据的预测。这表明在火灾预测中,不仅要考虑空间信息,还需要充分挖掘数据的时间序列特征,以提高预测的精确性。在城市火灾预测方面,Oh和Jeong[15]采用了极端梯度提升(XGBoost)算法进行基于格网的城市火灾预测。这种方法不仅考虑了城市环境的复杂性,还运用了梯度提升算法来提高预测性能。针对高海拔山区的森林,Si等人[16]进行了研究,探讨了高原山地森林地区的森林火灾危险性预测。这表明在不同地理环境下,火灾预测模型需要针对性地考虑特定地区的环境特征。Penman等人[17]的研究通过基于环境数据的燃料危险估计,提高了火灾模拟的准确性。他们将环境数据融入到火险估计中,为提高火灾预测的真实性和精确性提供了新的途径。国外研究在火灾预测领域的进展主要体现在采用创新的数据采样方法、结合深度学习技术、考虑城市和特殊地理环境下的火灾预测、以及融入环境数据提高预测准确性等方面。这些研究成果为我们深入理解火灾发生机制,提高预测准确性,以及制定更精准的防灾管理策略提供了重要参考。随着技术的不断进步,相信国外研究在火灾预测领域将继续为全球火灾防控贡献更多有益的成果。
本文旨在综合国内外研究进展,通过考虑火灾时空特征、结合机器学习与深度学习技术,并充分考虑地质、环境、政策等多因素,构建更精准、全面的火灾预测模型。结合地理相似性的采样方法,优化数据预测,以期为全球火灾防控提供更可靠的科学支持。
1.3 本文研究内容
本研究深入研究了火灾预测领域,旨在提高预测准确性,从而为火灾的预防和管理提供科学支持。首先,在绪论中,介绍了研究的背景和意义,概述了国内外研究现状,并明确了本文的研究内容。其次,回顾了相关理论知识,包括岭回归、SVM、RF。这为后续的火灾预测模型奠定了理论基础。
在第三章中,对火灾预测数据集进行了介绍和分析,包括数据集的来源、内容以及关键特征,同时对数据进行预处理。第四章聚焦于火灾预测数据集的属性可视化分析,通过相关性分析和特征选择优化了数据集,为模型的建立提供了更有针对性的输入。通过对概率数据的分析,揭示了某一天内火灾概率与时间的关系可能受到多种因素的影响。接着,第五章引入了模型评价指标,并进行了对比实验。
本研究系统性地解决了火灾预测的理论和实践问题,深入分析了火灾概率与时间的关系,并通过属性可视化分析和模型对比实验提高了预测准确性。研究为火灾防控提供了更为可靠的科学支持。未来研究方向可包括进一步优化模型结构、考虑更多气象因素、拓展到其他地区的数据验证等,以进一步提升火灾预测模型的实用性和普适性。
第2章 相关理论知识
随着火灾问题的凸显,早期研究主要采用传统的线性回归方法。这一时期,研究者主要关注火灾发生地点的地理坐标、亮度等参数,并通过线性回归建模来预测火灾概率。然而,这些模型在处理复杂的非线性关系和高维度数据上存在一定的局限性。近期机器学习崭露头角,随着机器学习技术的发展,研究者开始采用更为复杂的方法,如支持向量机、随机森林等,以更好地捕捉数据中的非线性关系。这一时期,对火灾相关参数的大规模数据集进行训练,机器学习模型逐渐展现出在火灾概率预测中的优势,提高了模型的预测准确性。近几年深度学习的崛起,深度学习技术的崛起为火灾预测带来了新的可能性。神经网络等深度学习模型通过多层次的特征学习,能够更好地处理高维度数据,发现数据中的复杂关系。这使得深度学习在火灾预测领域取得显著的成就,为提高模型的适应性和灵活性提供了新的思路。当前,火灾预测逐渐朝着考虑时空因素的方向发展。研究者越来越关注地理坐标、时间等多维度数据的时空关联性,以建立更准确的火灾概率预测模型。这一趋势为实现更为精准的地方性火灾预测提供了新的机遇。随着技术不断进步,未来回归模型在火灾预测中将更加强调实时监测和应急响应。建立更灵活、高效的模型,使其能够迅速适应不断变化的环境,为紧急情况提供及时的预警和决策支持,有望在火灾防范和管理中发挥更为关键的作用。
2.1 岭回归
岭回归(Ridge Regression)是用于处理多重共线性数据的线性回归技术,是一种改良的线性回归算法,是一种专用于共线性数据分析的有偏估计的回归方法,实质上是一种改良的 最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得 回归系数 更为符合实际、更可靠的回归方法,对病态数据的拟合要强于 最小二乘法 。岭回归的关键思想是在最小二乘目标函数中添加一个L2正则化项,该项对回归系数进行惩罚。这个正则化项是通过对回归系数的平方和进行惩罚,乘以一个调节参数alpha。当alpha为0时,岭回归等效于普通最小二乘回归;而当alpha趋近于无穷大时,回归系数趋近于0。因此,岭回归通过控制alpha的取值,平衡了回归系数的拟合能力和稳定性。
岭回归算法的优点是可以有效地处理多重共线性问题,提高模型的稳定性和泛化能力。然而,岭回归的参数λ需要事先设定,选择合适的λ值对模型的性能影响较大,需要通过交叉验证等方法进行选择。
2.2 支持向量机
支持向量机(Support Vector Machine,SVM)是一种强大的机器学习算法,广泛应用于分类和回归问题。其独特之处在于通过在特征空间中找到最优的超平面,能够有效地进行高维空间中的分类任务。
SVM的主要目标是找到一个超平面,它能够在特征空间中将不同类别的数据分隔开。SVM不仅仅寻找一个能够分类数据的超平面,还追求找到具有最大间隔(Margin)的超平面。间隔是指两个不同类别的样本点到超平面的最短距离。SVM希望最大化这个间隔,以提高分类的鲁棒性。支持向量是距离超平面最近的数据点。这些数据点对于定义超平面和间隔至关重要。SVM的优化目标是最大化支持向量到超平面的距离,从而找到最优的分类边界。当数据不是线性可分时,SVM引入了核函数的概念。核函数可以将原始特征映射到高维空间,使得在高维空间中存在一个线性超平面能够成功分类。常用的核函数包括线性核、多项式核和径向基函数(RBF)核。SVM的训练过程可以形式化为一个凸优化问题。通过最小化损失函数,同时最大化间隔,得到一个关于超平面参数的优化问题。这个问题可以通过拉格朗日乘子法求解。SVM还有一个对偶问题,通过拉格朗日对偶性将原始问题转化为对偶问题。对偶问题的解可以更容易地计算,尤其在高维空间中。SVM引入了松弛变量(Slack Variables),允许一些样本点位于错误的一侧。这样做的目的是使算法对噪声和异常值更加鲁棒。引入松弛变量后,SVM的优化问题变为软间隔支持向量机。
SVM广泛应用于文本分类、图像识别、生物信息学、金融领域等。由于其在高维空间中的强大性能和泛化能力,SVM成为了机器学习中的瑞士军刀。在高维空间中表现优秀,适用于高维数据;能够处理非线性关系,通过核函数引入非线性映射;对于支持向量以外的样本点不敏感,对噪声和异常值有较强的鲁棒性。对大规模数据集的训练较为耗时,对于特征数远大于样本数的情况,表现可能不如其他算法。
2.3 随机森林
随机森林(Random Forest)是一种集成学习(Ensemble Learning)方法,它由多个决策树构成。它属于一类称为“Bagging”(自助聚合)的算法,通过对训练集进行有放回的抽样,构建多个决策树并进行组合,以提高预测准确性和鲁棒性。随机森林的关键思想是通过随机特征选择和随机样本选择来构建大量的决策树,并通过投票或平均等方式进行预测。下面是随机森林的主要特点和工作原理:
1)特征选择的随机性:在构建每个决策树的过程中,随机森林会随机选择一部分特征子集,而不是使用所有特征。这样可以减少特征之间的相关性和复杂性,增加决策树的多样性。
2)样本选择的随机性:从训练集中有放回地抽取样本,用于构建每个决策树。这样可以使得每个决策树的数据集略有差异,增加了多样性。
3)多个决策树的组合:随机森林将每个决策树的预测结果进行组合,通过投票(分类问题)或平均(回归问题)等方式得到最终的预测结果。
2.4 网格搜索
网格搜索是一种通过穷举搜索给定的参数空间来寻找最优参数组合的方法。首先需要定义要搜索的参数空间,即每个参数可以取的候选值。这些参数可以是模型的超参数(例如决策树的最大深度、最小样本拆分数等),也可以是模型的内部参数(例如正则化系数、学习率等)。
网格搜索会对参数空间中的每一种参数组合进行穷举搜索。对于每一组参数,都会使用交叉验证来评估模型的性能。通常使用的评价指标包括准确率、均方误差等。网格搜索会根据指定的评价指标(如准确率最大化或者均方误差最小化)来选择最优的参数组合。一般来说,网格搜索会选择使评价指标达到最优的参数组合。格搜索结束后,会返回一个使用最优参数组合训练得到的模型。这个模型就是在给定参数空间下性能最好的模型。
2.5 本章小结
本章综述了火灾问题研究的发展历程和不同阶段所采用的预测方法。早期主要采用岭回归方法,关注地理坐标和亮度等参数,但存在对非线性关系和高维数据的局限性。随着机器学习技术的崭露头角,研究者转向更复杂的方法,如SVM、RF等,以更好地捕捉数据中的非线性关系。神经网络等模型能够处理高维数据,取得显著成就。火灾预测领域正朝着更精准和全面的方向发展,不断整合先进的技术手段以提高预测准确性。
第3章 火灾预测数据集分析
本章 主要描述了印度森林火灾数据集的来源和内容,并介绍了数据的预处理过程,其中包括缺失值检测以及标签信息转换,为后续建模提供基础。
3.1 数据准备
在对数据进行分析的时候,必须要满足的一个条件就是对数据加以深入了解,本章主要对数剧来源展开介绍,对数剧进行描述,并且介绍对数剧的处理过程。
3.1.1 数据来源
数据集是通过NASA的资源管理系统火灾信息(FIRMS)卫星数据以及MODIS(中分辨率成像光谱仪)仪器对于2021年印度森林野火案例的记录而来。FIRMS系统是一个专注于监测全球火灾活动的工具,而MODIS则是NASA旗下的卫星仪器,能够提供高质量的地球观测数据。
图3-1 数据实例
3.1.2 数据内容说明
数据集中包含了丰富的信息,如火灾发生地点的地理坐标(latitude、longitude),火源的亮度(brightness)以及对火灾发生的预测置信度(confidence)等多维度参数。这些数据来自卫星对地球表面进行实时监测,能够提供高时空分辨率的信息,为火灾概率预测提供了重要的基础。数据集聚焦于2021年印度的森林野火,这是一个在全球引起广泛关注的灾害事件。通过对这次火灾的详细记录,研究者可以深入分析火灾的时空分布、强度和影响因素,从而更好地理解火灾发生的机制和规律。这份数据集的来源具有权威性和可靠性,得益于NASA的先进技术和设备。研究者可以基于这一数据集展开火灾概率预测的研究,以期提高对未来火灾发生概率的准确性,并为火灾的防范、管理和应对提供科学支持。
表3-1 数据字段及含义
3.2 数据预处理
数据预处理是指刚获取的数据进行分析之前所要做的准备工作,例如审计、筛选、排序等。数据的预处理方法有很多,包括数据清洗、数据合并、数据转换等。所谓数据整理,就是调整不正确的数据格式,满足对应的数据标准,除去重复数据和异常数据进行修正。
3.2.1 数据特征转换
在数据预处理过程中,着重处理包含文本信息的特征,其中包括‘satellite’、‘instrument’、‘daynight’。这些特征包含了关于卫星、仪器和昼夜信息的文字描述,为了更好地应用于机器学习模型,采用了标签编码的方法进行转换。标签编码是一种将类别型数据映射为整数标签的方法,它为每个类别分配一个唯一的整数值。在数据中,例如,对‘satellite’征进行标签编码后,每个卫星类型将被映射为一个整数,将Terra卫星转换为1,将Aqua卫星转换为2。同时,对‘daynight’征进行标签编码,将特征白天转换为1,N黑夜转换为0,其中‘instrument’特征列的内容均为“MODIS”为单一值,对‘instrument’特征列进行删除,同时‘version’特征列的内容均为“6.03”为单一值,对‘version’特征列进行删除,‘acq_data’特征列为日期信息,数据相关性比较小,进行删除。
这样的预处理使得模型能够更好地理解和利用这些特征信息,为后续的模型建立奠定了基础。通过将文本信息转化为数字标签,使得模型能够更好地处理和学习特征之间的关系,提高了模型的性能和泛化能力。这是数据科学中常用的一项重要预处理步骤,有助于将各种类型的特征统一到机器学习模型中。
表3-2 特征转换
3.2.2 数据缺失性分析
数据集中的缺失值分析是进行特征工程的关键步骤之一。通过统计每个特征中缺失值的数量和比例,能够了解数据质量的状况。使用missingno库中的matrix函数来绘制缺失值的矩阵图。这个图形能够直观地显示数据集中每个特征的缺失情况。绘制曲线如图3-2所示。
图3-2 数据缺失性分析
如图3-2所示,可以看出,数据集质量较高,无数据缺失值,能够直接进行对数据集的使用。
3.3 本章小结
本章详细介绍了基于NASA FIRMS和MODIS数据的卫星监测的2021年印度森林野火案例数据集。数据集包含多维度参数,如地理坐标、火源亮度、预测置信度等,为火灾概率预测提供了关键信息。分析表明,某一天内火灾概率随时间变化,白天高、夜晚低。展示了5天内火灾概率的变化趋势,并进行了数据预处理,标签编码提高了特征处理效果。这一章节为后续火灾概率预测模型的建立和实验奠定了基础,能够深入理解火灾。
第4章 数据可视化分析
影响森林火灾发生概率的因素有很多,本章将对影响火灾概率的因素进行分析,通过图片可以直观的看出各因素对火灾发生概率的影响,从而为分析预测火灾发生概率提供保障。
4.1 单属性分析
通过对数据集中相关属性与火灾发生概率进行分析,从而对数据集进行相关性分析。
4.1.1 火源的亮度影响分析
火源的亮度指的是火灾或火焰的明亮程度或强度。火源的亮度通常是指火焰发出的光的强度或明亮程度,可以通过观察火焰的发光程度来判断火灾的规模和强度。较高的亮度通常表示火焰更加明亮和强烈,可能代表火势较大或火灾的严重程度较高。对火源亮度影响进行分析,可以看出不同火源亮度下的火灾概率。
图4-1 原始数据火源的亮度与火灾概率的关系
如图4-1所示,显示了火源的亮度与火灾概率之间的关系。可以观察到,随着火源的亮度增加,火灾概率也呈现出增加的趋势。这种正相关关系表明火源的亮度可以作为预测火灾概率的重要指标之一。火源的亮度通常与火的大小和燃烧强度相关联,因此,较高的亮度可能表示火势较大或火灾的严重程度较高,从而增加了火灾概率。
4.1.2 通道31的火焰亮度温度影响分析
通道31的火焰亮度温度是指使用卫星或其他遥感技术,通过检测地面或大气中的红外辐射来估算火焰的温度。通道31通常是指红外通道中的一个特定频段或波段,用于检测地面或大气中的热辐射。通过对通道31的红外辐射进行分析和处理,可以估算出火焰的温度,即火焰亮度温度。火焰亮度温度是火焰燃烧过程中释放的热量的一种指示,通常用来评估火灾的热量强度和燃烧程度。较高的火焰亮度温度通常表示火焰更加强烈和炽热,可能对应着更大规模的火灾或更高的火灾危险性。对通道 31 的火焰亮度温度影响进行分析,可以看出不同通道 31 的火焰亮度温度下的火灾概率。
图4-2 通道31的火焰亮度温度与火灾概率的关系
如图4-2所示,显示了通道31的火焰亮度温度与火灾概率之间的关系。可以观察到,火焰亮度温度与火灾概率之间存在一定的相关性。随着通道31的火焰亮度温度的增加,火灾概率呈现出增加的趋势。这种关系可能源于通道31的火焰亮度温度反映了火焰的热量强度和燃烧程度,较高的温度通常对应着更强烈的火焰和更高的火灾危险性。
4.1.3 辐射功率影响分析
辐射功率是指单位时间内从物体表面或物体内部发出的电磁辐射的总能量。在火灾监测中,辐射功率通常用于描述火焰释放的能量或热量。火焰作为一个高温物体,会发出红外辐射,这种辐射可以通过红外传感器或卫星传感器进行检测和测量。辐射功率的大小与火焰的大小、强度和热量密切相关。较大的辐射功率通常意味着火焰更加强烈和炽热,释放的能量也更高。对辐射功率影响进行分析,可以看出不同辐射功率下的火灾概率。
图4-3 辐射功率与火灾概率的关系
如图4-3所示,显示了辐射功率与火灾概率之间的关系。可以观察到,辐射功率与火灾概率之间存在一定的相关性。随着辐射功率的增加,火灾概率呈现出增加的趋势。辐射功率是指火焰释放的辐射能量,通常与火焰的大小、强度和热量密切相关。较高的辐射功率通常表示火焰更加强烈和炽热,可能对应着更严重的火灾或更高的火灾危险性。因此,辐射功率可以作为评估火灾规模和烈度。
4.2 火灾数据时间维度分析
某一天内火灾概率随时间的变化可能受到多种因素的影响,主要受到以下因素的影响:
1)度和湿度:白天温度升高,湿度降低,这可能导致植被更易燃,增加了火灾的风险。相比之下,夜晚温度下降,湿度上升,火灾概率可能相对降低。
2)风速:白天通常风速较大,强风可能助长火灾的蔓延。夜晚风速一般较小,可能降低火灾发生的概率。
3)人类活动:白天人们的活动较为频繁,可能包括一些潜在的火源,如焚烧垃圾、野外烧烤等,增加了火灾的可能性。夜晚人类活动减少,火源减少,火灾概率相对减小。
4)日照强度:白天阳光直射可能导致干旱和植被更易燃,因此白天火灾概率可能较高。夜晚日照较弱,可能有利于湿度上升,减小了火灾的概率。
5)植被状态:不同时间段内植被的湿润程度和可燃性可能变化,进而影响火灾的易发性。白天植被可能较为干燥,夜晚可能恢复湿润。在这些因素的交互影响下,一天内火灾概率可能呈现出复杂的变化模式。这种时段性的变化需要在火灾概率预测模型中得到充分考虑。利用历史数据、气象信息以及地理因素等综合信息,建立模型来预测火灾概率随时间的变化趋势,可以有效地进行火灾的预防和管理。分析数据集某5天内的火灾概率。
图4-4 5天的火灾概率示意图
如图4-4所示,通过分析某5天内的火灾概率与时间的关系,可以观察到明显的变化模式。在白天,尤其是午后,火灾概率较高。这是因为白天温度升高、湿度降低,植被更易燃,同时人类活动频繁,增加了火灾的可能性。相比之下,夜晚火灾概率明显减小,温度下降、湿度上升,加上人类活动减少,火源减少,火灾发生的可能性相对较低。但是每天的火灾概率存在波动,受到天气条件、风速、日照强度以及植被状态等多个因素的综合影响。这种时段性的变化趋势需要结合多方面的数据进行分析,以更准确地理解火灾概率的时空分布规律。
火灾概率与时间的关系呈现出明显的日间高、夜间低的特征。这种模式有助于制定相应的预防和管理策略,如在白天加强监测、加大巡逻力度,以及提高公众对火灾风险的警觉性。同时,夜间可采取一些预防措施,如加强灯光照明、巡逻防范,以减少人为因素引发的火灾。
4.3 相关性分析
相关性分析是一种用于衡量两个或多个变量之间关系的统计方法。其基本原理是通过计算相关系数来量化变量之间的线性关系强度和方向。常用的相关系数有皮尔逊相关系数、斯皮尔曼秩相关系数等。皮尔逊相关系数用于衡量两个连续变量之间的线性关系。取值范围从-1到1,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。斯皮尔曼秩相关系数:用于衡量变量之间的单调关系,不要求数据服从正态分布。它通过将原始数据转换为秩次来计算。
本文采取皮尔逊相关系数分析。经过相关性分析后,需要将结果进行可视化,以便进一步的分析。热力图是一种通过颜色变化来表示数据矩阵中各元素数值的图形展示方式。热力图使用颜色映射来表示数据的大小或强度。通常较高数值用深色表示,较低数值用浅色表示。这种颜色映射能够直观地展示数据的分布情况。热力图的对角线上的元素通常是自相关系数,即变量与自身的相关性。这些元素通常为最深色,因为每个变量与自身的相关性是完美的。
通过相关性分析可以了解到变量之间是正相关、负相关还是无关。相关性较高的特征可能包含冗余信息,可以选择其中一个进行建模。同时相关性分析有助于提高模型的解释性。了解变量之间的关系可以更好地理解模型的预测结果,为决策提供更多依据。
图4-5 相关性分析结果
如图4-5所示,通过对相关性系数矩阵的分析,可以得到对火灾预测数据集中特征之间关系的深入理解。亮度与扫描时间之间存在较强的负相关性(约为-0.34)。这种关系可能是由于在光照较强的地区,火灾的检测更可能通过其他手段,而不是卫星扫描。经度和纬度与火灾发生概率之间呈现出负相关性。这意味着在某些地理位置上发生的火灾,其置信度较低。亮度与火灾发生概率之间存在一定的正相关性。这表明在较亮的区域,火灾的置信度相对较高。通过对比相关性系数矩阵中与火灾发生概率相关性最强的几个特征,如亮度、扫描轨迹和经度纬度,可以初步确定在构建火灾预测模型时可能具有重要影响的特征,为下一步建模工作提供了指导。通过更深入地挖掘这些关系,可以更好地理解火灾发生的机制,从而提高模型的准确性和预测能力。
4.4 特征选择
通过计算特征之间或特征与目标变量之间的相关系数,选择相关性较高的特征。可以避免多重共线性,提高模型的鲁棒性。地理坐标(latitude和longitude)可以提供火灾发生的具体位置信息。在火灾预测中,特别是在区域性的预测中,地理坐标可能是非常重要的特征,因为火灾的发生通常与地理位置有关。 亮度反映了火源的强度,是一个可能非常关键的特征。较高的亮度可能表示更强烈的火灾,对火灾预测产生积极影响。卫星扫描轨迹(scan和track)卫星扫描轨迹提供了卫星在观测过程中的移动路径信息。这对于确定卫星监测的区域和频率可能很关键,因此可能对火灾的监测精度有影响。火灾的发生可能受到季节、时间等因素的影响。因此,观测日期和时间可能是预测火灾发生的重要特征。不同卫星可能具有不同的性能和监测能力,因此这些信息可能对火灾预测的准确性有影响。亮度温度(bright_t31):亮度温度可能提供关于火源温度的信息,对于分析火源的性质可能很重要。最终选取11个输入变量。分别为‘latitude’,‘longitude’,‘brightness’,‘scan’,‘track’,‘acq_time’,‘satellite’,‘daynight’,‘bright_t31’,‘frp’,‘type’。
4.5 本章小结
在本章中,进行了火灾预测数据集的相关性分析和特征选择。通过皮尔逊相关系数分析,深入了解了各个特征之间的关系。亮度与扫描轨迹之间存在较强的负相关性,经度和纬度与火灾发生概率呈负相关性,而亮度与火灾发生概率之间存在一定的正相关性。这些发现为理解火灾发生机制提供了重要线索。在特征选择方面,考虑了各个特征与目标变量的相关性,选择了11个输入变量,包括地理坐标、亮度、扫描轨迹、观测时间、卫星信息、亮度温度等。这些特征被认为对火灾预测具有重要影响。
第5章 构建模型对比评估
通过上章节对影响森林火灾发生的因素进行分析,得到了影响火灾发生概率变化的原因。本章节将通过岭回归模型、SVM模型、RF模型分别对房价进行预测。并计算出相应模型评价指标,最后通过对比得出哪个模型对火灾预测有较好的效果。
5.1 对比实验
在进行火灾预测实验时,采用7:3的数据划分比例,将整个数据集划分为训练集和测试集。70%的数据用于训练模型,而30%的数据用于评估模型的性能。这种划分比例旨在充分利用数据进行模型训练,同时确保有足够的独立数据用于评估模型在未见过的情况下的泛化能力。通过这样的数据划分策略,能够更全面地评估模型对新数据的预测能力,并提高实验结果的可信度。在训练集上模型通过学习历史趋势和规律,而在测试集上进行评估则能够更好地模拟模型在实际应用中的性能。这种数据划分方法有助于确保模型对于不同地点的火灾预测都能够具备较好的预测准确性和泛化性,为实验结果的可靠性提供了基础。
训练集与测试集的划分:
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.3, random_state=seed)
5.2.1 岭回归
岭回归(Ridge Regression)是用于处理多重共线性数据的线性回归技术。它通过对系数的大小施加惩罚来解决普通最小二乘法的一些问题。使用Ridge类创建一个岭回归模型对象。使用训练集对岭回归模型进行训练,即调用模型对象的fit方法,传入训练集的特征数据和目标数据。
使用sklearn库中的Ridge函数构建岭回归模型,关键代码如下:
from sklearn.linear_model import Ridge
#实例化岭回归模型,alpha 是正则化项的系数
alpha = 1 # 可以根据需求调整 alpha 的值
model = Ridge(alpha=alpha
model.fit(X_train, y_train) # 拟合岭回归模型
y_pred = model.predict(X_test) # 进行预测
绘制岭回归模型预测曲线,结果如图5-1所示。
图5-1 岭回归火灾预测概率
如图5-1所示,展示了岭回归模型在随机100个样本上的真实值与预测值的对比情况。从图中可以看出,岭回归模型的预测值与真实值的拟合效果一般。
图5-2 岭回归火灾预测概率误差
通过图5-2岭回归模型预测概率误差曲线也可以看出误差值较大,可以看出对于印度森林火灾预测,岭回归算法有着比较低的准确度。
5.2.2 支持向量机
支持向量机(SVM)是一种强大的监督学习算法,适用于分类和回归分析。使用SVR类创建一个支持向量机回归模型对象。使用训练集对支持向量机回归模型进行训练,即调用模型对象的fit方法,传入训练集的特征数据和目标数据。
使用sklearn库中的SVR函数构建支持向量机模型,关键代码如下:
from sklearn.svm import SVR
#构建支持向量机模型
model = SVR(kernel=‘rbf’)
#拟合模型
model.fit(X_train, y_train)
图5-3 SVM火灾预测概率
从图5-3可以看出,SVM预测火灾概率的结果与真实值相差较大,拟合度不高,还需要对算法模型进行优化调整。
图5-4 SVM火灾预测概率误差
从图可以看出,SVM预测效果较差,需要对其参数进行调优。因此采用网格搜索方法调优。关键代码如下:
#定义要搜索的参数空间
param_grid = {
‘C’: [0.1, 1, 10], # 正则化参数
‘gamma’: [0.01, 0.1, 1], # RBF核的带宽参数
‘epsi2lon’: [0.1, 0.2, 0.5] # SVR的容差参数
}
#使用GridSearchCV进行参数搜索
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring=‘neg_mean_squared_error’)
grid_search.fit(X_train, y_train)
#输出最佳参数
print(“最佳参数:”,grid_search.best_params_)
#使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_
选择了RBF核作为支持向量机模型的核函数,因其在处理非线性问题时具有较好的表现。然后,通过定义参数空间,包括正则化参数C、RBF核的带宽参数gamma以及SVR的容差参数epsilon,以便使用GridSearchCV进行参数搜索。GridSearchCV通过交叉验证的方式(cv=5)来评估模型的性能,并以均方误差作为评价指标。在训练过程中,通过对参数空间的遍历,找到了最佳参数组合,使模型在训练集上达到最佳性能。最后,输出了找到的最佳参数组合,并使用最佳参数的模型对训练集进行预测,以提高模型的准确性和泛化能力。输出的最佳参数为:{‘C’:10,‘epsilon’:0.1,‘gamma’:1}。
绘制网格搜索调参后支持向量机模型预测曲线:
图5-5 调参后SVM火灾预测概率
如图5-5所示,展示了调参后SVM模型的预测效果。可以观察到模型对训练数据的拟合情况。以及实际数值与模型预测值之间的差异。从图中可以看出,支持向量机模型的预测值与真实值存在着比较小的波动,有较好的拟合效果。
图5-6 调参后 SVM火灾预测概率误差
通过图5-6展示了调参后SVM模型的预测误差。用于描述模型在测试集上的预测误差分布情况,以便评估模型的稳健性和准确性。
表5-1 SVM参数优化前后指标统计
5.2.3 随机森林算法
随机森林(RandomForestRegressor)是一种集成学习方法,通过构建多个决策树来提高预测准确性。使用RandomForestRegressor类创建一个随机森林回归模型对象。使用训练集对随机森林回归模型进行训练,即调用模型对象的fit方法,传入训练集的特征数据和目标数据。
使用sklearn库中的RandomForestRegressor函数构建随机森林模型,关键代码如下:
from sklearn.ensemble import RandomForestRegressor
构建随机森林模型
model = RandomForestRegressor(n_estimators=10, random_state=seed)
拟合模型
model.fit(X_train, y_train)
图5-7 随机森林火灾预测概率
从图5-7可以看出,RF预测火灾概率的结果与真实值拟合不稳定,整体拟合度不高,还需要对算法模型进行优化调整。
图5-8 随机森林火灾预测概率误差
从图可以看出,RF预测效果拟合度不高,需要对其参数进行调优。因此采用网格搜索方法调优。关键代码如下:
#构建随机森林模型
model = RandomForestRegressor(n_estimators=100, random_state=seed)
#定义要搜索的参数空间
param_grid = {
‘max_depth’: [1, 10, 20], # 决策树最大深度
‘min_samples_split’: [2, 5, 10], #决策树分裂节点所需的最小样本数
‘min_samples_leaf’: [1, 2, 4] # 决策树叶节点所需的最小样本数
}
#使用GridSearchCV进行参数搜索
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring=‘neg_mean_squared_error’)
grid_search.fit(X_train, y_train)
#输出最佳参数
print(“最佳参数:”,grid_search.best_params_)
#使用最佳参数的模型进行预测
best_model = grid_search.best_estimator_
建立随机森林回归模型,包括100棵决策树,并设置随机种子以确保结果的可复现性。然后,定义要搜索的参数空间,包括决策树的最大深度、分裂节点所需的最小样本数以及叶节点所需的最小样本数。接着,通过网格搜索对这些参数进行了搜索,并通过交叉验证来评估模型的性能,以均方误差作为评价指标。在训练过程中,找到了最佳参数组合,使得模型的性能达到最佳状态。最后,输出了找到的最佳参数组合,并使用最佳参数的模型进行了预测,以提高模型的准确性和泛化能力。得到最佳参数后输出可以得到:{‘max_depth’:20,‘min_samples_leaf,:4‘min_samples_split’:2}。
绘制网格搜索调参后随机森林模型预测曲线:
图5-9 调参后随机森林火灾预测概率
如图5-5所示,展示了随机森林模型在前100个样本上的真实值与预测值的对比情况。通过比较可以看出,调参后随机森林模型的预测值与真实值拟合程度有所提升。
图5-10 调参后随机森林火灾预测概率误差
通过图5-6随机森林火灾预测概率误差曲线也可以看出误差值缩小,可以看出对于印度森林火灾预测,调参后的随机森林算法准确度有所提升。
5.2 对比评估
通过绘制对不同模型火灾概率曲线,对不同模型的准确情况进行对比,通过比较得出最接近真实值的模型。如图5-11所示。
图5-11 预测集效果
通过图5-11对每个模型的预测集效果与真实值的比较,可以看出调参后的随机森林与真实值比较接近,相比较,岭回归与真实值的拟合程度较差。
图5-12 预测集误差
通过图5-12不同模型的预测误差曲线,可以看出,岭回归与真实值存在差距最大,调参后的随机森林算法误差较小,与真实值拟合程度相比较高,接下来需要对火灾概率预测模型进行深入的比较。
采用均方根误差(RMSE)、平均绝对误差(MAE)和R2(R-squared)。RMSE衡量模型预测值与实际观测值之间的差异,其计算公式为平方根下所有观测值预测误差的平方和的均值。RMSE值越小表示模型预测越准确。
MAE衡量模型预测值与实际观测值之间的绝对差异,其计算公式为所有观测值预测误差的绝对值的均值。MAE值越小表示模型预测越准确。
R2的值越接近1,说明模型对数据的拟合越好,解释变量对目标变量的方差解释程度较高。相反,R2值接近0表示模型的拟合效果较差。
其中n是观测值的数量。是实际观测值。是模型预测值,是平均值。
在火灾概率预测模型的深入比较中,各个模型的性能指标提供了对其在实际应用中的优劣势的深刻洞察。使用了3种不同的模型进行分析:SVM、RF以及岭回归,并通过三个关键的评估指标:均方根误差(RMSE)、平均绝对误差(MAE)和R平方(R2)来评价它们的性能 。
由表5-3可知,在火灾概率预测模型的深入比较中,RF模型在未进行参数优化时,其RMSE为10.34,MAE为6.68,R2为0.63,表现相对较好。通过网格搜索进行参数优化后,RF的RMSE降至10.14,MAE降至6.52,R2提升至0.65,显示出参数调优对提高模型性能的有效性。相比之下,SVM模型在未经优化的状态下性能略逊于RF,而经过网格搜索优化后,虽然性能有所提升,但仍未能达到RF优化后的水平。岭回归模型在三个评估指标上均表现最差,显示出其对于火灾概率预测任务可能不是最佳选择。综上所述,随机森林模型在火灾概率预测中显示出较好的性能,并且通过参数优化可以进一步提升其预测精度。
5.3 本章小结
综合比较了SVM、RF以及岭回归等3种火灾概率预测模型,以RMSE、MAE和R2为评价指标。结果显示,RF模型在非线性方面表现卓越,具有较高的准确性和解释能力。岭回归模型紧随其后,表现出良好的拟合能力。相比之下,SVM模型在处理复杂非线性关系上相对较弱,需要调整参数。综合考虑模型性能和实际应用需求,选择合适的预测模型至关重要。RF模型的优越性表明在火灾概率预测领域,尤其是涉及时序关系的场景中,机器学习模型具备显著优势。
第6章 总结与展望
本章对文章进行总结,对分析结果进行说明,同时对未来发展方向进行展望,帮助后续相关研究者学习和提供参考。
6.1 总结
本研究在火灾预测领域进行了深入研究,旨在提高对火灾发生概率的准确性,为火灾的预防和管理提供科学支持。通过对传统机器学习方法的理论知识探讨,以及对火灾预测数据集的详尽分析,为构建有效的火灾预测模型奠定了基础。
首先,在绪论中明确了研究背景、国内外研究现状和本文研究内容,突显了火灾预测领域的重要性和研究的创新点。接着,通过相关理论知识的介绍,系统性地梳理了传统机器学习的应用,为后续模型选择提供了理论支持。
其次在数据集分析阶段,详细介绍了通过NASA的资源管理系统火灾信息(FIRMS)卫星数据和MODIS仪器获得的数据集,强调了数据的高时空分辨率和可靠性。对数据集进行了多方面的描述,包括地理坐标、亮度、置信度等多维度参数,为后续的特征工程提供了基础。数据集分析阶段通过相关性分析和特征选择,优化了数据集,提高了模型的训练效果。其中,对文本信息进行了标签编码的预处理,为机器学习模型的应用提供了更好的输入。
最后在火灾预测模型评估中,采用了多种模型,包括SVM、RF以及岭回归,并使用RMSE、MAE和R2等指标进行全面比较。结果表明RF模型在各项指标上均表现卓越,尤其在非线性方面具有显著优势。本研究系统性地探讨了火灾预测的理论和实践问题,通过对数据集的细致分析和模型评估,为提高火灾预测准确性提供了有力支持。
6.2 展望
本文主要采用支持向量机、岭回归和随机森林算法对火灾发生概率进行预测,经过分析评价,得出在火灾预测方面,随机森林算法的表现更加优秀。参照于现有工作量,研究仍存在一些局限性和未来可深入探讨的方向。
首先,对于火灾预测,时空关系是一个关键因素。未来研究可探索更先进的时空建模方法,以更准确地捕捉火灾概率随时间和地点的变化规律。
其次,在现代生活过程中,伴随着全球气候变暖,森林火灾的预测问题的建模正朝着组合更多特征信息的深层网络方向前进。未来可以在特征信息中加入更多辅助信息对火灾发生进行预测,考虑到火灾受多种因素影响,未来研究可以探索融合更多源数据(如气象、地形等)的方法,以提高模型的全面性和鲁棒性。
最后,在实际应用中,模型的可解释性和对不确定性的处理至关重要。未来研究可致力于开发更可解释的模型,并深入研究火灾预测结果的不确定性。
综上所述,未来研究方向应着眼于提高火灾预测的精度和实用性,结合新技术和跨学科的方法,为火灾防控工作提供更有力的科学支持。
参考文献
[1]曾彦夫,李逸舟,黄鑫炎.应用深度学习模型预测复杂平面房间内的火灾温度场[J].消防科学与技术,2024,43(01):51-55+64.
[2]曹丽丽,刘向宇,陈响等.吉林省延边地区森林火灾发生概率预测模型[J].东北林业大学学报,2024,52(03):90-96.DOI:10.13759/j.cnki.dlxb.2024.03.010.
[3]鲁义,周钦云,邵淑珍等.气候因子对我国森林火灾的影响及预测[J/OL].中国安全科学学报,1-7[2024-01-19]https://doi.org/10.16265/j.cnki.issn1003-3033.2023.12.1736.
[4]汪祖民,王恺锋,李艳志等.基于LightGBM和SHAP的云南省森林火灾预测研究[J].消防科学与技术,2023,42(11):1567-1571.
[5]曹希超,胡卸文,金涛等.玉溪市2023年“4.11”森林火灾火烧迹地坡面侵蚀及火后泥石流动储量预测[J/OL].工程地质学报,1-11[2024-01-19]https://doi.org/10.13544/j.cnki.jeg.2023-0241.
[6]高丰伟,田睿,周浩等.基于Spark MLlib中决策树算法对阿尔及利亚森林火灾的预测研究[J].四川林业科技,2023,44(05):24-31.
[7]胡晗宇.群智能优化算法改进以及其在森林火灾预测中的应用[D].防灾科技学院,2023.DOI:10.27899/d.cnki.gfzkj.2023.000078.
[8]诺敏.不同时期草原防火政策对内蒙古草原火灾发生概率与驱动因素的影响[D].内蒙古农业大学,2023.DOI:10.27229/d.cnki.gnmnu.2023.000762.
[9]李通,王云琦,祁子寒等.重庆缙云山森林火灾干扰边坡的滑坡易发期预测[J].农业工程学报,2023,39(09):131-141.
[10]杜秋洋,张国琛,宋博等.森林火灾预测模型研究[J].亚热带资源与环境学报,2023,18(01):87-93.DOI:10.19687/j.cnki.1673-7105.2023.01.012.
[11]孟晓静,陈佳静.卷积与长短期记忆网络在火灾源强实时预测中的应用[J].安全与环境学报,2024,24(01):152-158.DOI:10.13637/j.issn.1009-6094.2022.2429.
[12]王顺函,梁霄.基于随机森林和XGBoost的森林火灾毁坏面积预测[J].信息与电脑(理论版),2022,34(24):5-8.
[13]Xu Q, Li W, Liu J, et al. A geographical similarity-based sampling method of non-fire point data for spatial prediction of forest fires[J]. 2023, 10(2): 195-214.
[14]Jagdale B, Sugave S R, Kulkarni Y R .Optimal cluster-based topology and Deep LSTM-based prediction method for data reduction in IoT[J].Journal of Uncertain Systems, 2023.DOI:10.1142/s1752890923500046.
[15]Oh H Y, Jeong M H.Grid-based Urban Fire Prediction Using Extreme Gradient Boosting (XGBoost)[J]. Sensors and materials: An International Journal on Sensor Technology, 2022(12 Pt.5): 34.
[16]Si L , Shu L, Wang M ,et al.Study on forest fire danger prediction in plateau mountainous forest area[J]. Natural Hazards Research, 2022, 2(1):25-32.DOI:10.1016/j.nhres.2022.01.002.
[17]Penman T, Mccoll-Gausden S, Cirulis B, et al.Improved accuracy of wildfire simulations using fuel hazard estimates based on environmental data[J]. Journal of environmental management, 2022, 301:113789.DOI:10.1016/j.jenvman.2021.113789.
致谢
感谢家人对我学业上的默默支持,支持我每次的选择,从选择大学期间入伍到选择考研,没有你们的支持,我想我不会取得好的结果。
感谢老师对我的辛苦指导,无论是在学习还是生活中,老师们都给了我很大的帮助。
感谢我的女朋友郭曦然,能在你风华正茂的年纪,陪我度过艰难岁月。
感谢我军旅生涯中十二个同年兵,两年的日夜相伴,我们青春不留遗憾。
感谢在大学旅途中,每一个与我相遇的朋友,因为你们,才有了我难忘的大学生活。
最后,愿大家得偿所愿,愿我能够去登更高的山,走更远的路。
对应的任务书
对应的开题
系统代码
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split,cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.neural_network import MLPRegressor
plt.rcParams['font.family'] = ['sans-serif']#乱码 参数
plt.rcParams['font.sans-serif'] = ['SimHei']#汉字
plt.rcParams['axes.unicode_minus'] =False #负号
seed=2023
#读取数据
data=pd.read_csv("modis_2021_India_pro.csv")
# 提取特征变量x
x = data.iloc[:, :11]
# 提取目标变量y
y = data.iloc[:, 11]
data_pro = pd.concat([x, y], axis=1)
# 计算相关系数矩阵
correlation_matrix = data_pro.corr()
# 绘制热力图
plt.figure(figsize=(10, 7))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Heatmap')
plt.show()
# 提取特定列 第8列为火灾概率
data1 = data.iloc[:480, 7]
data2 = data1.values.reshape((96, 5))
# 绘制每天的火灾概率
x = range(1, 97)
for i in range(5):
plt.plot(x, data2[:, i], label=f'第{i+1}天')
plt.xlabel('时间(15分钟)')
plt.ylabel('火灾概率(%)')
plt.ylim(0, 140)
plt.legend()
plt.show()
# 提取亮度和概率数据
brightness = data['brightness']
confidence = data['confidence']
# 绘制散点图
plt.scatter(brightness, confidence, alpha=0.5)
plt.xlabel('火源的亮度 (Brightness)')
plt.ylabel('火灾概率 (Confidence)')
plt.title('火源的亮度与火灾概率的关系')
plt.show()
# 提取通道 31 的火焰亮度温度和火灾概率数据
bright_t31 = data['bright_t31']
confidence = data['confidence']
# 绘制散点图
plt.scatter(bright_t31, confidence, alpha=0.5)
plt.xlabel('通道 31 的火焰亮度温度 (Brightness of Channel 31)')
plt.ylabel('火灾概率 (Confidence)')
plt.title('通道 31 的火焰亮度温度与火灾概率的关系')
plt.show()
# 提取火点辐射功率和火灾概率数据
frp = data['frp']
confidence = data['confidence']
# 绘制散点图
plt.scatter(frp, confidence, alpha=0.5)
plt.xlabel('火点辐射功率 (FRP)')
plt.ylabel('火灾概率 (Confidence)')
plt.title('火点辐射功率与火灾概率的关系')
plt.show()