相关代码和结果在这里:基于高光谱数据的叶片水分估测方法研究 【Matlab Python Origin】文章中的代码和结果
第1章 研究内容和技术路线
1.1 研究内容
在本文研究中,我们致力于充分利用LOPEX’93数据集,并通过深入分析高光谱数据,探索并研究叶片水分含量(FMC)的估测方法。研究内容主要集中在三个主要步骤:提取目标文件、计算含水量和光学变量、以及建模与精度验证。此外,本文还将进行一系列额外的工作,以确保研究结果的全面性、可靠性和科学性。
首先,在提取目标文件阶段,本文将从LOPEX’93数据集中筛选出符合研究要求的数据。这将涉及到对数据集的简要了解,以确定需要的数据类型和特征。
其次,在计算含水量和光学变量的过程中,光谱数据的预处理、特征提取和分析方法的选择,以及对数据的精细化处理,以获得准确、可靠的含水量和光学变量数据。
第三,建模与精度验证是本研究的关键环节。在建模过程中,本文将尝试多种建模方法,包括传统的统计模型和机器学习算法。本文将进行参数调优和模型优化,并进行严格的精度验证,以选择出最佳的预测模型,提高叶片水分含量的估测准确性。
除了上述主要步骤之外,本文还将进行一系列辅助工作,包括实验设计的优化、数据分析结果的可视化和解释,以及对研究结果的讨论和总结。这些工作将有助于完善研究的整体质量,确保研究结果的科学性和可信度,为相关领域的进一步研究和应用提供更为可靠的数据支持。
1.2 技术路线
根据高光谱数据反演叶片含水量所面临的问题以及主要研究内容,本文的技术路线如图1.1所示。首先,本文将对LOPEX’93数据集进行充分了解,并确定适用于反演参数的具体设置,然后提取新鲜叶片的反射率文件。接下来,本文将采用相关性筛选方法对各光学变量进行初步筛选,以去除与目标变量关系较弱的特征。随后,利用随机森林模型计算每个变量的重要性,进一步优化变量筛选过程,以确保所选特征更能有效地捕捉目标变量的变化规律。最终,本文将基于经过优化的变量集合构建反演模型,以提高叶片水分含量估测的准确性和稳定性。
第2章 叶片水分高光谱遥感反演基础理论与方法
植被的生化成分和结构特征共同塑造了其对太阳辐射的响应,因此反映在其光谱特征上,这与植被的生长状态、健康状况以及外部环境密切相关。植被遥感系统能够利用不同的遥感传感器捕捉植被的光谱特征,从而监测植被的生长动态和生理状况的变化[31]。叶片是植物的重要组成部分,几乎所有主要的生态过程都发生在这里,是植物所进行的关键生物学活动的主要场所。而水是叶片中进行各种生化反应的重要载体,监测植物叶片的含水量能够确定植被的生化反应的状况从而监测植被的生长过程。因此,在利用遥感监测植被生长状况、反演植被叶片含水量时应首先对植被叶片的光谱特性有所了解。
2.1 LOPEX’93数据集
1993 年,意大利 Ispra 联合研究中心(JRC)进行了名为 LOPEX’93 的实验,主要研究对象是叶片的光学特性。这项实验在初夏和初秋收集了331条叶片样本,涉及45种不同的植被植物,包括乔木、灌木、草本和农作物。实验测量了叶片的反射率和透射率,并记录了每个样本的光谱数据(波长范围400-2500nm,总共2101个波段)。除了基本的光谱数据,该数据集还包括叶片的物理和化学属性,如叶片厚度、水分含量、叶绿素、类胡萝卜素、蛋白质等生化成分,以及碳、氢、氧、氮等元素的含量。这些数据分布在几个不同的文件中,涵盖了指定植被的不同器官的反射率/透射率、鲜重/干重、色素含量、生化元素和化学元素含量等信息。
其中spec_aux.dat文件包括本文所需的数据,该文件的数据格式如图2.1所示。
图 2.1 spec_aux.dat文件数据格式
如上图所示,第一列为 OPEX 光谱文件的序号;第二类列为反射率标识,“1”表示反射率,“0”表示透光率;第三列干湿叶片标识,“0”为湿叶,“1”为干叶;第四列样本的种类,其中“1”表示单叶,“2”表示堆叶,“3”表示石英试管中的材料,“4”表示植物的茎,“5”表示光学致密材料,“6”表示压缩粉末;第五列描述每个样本分配的块号,范围从 001 到 103,用于进一步整理和归类数据;第六列表示平均叶厚,记录叶片以微米为单位的平均厚度;如果样本是叶堆,记录的就是平均值的平均值;第七列表示鲜重;第八列表示干重;第九列代表叶面积,为叶片的面积,单位为平方厘米。
2.2 叶片水分表征方式及其计算方法
FMC(Foliar Moisture Content),也称叶片含水量,是用来量化叶片中水分含量相对于其鲜重或干重的百分比。这个指标在评估叶片的水分状态及其生理健康状况中扮演了重要角色。FMC 的变化可能会受到环境条件、植物种类和生长周期等多种因素的影响,计算公式如下:
(2.1)
其中FMC为重量含水量,即反演变量;为叶片的鲜重;为叶片的干重。本文的相对含水量FMC采用叶片含水量占鲜叶重的百分比。
2.3 植被叶片含水量反演变量介绍
植被含水量反演的过程中,通常使用一系列变量作为反演模型的输入,这些变量被称为反演变量。这些反演变量被选取的基本原则是它们与植被叶片含水量之间具有良好的相关性,并且能够提供充分的信息以支持含水量的准确估算。一种常见的反演变量是敏感波段,这些波段对植被叶片含水量的变化具有较高的敏感度。另外,光谱指数也是常用的反演变量之一。光谱指数是通过不同波段的光谱反射率之间的比值或差值计算得出的,可以有效地捕捉植被叶片含水量的变化特征。本文将使用如上所述的两种指数作为反演叶片含水量的反演变量参与实验。
(1)光谱特征变量及其计算
在分析光谱对叶片中含水量的反应过程中,所选用的光谱特征变量包括: 反射率、反射率的一阶倒数、二阶导数、反射率倒数的对数、反射率倒数的一阶导数。其中植被光谱的一阶微分计算是根据拉格朗根内插多项式求出的三点数值差分:对于已知函数,在本次计算中步长为相邻波长的自变量步长为 h,步长为间隔 20。其计算公式如下:
反射率的倒数通过对原始反射率数据取倒数得到,这可以帮助更好地理解光谱特征。反射率倒数的对数则是对反射率倒数取对数得到的,而对数转换可以使数据振幅有效缩小,使趋势的改变变得明显。反射率倒数的一阶微分是由求一阶反射率倒数的微分而得,并提供数据变化率的数据。反射率的二阶微分则是在反射率一阶微分计算结果的基础上再次求导得到的,可以揭示光谱数据中的峰值、谷值位置以及曲线的凹凸性。
(2)水分光谱指数及其计算
水分光谱指数是一种光谱指标,用于对植物叶片水分含量进行评估。它是通过分析植物叶片的反射率或不同波长的吸收率,从而推断出叶片的水分情况。水分光谱指数通常基于特定的光谱波段,这些波段在植物叶片水分变化时表现出明显的变化特征。如表2.1所示,本实验使用的水分光谱指数为:WI1、NDWI、SR、II、WI2、Ratio975和Ratio1200。
2.4 叶片含水量遥感反演模型
植被叶片含水量的提取、估计和预测的准确性与所采用的反演方法密切相关[33]。目前主要可分为经验统计法和物理模型反演法两大类植被叶片含水量遥感反演方法。经验统计方法依赖于统计算法,通过建立光谱反射率值或其他光谱变换形式与植被参数(如植被指数、光谱一阶导值等)的回归关系来实现反演。虽然这种方法简单快捷,但缺乏物理机制支撑,导致反演模型的局限性,仅适用于特定区域,缺乏推广性。而物理模型则通过模拟植被叶片、冠层与太阳辐射的相互作用,对不同类型的植被和生长阶段都能起到良好反演作用的植被参数进行反演,其可转移性和鲁棒性更好。然而,物理模型较为复杂,需要大量输入参数,并可能面临病态反演等挑战。
当考虑到课题要求和技术路线的限制时,采用经验统计方法来进行植被叶片含水量的反演。这种方法基于已有数据和统计模型,通过分析叶片的物理特性和环境条件来推断叶片含水量的可能范围。尽管这种方法可能无法捕捉到所有细微的变化,但在当前的研究条件下,它提供了一种有效且可行的途径来估算叶片含水量。值得注意的是,尽管这种方法具有一定的局限性,但在当前的研究框架内,它为本文提供了一个有价值的起点,以便进一步探索更精确的方法和技术。
2.4.1 一元回归
(1)一元线性回归
一元线性回归是一种统计学方法,它可以分析两个连续变量之间的关系。在一元线性回归中,有一个自变量(通常表示为 x)和一个因变量(通常表示为 y)。这种方法假定了自变量和因变量之间的线性关系,并试图找出一条直线,它可以拟合出最好的数据点。
一元线性回归的数学模型可以表示为:
其中y是因变量,x为自变量,β0是截距,β1是斜率,是随机扰动项。
一元线性回归的目标是通过拟合出最佳的直线,使得观察到的数据点与该直线的残差(观察值与模型预测值之间的差异)之和最小化。通常这是通过最小的化残差平方和(RSS,Residual Sum of Squares)来实现的。一元线性回归的公式可以通过最小化残差平方和来推导出最佳拟合的系数β0和β1。
(2)一元指数回归
一元指数回归是一种统计分析方法,用于描述因变量y与自变量x之间的指数关系。该模型适用于快速增长或快速衰减的现象。其常见形式是:
假设我们有一组数据点我们的目标是找到参数a和b使得模型最好的拟合这些数据点。为了便于处理,我们可以对原公式取自然对数,得到:
令,则公式变为:
该形式为线性形式,可以使用线性回归的方法来估计A和b。通过取指数运算,可以得到最终的表达式。
(3)一元对数回归
一元对数回归是一种统计分析方法,用于描述因变量与自变量之间的对数关系。该模型适用于因变量随自变量变化而以对数形式增长或减少的情况。其常见形式为:
我们的目标是找到参数a和b使得模型最好的拟合这些数据点。对其进行对数变换和线性化可得:
令 则模型变为:
这个模型可以使用线性回归的方法来估计a和c',然后通过和的关系解得。
2.4.2 多元逐步回归
逐步回归分析法的基本思想是:建立预测或解释的回归分析模型,从大量可供选择的变量中自动选择最重要的变量。其基本思路是: 自变量逐个引入,引入的条件是测试后,其偏态回归平方,具有显著性(substruction)。 同时,每引入一个新的自变量后,剔除那些偏回归平方和不太显著的自变量,都要对旧的自变量进行逐个测试。这样一来,直到既无新的引进变数,又无老的去留变数,引进的同时,也一直在去除。它的本质是建立“最优”的多元线性回归方程。渐进回归法选择变量的过程包含两个基本步骤:首先,从回归模型中剔除出经过测试的变量,而这些变量并不显著;二是在回归模型中引入新变量,采用多元渐进回归法,即前进式和后进式。
2.4.3 支持向量机
SVM 是基于监督学习的分类器,其核心原理是通过非线性映射将输入参数投射到高维空间,从而构建最优的超平面,用于二元分类数据。对于非线性映射产生的问题,SVM 可以通过核函数的方式进行处理,从而使数据在高维空间中的操作更加简单。与其他算法相比,SVM对于训练数据集的维度不太敏感,因此即使数据维度较高,也能够有效地应用。此外,SVM 对训练数据集的数量要求并不严格,即使只有很少的样本点集,SVM 也能表现出不错的表现。
支持回归量机(SVR)是在回归问题上支持回归量机(SVM)的应用。它与传统的线性回归方法类似,采用最优超平面来拟合数据,但当面对非线性回归问题时,SVR则采用核函数的方式来处理。在类似于 SVM 的 SVR 中,本文依然试图尽可能的找到最优的拟合训练数据超平面,并在最小的范围内控制预测值和实际值之间的误差。不同的是,SVR 允许在处理非线性关系时,利用核函数向高维空间映射数据,以提供更好的拟合效果。通过核函数的引入,SVR能够在高维空间中更灵活地拟合数据,从而适应各种复杂的非线性关系,如多项式、高斯核等。这让 SVR 在实际非线性回归问题的处理上表现出色,拟合能力强,泛化能力强。
SVR 模型与一般的传统线性回归模型在使用上也存在一定的差异,其差异主要体现在 SVR 模型中损失的计算,只有在与 f(x)和 y 的差距绝对值大于时才计算损失,而只有 f(x)和 y 之间的差距在一般线性模型中并不相等。两个模型的优化方法不同,在 SVR 模型中是通过将间隔带的宽度最大化,损失最小化来优化模型,而在一般线性回归模型中则是通过梯度下降后的平均数对模型进行优化。
2.4.4 随机森林
决策树是处理分类问题和回归问题时可以使用的比较经典的机器学习算法。同时也是综合学习中弱项学习器常选用的机器学习算法。如RF,GBDT。
决策树是指在属性上表示测试的每一个内部节点、每一个分支表示一个测试输出、每一个叶节点表示一个类别的树型结构。决策树是一种有监督的机器学习算法,基于 IF-Then-else 规则。
决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程。这一过程对应着对特征空间的划分,也对应着决策树的构建。
随机森林(RF)实际上就是多棵决策树。不同的训练样本集是通过对样本进行再的方法得到的, 在这些新的训练样本集上对学习器进行单独的训练,最终将每个学习器的结果合并起来作为最终的学习结果,其中每个样本所占权重相同。如下图所示:
图 2.2 随机森林原理
其中,本法中b个学习器相互独立,在并行过程中,这样的特点使本法变得简单了一些。随机有放回地取样的方式,即 BOOTSTRAP 方式。学习器即为决策树DT。其算法步骤如下:
每棵树按照如下规则生成:
(1)如果训练集合的大小是n,那么对每棵树来说,它都是从训练集中地中随机放回地,作为这棵树的训练集合,从中抽取n个训练样本。(每个树的训练集合都不一样,都包含了复数)
(2)若各样本特征维度为M,则指定常数m<<M,从M个特征中随机抽取m个特征子集,在每棵树分裂时选取m个特征中最优的一个。(重复,直到不能分裂)
(3)无分枝过程,各株长势最大。(树立形成森林的一大批决策树)随机:样本随机、特征随机(保证不容易陷入过拟合)
分类问题:对于测试样本,森林中每棵决策树会给出最终类别,最后综合考虑每一棵树输出,投票决定。
2.5 精度验证方法
本节详细描述了用于验证反演模型精度的方法,包括数据集划分、模型评估指标的选择以及相应的计算公式。这些方法的选择和实施是确保本文的反演模型能够准确预测目标变量的关键步骤,下面将进行更详细的阐述。
为了对反演模型的性能进行有效评估,本文将原始数据集按 2/3 和 1/3 的比例分成训练集和验证集。2/3 的数据用于反演模型的训练,包括参数学习、模型拟合等;而验证模型泛化能力的数据和预测性能的数据则占到了 1/3 的比例。这种划分方法能够确保模型在未知数据上的表现,并有效地避免过度拟合的问题。
在选择模型评估指标时,考虑了反映模型预测能力和拟合程度的指标。因此,选择均方根误差(RMSE)和决定系数(R²)作为指标,对反演模型的性能进行评估。
RMSE是一个平均平方根的平方,它的预测值和真实的观测值是有区别的。它可以对模型预测结果和真实观测值的误差平均大小进行量化,因而是模型预测准确度的一个重要指标;R²反映模型拟合数据的程度,也就是模型对总方差的比例进行了解释。它的取值范围在 0 到 1 之间,距离 1 越近代表模型拟合得越好,所以它是一个重要的模型拟合程度的衡量标准。
计算RMSE和R²,使用如下公式:
第3章 叶片含水量估测变量提取
3.1 光谱文件选取
由LOPEX’93数据集说明可知,spec_aux.dat文件包括本文所需的数据,该文件的数据格式如图3.1所示。
图 3.1 spec_aux.dat文件数据格式
如上图可知,第一列为opex光谱文件的序号;第二列为反射率标识,“1”表示反射率,“0”表示透射率,本文需要反射率数据;第三列为干湿叶片标识,“0”为湿叶片,“1”为干叶片,本文需要鲜叶片;第四列为样本的类型,其中本文需要的类型是“1”单叶片;第七列是鲜重;第八列是干重。根据以上条件搜索符合条件的opex光谱文件的序号,并计算出相应的FMC数值。
在得到符合条件的文件后,根据 OPEX 文件序号读取相应的 OPEX 文件,获取对应波段范围 400nm-2500nm的 335 组反射率观测数据进行建模,根据 2 :1 的比例分为训练集和验证集,并保存为 Excel文件。
3.2 叶片含水量与光学变量计算
3.2.1 叶片含水量计算
叶片含水量是指一般以百分数表示的叶片中所含的水分。它是评价叶片水分状况的重要指标之一,也是评价叶片生理状态的重要指标之一,是评价叶片水分状态的重要指标之一。叶片的含水量可以受到环境条件、植物品种、生长阶段等因素的影响
其中FMC为重量含水量,即反演变量;
为叶片的鲜重;
为叶片的干重。具体操作为提取opex文件的第七列、第八列数据,即叶片的鲜重和干重数据,计算出相应的FMC并保存在列表中。
3.2.2 光谱特征变量及其计算
根据提取的波段数据,给出反射率的部分结果如图3.2所示
图 3.2 反射率部分结果(以20个光谱文件为例)
在遥感光谱分析中,通过提取波段数据并以20nm为间隔计算光谱特征变量是捕捉反射率曲线细微变化的重要方法。这些光谱特征变量包括一阶微分和二阶微分,分别反映反射率随波长变化的速率及其变化率。一阶微分计算是通过相邻波段反射率差值除以波长差值来获得的,这种计算可以突出反射率曲线中的变化趋势和突变点。例如,植被的红边效应,即植被反射率在红光和近红外光之间的急剧变化,可以通过一阶微分得到显著体现。
在一阶微分的基础上,进一步计算的二阶微分反射率则描述了反射率变化率的变化。二阶微分能够揭示出反射率曲线的更加细微的特征,如局部的极值点和曲率变化。这些细节对于分析和识别地物特征和状态具有重要意义。例如,通过二阶微分,可以更准确地定位反射率曲线的拐点和波峰波谷,这对地物分类和健康状态评估提供了更深入的信息,其部分结果如图3.3和图3.4所示。
图 3.3 反射率的一阶微分部分结果(以20个光谱文件为例)
图 3.4 反射率的二阶微分部分结果(20个光谱文件)
光谱的一、二阶微分可消除背景杂讯,分辨重叠光谱[34],可去除背景、地形阴影等部分线性或接近吸纳性的对目标光谱的影响,对土壤背景影响有较好的抵御能力。对光谱数据进行反射率倒数的对数处理和反射率倒数的一阶导数处理,能有效突出不同生化组分的吸收特征,对图 3.5、3.6、3.7 等参数反射率倒数的叶片含水量、反射率倒数的对数、反射率倒数的一阶导数部分的结果均有较高的敏感性。
图 3.5 反射率的倒数部分结果(以20个光谱文件为例)
图 3.6 反射率倒数的对数部分结果(以20个光谱文件为例)
图 3.7 反射率倒数的一阶微分部分结果(以20个光谱文件为例)
提取相应波段的反射率,计算每个文件的WI1、NDWI、SR、II、WI2、Ratio975和Ratio1200指数,部分计算结果如表3.2所示。
表 3.2 水分光谱指数部分计算结果
第4章 叶片含水量反演模型构建与精度评价
4.1 变量筛选
首先,对计算得出的各个光谱指数与植被叶片的含水量(FMC)之间进行相关性分析,采用Pearson相关性系数评估它们之间的线性相关程度。生成混淆矩阵,其中每一行代表一个光谱指数,每一列代表FMC,矩阵中的每个元素表示对应光谱指数和FMC之间的相关性。随后,通过筛选相关性较好的光谱指数,选择具有更高预测能力的变量,以提高后续水分状况监测模型的准确性和可靠性。
图 4.1 光谱指数与FMC的相关系数矩阵
图4.1为光谱指数与FMC的相关系数矩阵,本文设置阈值为0.7,则相关性较好的变量为WI1、NDWI、SR和II。
利用 Origin 软件处理光谱变换所得的反射率、反射率 1 阶倒数、2 阶导数、反射率倒数对数、与 FMC 的 Pearson 关联度分别混淆矩阵的反射率倒数 1 阶导数,绘制出 FMC 与各变数的关联度指数柱状图。
图 4.2 反射率与FMC的相关系数柱状图
图 4.3反射率的一阶微分与FMC的相关系数柱状图
图4.4反射率的倒数与FMC的相关系数柱状图
图 4.5 反射率倒数的对数与FMC的相关系数柱状图
图 4.6 反射率的二阶微分与FMC的相关系数柱状图
各光谱变量与FMC的相关系数如图 4.2-4.6所示,通过比较相关性大小,得到各类变量中与FMC相关性排名前五的变量,如表4.1所示。
变量名称 | 相关性较好的波段(nm) |
反射率 | 1400、1420、1440、1460、1480 |
反射率的一阶微分 | 1740、1760、1780、1820、1840 |
反射率倒数的对数 | 1880、1900、2000、2020、2040 |
反射率的二阶微分 | 1580、1720、1740、2020、2040 |
反射率的倒数 | 1400、1420、1440、1880、1900 |
4.2 FMC反演模型构建
4.2.1 一元回归模型
(1)光谱指数与FMC的一元回归模型构建
使用光谱指数Wi、NDVI、SR和II分别与叶片水分含量(FMC)建立一元回归模型,并将模型结果可视化为图4.7。表4.2展示了回归分析的结果,呈现了各指数与FMC之间的关系,为进一步理解光谱指数与叶片水分含量之间的关联提供了直观的信息。
图 4.7 各光谱指数与FMC建立一元回归模型结果
光谱变量(Wi、SR、NDWI、II)与目标变量FMC之间呈现了一定程度的关联,通过分析得知它们的R²值在0.514到0.529之间,表明模型对数据的拟合程度中等,同时其RMSE值在0.0953到0.0969之间,说明模型预测的准确度相对较高。这些结果指示着这些光谱变量在预测目标变量方面具有一定的潜力,但可能需要进一步优化模型或考虑其他因素以提高预测精度。
(2)反射率与FMC的一元回归模型构建
在遥感光谱分析中,反射率数据与植被参数之间的关系研究是一个重要的研究领域。利用特定波长的反射率数据,我们可以建立回归模型来估计叶片水分含量(FMC),从而为农业监测、森林管理和环境保护提供科学依据。在本研究中,我们选择了波长为1400nm、1420nm、1440nm、1460nm和1480nm的反射率数据,并采用三种不同类型的回归模型:一元线性回归模型、一元对数回归模型和一元指数回归模型,以探索这些波长反射率数据与叶片水分含量之间的关系,并优中选优得到最佳模型的可视化结果,如图4.8所示
图 4.8 各波长反射率与FMC建立一元回归模型结果
根据上表 4.3 中波长(nm)与叶片含水量的一元回归模型,发现波长 1400nm 与 FMC 的反射率数据呈现较强的线性关系,呈现较高的 R 值(0.67),而相对较小的 RMSE 值(0.0798)则呈现较佳的预测效果。然而,在其他波长(1420 nm、1440 nm、1460 nm、1480 nm)处的反射率数据的线性关系较弱,表现为较低的R²值,但模型的预测精度仍然相对较高,RMSE值也较小。因此,综合考虑RMSE值越小越好的原则,1400 nm处的光谱特征在叶片水分含量估计中具有较好的预测能力。
(3)反射率倒数的对数与FMC的一元回归模型构建
使用波长为1740nm、1760nm、1780nm、1820nm、1840nm的反射率倒数的对数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.9。表4.4展示了回归分析的结果,展示了这些波长反射率倒数的对数数据与FMC之间的线性关系。
图 4.9 各波长反射率倒数的对数与FMC建立一元回归模型结果
根据上表反射率倒数对数数据与叶片含水量(FMC)的一元回归模型结果,发现反射率倒数对数与 FMC 呈一定线性关系的较长波长(1880nm,1900nm,2000nm,2020nm,2040nm)。具体而言,R²值介于0.595到0.655之间,表明模型对数据的拟合程度尚可,但RMSE值介于0.0816到0.0884之间,相对于之前的反射率数据,这些数值稍高。综合来看,这些波长处的光谱特征在叶片水分含量估计中可能具有一定的预测能力,但其预测效果可能略逊于之前提到的反射率数据。
(4)反射率的一阶导数与FMC的一元回归模型构建和拟合效果
使用波长为1740nm、1760nm、1780nm、1820nm、1840nm的反射率的一阶导数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.10。表4.5展示了回归分析的结果,展示了这些波长反射率倒数的对数数据与FMC之间的线性关系。
图 4.2 各波段反射率的一阶导数与FMC建立一元回归模型结果
根据如上个波段反射率的一阶导数与叶片水分含量(FMC)之间的一元回归模型结果,发现在不同波段的一阶导数值与FMC之间存在着一定的线性关系。具体来说,更长波长(1740nm,1760nm,1780nm,1820nm,1840nm),一阶导数和 FMC 和R²值分别在 0.692~0.798 之间,显示出模型更好的拟合数据的程度。同时,对应的RMSE值介于0.0625到0.0771之间,表明模型的预测精度相对较高。
- 反射率的二阶导数与FMC的一元回归模型构建和拟合效果
使用波长为1580nm、1720nm、1740nm、2020nm、2040nm的反射率的二阶导数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.11。表4.6展示了回归分析的结果,展示了这些波长反射率倒数的对数数据与FMC之间的线性关系。
图 4.11 各波段反射率的二阶导数与FMC建立一元回归模型结果
根据以上数据可知,在不同波段的二阶导数与叶片水分含量(FMC)之间存在一定的相关性。具体来看,二阶导数与 FMC 在 1580 纳米、1720 纳米、1740 纳米、2020 纳米、2040 纳米波段的R²值分别在 0.66-0.774 之间,表明模型对数据的拟合程度尚可。此外,对应的RMSE值介于0.066到0.081之间,表明模型的预测精度相对较高。
- 反射率的倒数与FMC的一元回归模型构建和拟合效果
使用波长为1580nm、1720nm、1740nm、2020nm、2040nm的反射率的倒数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.12。表4.7展示了回归分析的结果,展示了这些波长反射率倒数的对数数据与FMC之间的线性关系。
图 4.12 各波段反射率的倒数与FMC建立一元回归模型结果
根据表中数据可知,从R²值来看,R²值在不同波长下都在0.527到0.559之间,表明模型对数据的解释能力相对一致,但波长为1880 nm时的R²值最高,达到0.559,这可能表示该波长下反射率的倒数与FMC的关系更为紧密。
4.2.2 多元逐步回归模型
(一)光谱指数与FMC的多元逐步回归模型构建
使用光谱指数Wi、NDVI、SR和II与叶片水分含量(FMC)建立多元逐步回归模型,并将模型结果可视化为图4.13。
最终得到的模型表达式为:
其中x1,x2,x3,x4分别为Wi、NDVI、SR和II。
图 4.13 各光谱指数与FMC的多元逐步回归模型
- 反射率与FMC的多元逐步回归模型构建
使用波长为1400nm、1420nm、1440nm、1460nm、1480nm的反射率数据与叶片水分含量(FMC)建立了多元逐步回归模型,并将模型结果可视化为图4.14。最终得到的拟合表达式为:
其中x1,x2,x3,x4,x5分别为1400nm、1420nm、1440nm、1460nm、1480nm的反射率变量。
图 4.14 各波段反射率多元逐步回归模型拟合效果
- 反射率倒数的对数与FMC的多元逐步回归模型构建
使用波长为1740nm、1760nm、1780nm、1820nm、1840nm的反射率倒数的对数数据与叶片水分含量(FMC)建立了多元逐步回归模型,并将模型结果可视化为图4.15。最终得到的模型拟合表达式为:
其中x1,x2,x3,x4,x5分别为波长为1740nm、1760nm、1780nm、1820nm、1840nm的反射率倒数的对数变量。
图 4.15 反射率倒数的对数与FMC的多元逐步回归模型拟合效果
- 反射率的二阶导数与FMC的多元逐步回归模型构建
使用波长为1580nm、1720nm、1740nm、2020nm、2040nm的反射率的二阶导数数据与叶片水分含量(FMC)建立了多元逐步回归模型,并将模型结果可视化为图4.16。最终得到的模型拟合表达式为:
其中x1,x2,x3,x4分别为波长为1580nm、1720nm、1740nm、2020nm的反射率的二阶导数变量。
图 4.16 反射率的二阶导数与FMC的多元逐步回归模型拟合效果
- 反射率的倒数与FMC的多元逐步回归模型构建
使用波长为1580nm、1720nm、1740nm、2020nm、2040nm的反射率的倒数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.17。最终得到的模型拟合表达式为:
其中x1,x2,x3,x4分别为波长为1580nm、1720nm、1740nm、2020nm的反射率的倒数变量。
图 4.17 反射率的倒数与FMC的多元逐步回归模型拟合效果
- 反射率的一阶导数与FMC的多元逐步回归模型构建和拟合效果
使用波长为1740nm、1760nm、1780nm、1820nm、1840nm的反射率的一阶导数数据与叶片水分含量(FMC)建立了一元回归模型,并将模型结果可视化为图4.18。最终得到的模型拟合表达式为:
其中x3,x4分别为波长为1780nm和1820nm的反射率的一阶导数变量。
图 4.18反射率的一阶导数与FMC的多元逐步回归模型拟合效果
(七)筛选后全部变量与FMC的多元逐步回归模型构建和拟合效果
将筛选后的所有的29个变量作为自变量与FMC构建多元逐步回归模型,模型结果可视化如图4.19。
其中x8,x9,x10,x11,x12,x21,x22,x24,x25,x28,x29分别为波长为1460nm和 1480nm的反射率变量、波长为1740nm、1760nm和1780nm的反射率一阶导数变量、波长为1720nm、1740nm和2040nm的反射率倒数的对数变量、波长为1400nm、1420nm、1880nm和1900nm的反射率倒数变量。
图 4.19筛选后变量与FMC的多元逐步回归模型拟合效果
(八)模型比较与总结
将上述所有多元渐进式回归模型的拟合结果整理成表,见表 4.7。
表 4.7 各类变量多元逐步回归结果
变量类别 | R² | RMSE |
光谱指数 | 0.611 | 0.087 |
反射率 | 0.818 | 0.060 |
反射率的倒数 | 0.721 | 0.074 |
反射率倒数的对数 | 0.867 | 0.051 |
反射率的一阶导数 | 0.854 | 0.053 |
反射率的二阶导数 | 0.906 | 0.043 |
经过筛选的所有变量 | 0.867 | 0.051 |
多元渐进回归分析模型拟合效果受到不同变量类别的影响。结果表明,当仅考虑光谱变量时,模型的拟合效果较弱,R²为0.611,RMSE为0.0873。但其拟合效果随着反射率的逐步引入模型,反射率倒数,反射率倒数的对数,反射率第一阶导数,反射率第二阶导数等都有明显的提高。特别是在考虑反射率的二阶导数后,模型的解释能力达到最佳水平,R²高达0.906,RMSE降至0.043。
4.2.3 随机森林模型
基于前面的筛选得到的变量,可以通过随机森林模型来评估其重要性。通过这一评估过程,本文能够了解每个变量对于模型的预测性能的贡献程度,从而选择出对水分含量反演模型构建最为重要的若干个变量。
图 4.20 重要性程度评价结果
由图4.20可知,重要性排名前五位的变量分别是:反射率一阶导数:1780nm、1820nm,反射率二阶导数:1720nm、2020nm、1580nm。上述变量将参与RF反演模型的构建。
图 4.21 MSE与树以及叶子数目趋势图
由图4.5可知 当Tree的数目位于100附近时,MSE减少的趋势缓慢,且当叶子数为5时,MSE的值最小。所以该模型的树的数量为100,叶子数为5。
图 4.22 RF-随机森林模型拟合结果
4.2.4 支持向量机回归模型
使用RF随机森林变量重要性筛选后的五个变量进行支持向量机回归模型的训练。将五个自变量输入到模型中,确定超参数的搜索范围,然后利用交叉验证方法来寻找最佳的模型参数。
参数的含义是这样的:BoxConstraint 是为了控制支持向量对训练误差容忍度的正则化参数,支持向量机(SVM)回归模型;KernelScale 是核函数尺度参数,影响样本在特征空间间的距离计算;Epsilon 影响模型在损失函数中的容忍度参数——目标变量的容忍度。这些参数的选择对模型的拟合效果和泛化能力至关重要,通常需要通过交叉验证等方法来选择合适的参数值以获得最佳的模型性能。
表4.8 经过参数选择后的最佳参数
参数名称 | 最佳数值 |
BoxConstraint | 0.316 |
KernelScale | 0.177 |
Epsilon | 0.031 |
如图4.23可知,本次实验最佳参数的值BoxConstraint为0.31624;KernelScale为0.17654以及Epsilon为0.031452。使用以上参数来训练支持向量机回归模型。
4.3 最优模型选取
拟合效果最好的模型从各类别模型中选取,汇总到表 4.8 中。
表 4.8 各拟合程度较好的模型及其评价指标
模型名称 | R² | RMSE |
反射率二阶导数的多元逐步回归模型 | 0.906 | 0.043 |
光谱指数为Wi的一元回归模型 | 0.529 | 0.095 |
波长为1400nm的反射率一元回归模型 | 0.67 | 0.080 |
波长为1780nm反射率的一阶导数的一元回归模型 | 0.798 | 0.063 |
波长为2020nm反射率的二阶导数的一元回归模型 | 0.774 | 0.066 |
波长为1900nm反射率倒数的一元回归模型 | 0.655 | 0.081 |
波长为1880nm反射率倒数的对数的一元回归模型 | 0.655 | 0.081 |
RF-随机森林模型拟合效果 | 0.974 | 0.039 |
SVR支持向量机回归模型拟合效果 | 0.907 | 0.045 |
表 4.8 展示了几个拟合程度较好的模型及其评价指标。RF-随机森林模型在拟合程度上表现最佳,具有0.974的R²值和0.0389的RMSE值,显示出了极高的解释方差和较低的均方根误差,表明该模型对目标变量的预测能力非常强。其次是反射率二阶导数的多元逐步回归模型,虽然其R²值为0.906,RMSE为0.043,略逊于随机森林模型,但仍然展现出了良好的拟合效果。SVR支持向量机回归模型也表现不俗,其R²值为0.907,RMSE为0.045,与多元逐步回归模型相近。其他模型如光谱指数为Wi的一元回归模型、波长为1880nm反射率倒数的一元回归模型等的拟合效果相对较差。综合考虑各模型的表现,RF-随机森林模型被认定为在该实验中最为适合的拟合模型,能够最有效地预测目标变量。