[1]
随机森林是集成学习中的bagging方法.通过有放回的抽样方法训练模型.再通过对输出求均值的方式得出最终结果。其中,回归树将输入样本分配至其子节点,不同子节点对应不同的取值.再通过损失函数将样本进行训练和分配,直至达到叶子结点。回归树通过空间超平面的划分方法在每次分割时对当前空间的取值进行划分。
[2]
随机森林是Bagging回归的进化版机器学习算法,以决策树为基本单元,每个决策树都是通过对输入数据集进行bootstrap得到的,通过集成学习的思想将多棵决策树组合[18]。首先.随机地从全部P个变量中选取n (1SnSP) 个变量作为决策树节点[31].然后构建数百甚至上千个决策树.每个决策树会根据特定规则对数据进行分类或回归,最后通过投票、取平 均等方法将所有决策树预测结果汇总,得到最终输出结果[ 16]。随机森林不仅可以提供自变量对因变量的偏依赖图(partial dependence) 。还能量化各个自变量对因变量估计差异的影响和相对贡献率[ 19]。相比传统线性或非线性回归模型,随机森林无需预先设定函数形式,能克服变量之间的复杂交互作用,避免过度拟合并且具有较高的模型精度。构建随机森林模型时需要考虑2个重要参数,即决策树的数量(ntree) 和节点竞争变量数目(mtry) [321。 通常情况下ntree只需保证随机森林的整体误差趋于稳定即可[331,本研究中ntree=1500。mtry在默认情况 下取值为自变量数量的1/3 (取整), 然而默认值不一定适用于所有 数据[ 18],所以对mtry进行调优。本研究将mtry取值范围设为1smtryS13。采用十折交叉验证法(ten-fold cross validation)进行超参数优化.确定最优的mtry值。随机森林模型可以提供预测变量的相对重要性及偏依赖图,从而提高模型的可解释性。相对重要性表示每个自变量对因变量的贡献程度。而偏依赖图则反映了自变量对因变量的非线性关系。
[3]
随机森林是由Breiman等人[19开发的一-种集成统计学习技术,作为CART算法(分类和回归树算法) [20]的改进。与传统的决策树算法和神经网络算法相比,RF回归具有计算资源相对较少、预测精度更高的优势。RF模型被认为在处理分类和回归问题时具有较高的鲁棒性和抗过拟合性,因为它可以调用数千棵CART树[21]。随机森林回归算法被视为一组回归树的集合。图2显示了RF模型预测的构建框架。如图2所示,一个回归树表示一组规则, 这些规则可以从根节点连续应用于输入数据的叶节点。随机选择一组输入变量 ,并从原始数据集中替换以形成回归树。每棵树都根据选择分割变量j和平方误差最小的分割点s的标准进行分割:
其中y表示数据集的输出变量。R和R 2是根据分裂变量j和分裂点s定义的两个区域:
重复以上分割过程,直到树停止生长。得到回归树模型的解是:
其中I(x∈Ri) i是索引函数:
通过组合这些树并对每棵树的预测求平均值,可以获得最终预测值。
[4]
机器学习作为应用统计学的延伸,已经被广泛应用于解决各类具体问题之中。随机森林是- -种集
成的机器学习方法,可通过组合多个决策树组合,有效学习捕捉海量数据复杂的非线性规律。随机森,林模型展现了广泛的适用性,成为解决复杂问题的有力工具。在城市规划领域,随机森林可通过对历史大数据分析,揭示影响城市空间变化机制并预测未来空间发展。相比于传统统计回归模型在空间分析中的应用,随机森林不易受到共线性影响,且能够自动评估影响要素的重要性。此外,随机森林通过多棵树集成降低了单树的过拟合风险,受异常值影响.相对较小。因此,本研究将随机森林模型应用于城市创新空间演变,尝试更全面、准确地理解创新空间用地空间分布形成及其影响因素。
[1]王延林,魏思浩,苏馨等.基于随机森林的导管架海洋平台结构模型修正方法[J].中国海洋平台,2024,39(01):38-44+58.
[2]王晓楠,苏文浩,董灵波.基于随机森林的兴安落叶松天然林单木年龄预估模型[J/OL].应用生态学报:1-11[2024-03-05].https://doi.org/10.13287/j.1001-9332.202404.023.
[3]郭龙,郭文文.基于SVR和随机森林模型的动力煤高位发热量预测研究[J].能源工程,2024,44(01):35-42.DOI:10.16189/j.nygc.2024.01.005.
[4]陈从心,张萍,韩叙.基于随机森林模型算法的城市创新空间演变影响要素研究——以武汉市主城区为例[J/OL].新建筑:1-4[2024-03-05].http://kns.cnki.net/kcms/detail/42.1155.TU.20240126.2054.002.html.