执行步骤
1、初始化,选择一个初始模型,通常是一个常数,比如分类问题中内的类别概率的先验值,回归问题中的目标变量的平均值。
2、训练决策树,对于每一轮迭代,计算当前模型的梯度(损失函数的负梯度),这些梯度表示了模型改进的方向。
3、选择最佳分裂:使用leaf-wise分裂策略,选择具有最大梯度下降的叶子节点进行分裂。这一步骤中,lightGBM会采用GOSS技术来减少样本数量,从而加速训练过程。
4、更新决策树:根据最佳分裂点更新决策树,并为新的叶子节点分配权重。
5、模型融合:将新训练的决策树以加权的方式融合到当前的模型中,权重通常由学习率决定。
6、重复迭代:重复步骤2-5,直到达到预设次数或满足停止条件。
优势:
1、高效性:Leaf-wise分裂策略和GOSS技术使得LightGBM在训练过程中更加高效,能够更快地收敛。
2、减少内存使用:EFB技术通过特征捆绑减少了特征的数量,从而降低了模型的内存空间。
3、高准确率:lightGBM能够捕获非线性关系,并且通过迭代优化逐步提高模型的准确率。
4、易于调参:lightGBM提供了丰富的参数设置,用户可以根据具体问题调整模型的行为。
5、并行计算:算法支持并行学习,可以通过多线程充分利用现代计算机的多核处理器,进一步提高训练速度。
6、缺失值处理:能够自动处理缺失值,不需要用户额外的数据预处理。
7、剪枝策略:具有先进的剪枝策略,可以防止过拟合,提高模型的泛化能力。
基于lightGBM进行海洋轨迹预测
任务:根据仿真人体漂流坐标、海洋环境要素等数据信息,利用lightGBM算法建立落水人员漂移预测模型,模型能够预测落水人员的漂流轨迹,最大程度减小搜寻区域的大小,减少搜救力量的投入,提高海上搜救的成功率,有效保障海上生产的安全。
数据集:①将仿真人体模型在指定位置抛放,通过仿真个人体模型上的GPS/北斗定位模块进行实时定位,记录仿真人体模型的实际漂移轨迹;②部分NC格式的洋流数据跟气象数据。
风场当天的预报数据的分辨率为20km一个网格点,功5151个点,每个文件以UTC12时为起点,包含169个小时的预报数据,风主要关注时间、位置、风速。海洋预报模型采用曲线正交网格,功211301个点,每个文件以UTC00时为起点,包含24个小时的预报数据,海流主要关注时间、位置、流速。
方法概述:对原始数据进行预处理与可视化,利用插值算法得到对应位置更精确的风速与流速信息,并利用light算法预测轨迹的漂移。