目录
一、说明
二、堆叠
2.1 堆叠的工作原理:
2.2 例子:
2.3 堆叠的优点:
三、投票(简单投票)
3.1 例子:
3.2 投票的优点:
四、装袋和投票之间的区别
五、混合
6.1 混合的主要特征:
5.2 堆叠的主要特征:
一、说明
在机器学习领域,集成学习是用于提高模型准确性、稳健性和泛化能力的最强大技术之一。集成学习不依赖于单个预测模型,而是结合多个模型的预测来创建更准确、更可靠的最终预测。直觉上,多个模型或弱学习器可以纠正彼此的错误,从而产生更稳健的强学习器。
集成学习的一些优点包括:
- 提高准确性:通过平均或组合多个模型的预测,集成模型的表现通常优于单个模型。
- 减少过度拟合:集成方法通过平滑噪声预测来帮助减少过度拟合。
- 模型多样性:集成利用多种算法或同一算法的变体,可以捕获数据的不同方面。
要了解有关bagging 和 boosting 的更多信息,请关注此博客
二、堆叠
堆叠技术工作流程
堆叠是一种更复杂的集成技术,涉及组合不同类型的模型(通常称为基础学习器)以提高性能。堆叠背后的理念是通过训练元模型(通常称为二级模型)来利用多个模型的优势,该元模型学习根据基础模型的输出进行预测。
2.1 堆叠的工作原理:
- 在训练数据上训练多个基础模型(例如决策树、逻辑回归、SVM)。
- 这些基础模型的预测被输入到元模型(通常是更复杂的模型,如神经网络或线性回归)。
- 元模型学习结合基础模型的预测并输出最终预测。
2.2 例子:
在分类问题中,您可能会训练三个模型:决策树、SVM 和 k-最近邻模型。然后,这些模型的输出将用作元模型(例如逻辑回归)的特征,从而做出最终的分类决策。
2.3 堆叠的优点:
- 结合不同优势的模型来提高整体性能。
- 通常比使用任何单一模型都能带来更好的性能。
三、投票(简单投票)
在投票中,多个模型在同一数据集上独立训练,在分类任务中通过投票组合它们的预测,在回归任务中通过平均组合它们的预测。这是最简单的集成方法之一,可分为两种类型:硬投票和软投票。
- 硬投票:在分类任务中,最终的集成预测是通过选择从基础模型的预测中获得最多投票的类别来确定的。这通常被称为“硬投票”。
- 软投票:在回归任务中,最终预测通常是通过对基础模型的预测取平均值来获得的。这也称为“软投票”。
3.1 例子:
您可以在数据集上训练三个模型(例如,逻辑回归、决策树和随机森林),并通过硬投票结合它们的预测。最终预测基于多数投票。
3.2 投票的优点:
- 易于实现和解释。
- 可以通过组合不同的模型来提高准确性。
- 当基础模型相当强大且互补时,效果很好。
四、装袋和投票之间的区别
五、混合
Blending 与 Stacking 非常相似。它还使用基础模型提供基础预测作为新特征,并在新特征上训练新的元模型,以给出最终预测。唯一的区别是,元模型的训练应用于单独的保留集(例如 train_data 的 10%),而不是完整和折叠的训练集。
6.1 混合的主要特征:
- 训练数据:原始数据集分为两部分:
- 训练集:用于训练基础模型。
- 保留集:用于从基础模型生成预测,然后用于训练元模型。
- 元模型:元模型根据基础模型对保留集的预测进行训练。该元模型学会结合基础模型的预测来做出最终预测。
堆叠(或堆叠泛化)是一种更复杂的集成方法,其中训练多个模型,并使用元模型组合它们的预测。堆叠使用交叉验证来训练元模型,使其更强大,但也更复杂。
混合——数据在训练、保留和测试中分离
5.2 堆叠的主要特征:
- 训练数据:将原始数据集分成k 倍进行交叉验证:
- 每个基础模型在 k-1 折上进行训练,并对剩余的折进行预测。此过程重复 k 次,每个折都用作一次验证集。
- 收集所有折叠的每个基础模型的预测并用于训练元模型。
- 元模型:在所有折叠中对基础模型的预测进行训练。该元模型学习结合基础模型的预测来做出最终预测。