集成学习 | 集成学习思想:Boosting

目录

  • 一. Boosting思想
    • 1. Adaboost 算法
      • 1.1 Adaboost算法构建流程
      • 1.2 sklearn库参数说明
    • 2. Gradient Boosting 算法
      • 2.1 Gradient Boosting算法构建流程
      • 2.2 Gradient Boosting算法的回归与分类问题
        • 2.2.1 Gradient Boosting回归算法
          • 均方差损失函数
          • 绝对误差损失函数
        • 2.2.2 Gradient Boosting分类算法
          • 对数损失函数(二分类)
          • 对数损失函数(多分类)
      • 2.3 sklearn库参数说明
    • 3. 小节:Bagging、Boosting区别
      • 1. 样本选择方式对比
      • 2. 样本权重对比
      • 3. 预测函数
      • 4. 并行计算
      • 5. 可解决问题

在上一篇中,我们讨论了集成学习中的Bagging方法,在本文中,我们将继续深入研究集成学习,学习Boosting方法

一. Boosting思想

在对Bagging思想中随机森林算法有了一定了解之后,我们会发现

	在随机森林构建过程中,各棵树之间是相对独立的
		也就是说:在构建第m棵子树的时候,不会考虑前面的m-1棵树

那么,我们能否对这个现象进行优化呢?

  1. 在构建第m棵子树的时候,考虑到前m-1棵子树的结果,会不会对最终
    结果产生有益的影响?
  2. 各个决策树组成随机森林后,最终结果能否存在一种既定的决策顺序,即哪颗子树先进行决策、哪颗子树后进行决策

针对上面提出的优化方向,集成学习又提出了提升学习(Boosting)思想

	思想:
		在弱学习器A的基础上训练得到弱学习器B
		弱学习器B+弱学习器A的预测结果一定优于弱学习器A
		即:每一步产生的弱预测模型加权累加到总模型中
	boosting意义:
		弱预测模型可以通过提升技术得到一个强预测模型
	boosting思想:
		可以用于回归和分类的问题

在这里插入图片描述

1. Adaboost 算法

Adaptive Boosting是一种迭代算法,即将基学习器的线性组合作为强学习器
    既可以用于分类问题,也可以用于回归问题
    AdaBoost算法主要用于解决分类问题,基学习器是CART分类树
    AdaBoost算法也可以用于解决回归问题,基学习器是CART回归树,这种变体被称为AdaBoost.R2

	具体操作:
		1. 训练数据集,产生一个新的弱学习器
		2. 使用该学习器对所有训练样本进行预测
		3. 评估每个样本的重要性,即为每个样本赋予一个权重
				 如果某个样本点被预测的越正确,则将样本权重降低
				 如果某个样本点被预测的越错误,则将样本权重提高,即,越难区分的样本在下一次迭代中会变得越重要
		       注意:这里样本的权重是归一的
		4. 通过迭代,得到n个基学习器
		   		对于误差率较小的基学习器以大的权重值
		   		对于误差率较大的基学习器以小的权重值 
		   			注意:这里基学习器的权重不归一
	    5. 线性组合所有基学习器

	停止条件:
		错误率足够小或者达到一定的迭代次数

以二分类任务为例子,Adaboost 将基分类器的线性组合作为强分类器,即
f ( x ) = ∑ m = 1 M α m G m ( x ) f(x) = \sum_{m=1}^{M}\alpha_{m}G_{m}(x) f(x)=m=1MαmGm(x)

公式解释:
G m ( x ) G_{m}(x) Gm(x)为基分类器,且 G m ( x ) = ± 1 G_{m}(x)=\pm1 Gm(x)=±1
α m \alpha_{m} αm为基分类器对应的权重,且 α m > 0 \alpha_{m}>0 αm>0,不归一

最终分类器是在线性组合的基础上进行Sign函数转换,因此最终的强学习器为:
G ( x ) = s i g n [ f ( x ) ] = s i g n [ ∑ m = 1 M α m G m ( x ) ] G(x) = sign[f(x)] = sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)] G(x)=sign[f(x)]=sign[m=1MαmGm(x)]
在这里插入图片描述

公式解释:

当所有样本的加权和为正数时,输出 G ( x ) = 1 G(x)=1 G(x)=1
当所有样本的加权和为负数时,输出 G ( x ) = − 1 G(x)=-1 G(x)=1
当所有样本的加权和为0时,返回任意值

根据上面的公式,我们用错误率构建损失函数,就会得到每个学习器的损失函数,即分错了的样本权重和
l o s s = ∑ i = 1 n w i I [ G ( x i ) ≠ y i ] , I ( b ) = { 1 , b = T r u e 0 , b = F a l s e , ∑ i = 1 n w i = 1 loss = \sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] ,I(b)=\left\{\begin{matrix}1,b=True \\0,b=False\end{matrix}\right.,\sum_{i=1}^{n} w_{i}=1{\tiny } loss=i=1nwiI[G(xi)=yi]I(b)={1b=True0b=Falsei=1nwi=1

公式解释:

x i , y i x_{i},y_{i} xi,yi分别为训练集的特征值和标签值

∑ i = 1 n \sum_{i=1}^{n} i=1n表示训练集中有n个样本

w i w_{i} wi为每个样本的权重,归一

G ( x i ) G(x_{i}) G(xi)为基学习器的预测值,即输入x值,输出+1 / -1

I [ G ( x i ) ≠ y i ] I[G(x_{i})\ne y_{i}] I[G(xi)=yi]表示当预测错误时, I 函数 I函数 I函数返回1

公式说明:

训练样本固定,但每个样本的权重不同,因此 G ( ) G( ) G()不同

这里,由于损失函数是分段函数,不方便求导,所以我们可以通过边界值来求导,即损失函数(上界)公式为:
l o s s = ∑ i = 1 n w i I [ G ( x i ) ≠ y i ] ≤ ∑ i = 1 n w i e ( − y i f ( x ) ) loss = \sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] \le \sum_{i=1}^{n}w_{i}e^{(-y_{i}f(x))} loss=i=1nwiI[G(xi)=yi]i=1nwie(yif(x))

公式解释:

G ( x i ) ≠ y i G(x_{i})\ne y_{i} G(xi)=yi I 函数 = 1 I函数=1 I函数=1,此时 f ( x ) < 0 , y i = 1 f(x)<0,y_{i} =1 f(x)<0yi=1,即 e x > 1 e^{x}>1 ex>1
G ( x i ) = y i G(x_{i})= y_{i} G(xi)=yi I 函数 = 0 I函数=0 I函数=0,此时 f ( x ) > 0 , y i = 1 f(x)>0,y_{i} =1 f(x)>0yi=1,即 e x > 0 e^{x}>0 ex>0

现在假设我们已经得到了第 k − 1 k-1 k1轮的强学习器:
f k − 1 ( x ) = ∑ j = 1 k − 1 α j G j ( x ) f_{k-1}(x)=\sum_{j=1}^{k-1}\alpha _{j}G_{j} (x) fk1(x)=j=1k1αjGj(x)

那么,对于第 k k k轮的强化学习器,可以写为:
f k ( x ) = f k − 1 ( x ) + α k G k ( x ) = ∑ j = 1 k α j G j ( x ) f_{k}(x)=f_{k-1}(x)+\alpha _{k}G_{k}(x)=\sum_{j=1}^{k}\alpha _{j}G_{j} (x) fk(x)=fk1(x)+αkGk(x)=j=1kαjGj(x)

因此对于第m次迭代,损失函数为:
l o s s ( α m , G m ( x ) ) = ∑ i = 1 n w m − 1 , i e − ( y i f m ( x ) ) loss(\alpha _{m},G_{m}(x)) = \sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}f_{m}(x))} loss(αm,Gm(x))=i=1nwm1,ie(yifm(x))

公式解释:

w m − 1 , i w_{m-1,i} wm1,i为第m-1轮中,每个样本的权重值

f m ( x ) f_{m}(x) fm(x)为第m轮传入的样本

注意:这里第m-1轮次的参数是已知的

公式推导:

= ∑ i = 1 n w m − 1 , i e − ( y i ( f m − 1 ( x ) + α m G m ( x ) ) ) =\sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}(f_{m-1}(x)+\alpha _{m}G_{m}(x)))} =i=1nwm1,ie(yi(fm1(x)+αmGm(x)))

= ∑ i = 1 n w m − 1 , i e − y i ( f m − 1 ( x ) ) e − y i ( α m G m ( x ) ) =\sum_{i=1}^{n}w_{m-1,i}e^{-y_{i}(f_{m-1}(x))}e^{-y_{i}(\alpha _{m}G_{m}(x))} =i=1nwm1,ieyi(fm1(x))eyi(αmGm(x))

= ∑ i = 1 n w m , i e − y i ( α m G m ( x ) ) =\sum_{i=1}^{n}w_{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))} =i=1nwm,ieyi(αmGm(x))

其中, w m , i = w m − 1 , i e − y i ( f m − 1 ( x ) ) w_{m,i}=w_{m-1,i}e^{-y_{i}(f_{m-1}(x))} wm,i=wm1,ieyi(fm1(x))

此时每个样本的权重值不归一,即 w m , i w_{m,i} wm,i不归一

w m − 1 , i w_{m-1,i} wm1,i除以一个常数,做归一化操作:
∑ i = i m w ˉ m , i = 1 \sum_{i=i}^{m} \bar{w}_{m,i}=1 i=imwˉm,i=1

最终的损失函数公式为:
l o s s ( a m , G m ( x ) ) = ∑ i = 1 n w ˉ m , i e − y i ( α m G m ( x ) ) loss(a_{m},G_{m}(x))=\sum_{i=1}^{n}\bar{w} _{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))} loss(am,Gm(x))=i=1nwˉm,ieyi(αmGm(x))

那么,使损失函数达到最小值的 α m α_{m} αm G m G_{m} Gm就是AdaBoost算法的第m个学习器的最终解;

因此,最佳的第m个学习器 G m G_{m} Gm公式为:
G m ∗ ( x ) = min ⁡ G m ( x ) ∑ i = 1 n w ˉ m , i I ( y i ≠ G m ( x i ) ) G_{m}^{*} (x)=\min_{G_{m}(x)}\sum_{i=1}^{n}\bar{w} _{m,i}I(y_{i}\ne G_{m}(x_{i})) Gm(x)=Gm(x)mini=1nwˉm,iI(yi=Gm(xi))

公式解释:

该公式表示:

使得样本权重在 w m , i w_{m,i} wm,i条件下,被分错的数量尽量的少

此时,误差为:
ϵ m = ∑ y i ≠ G m ( x ) w ˉ m , i \epsilon _{m}=\sum_{y_{i}\ne G_{m}(x)} \bar{w}_{m,i} ϵm=yi=Gm(x)wˉm,i

公式解释:
这里我们梳理一下求解逻辑:

  1. 首先通过前 m − 1 m-1 m1轮求出第 m m m轮的权重 w m , i w_{m,i} wm,i
  2. 得到权重 w m , i w_{m,i} wm,i后,通过最小化分错的数量,更新第m个学习器 G m ∗ G_{m}^{*} Gm
  3. 此时,也就得到了第m个学习器下分错样本的权重和,即 ϵ m \epsilon_{m} ϵm

在得到 G m ∗ 和 ϵ m G_{m}^{*}和\epsilon_{m} Gmϵm后,我们就会相应的得到第m轮学习器的权重 α m ∗ \alpha _{m}^{*} αm,即:
α m ∗ = 1 2 l n ( 1 − ϵ m ϵ m ) \alpha _{m}^{*} =\frac{1}{2}ln( \frac{1-\epsilon _{m}}{\epsilon _{m}} ) αm=21ln(ϵm1ϵm)

公式推导:

此时, G m ( x ) G_{m}(x) Gm(x)已知

l o s s ( a m , G m ( x ) ) loss(a_{m},G_{m}(x)) loss(am,Gm(x))

= ∑ i = 1 n w ˉ m , i e − y i ( α m G m ( x ) ) =\sum_{i=1}^{n}\bar{w} _{m,i}e^{-y_{i}(\alpha _{m}G_{m}(x))} =i=1nwˉm,ieyi(αmGm(x))

= ∑ y = G ( x ) w ˉ m , i e − α m + ∑ y ≠ G ( x ) w ˉ m , i e α m =\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\sum_{y\ne G(x)} \bar{w}_{m,i}e^{\alpha _{m}} =y=G(x)wˉm,ieαm+y=G(x)wˉm,ieαm

= ∑ y = G ( x ) w ˉ m , i e − α m + ϵ m e α m =\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}} =y=G(x)wˉm,ieαm+ϵmeαm

= ∑ y = G ( x ) w ˉ m , i e − α m + ϵ m e α m + ∑ y ≠ G ( x ) w ˉ m , i e − α m − ∑ y ≠ G ( x ) w ˉ m , i e − α m =\sum_{y = G(x)}\bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}}+\sum_{y\ne G(x)} \bar{w}_{m,i}e^{-\alpha _{m}}-\sum_{y\ne G(x)} \bar{w}_{m,i}e^{-\alpha _{m}} =y=G(x)wˉm,ieαm+ϵmeαm+y=G(x)wˉm,ieαmy=G(x)wˉm,ieαm

= ∑ i = 1 n w ˉ m , i e − α m + ϵ m e α m − ϵ m e − α m =\sum_{i=1}^{n} \bar{w}_{m,i}e^{-\alpha _{m}} +\epsilon _{m}e^{\alpha _{m}}-\epsilon _{m}e^{-\alpha _{m}} =i=1nwˉm,ieαm+ϵmeαmϵmeαm

= e − α m + ϵ m e α m − ϵ m e − α m =e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}-\epsilon _{m}e^{-\alpha _{m}} =eαm+ϵmeαmϵmeαm


通过对损失函数求导,即可得到 α m ∗ \alpha _{m}^{*} αm

d l o s s d α m = − e − α m + ϵ m e α m + ϵ m e − α m = 0 \frac{\mathrm{d} loss}{\mathrm{d} \alpha _{m}} =-e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}+\epsilon _{m}e^{-\alpha _{m}}=0 dαmdloss=eαm+ϵmeαm+ϵmeαm=0

⟹ ( ϵ m − 1 ) e − α m + ϵ m e α m = 0 \Longrightarrow (\epsilon _{m}-1)e^{-\alpha _{m} }+\epsilon _{m}e^{\alpha _{m}}=0 (ϵm1)eαm+ϵmeαm=0

⟹ ( 1 − ϵ m ) e − α m = ϵ m e α m \Longrightarrow(1-\epsilon _{m})e^{-\alpha _{m} }=\epsilon _{m}e^{\alpha _{m}} (1ϵm)eαm=ϵmeαm

⟹ e α m e − α m = ( 1 − ϵ m ) ϵ m \Longrightarrow \frac{e^{\alpha _{m}}}{e^{-\alpha _{m} }} =\frac{(1-\epsilon _{m})}{\epsilon _{m}} eαmeαm=ϵm(1ϵm)

⟹ e 2 a m = ( 1 − ϵ m ) ϵ m \Longrightarrow e^{2a_{m}} =\frac{(1-\epsilon _{m})}{\epsilon _{m}} e2am=ϵm(1ϵm)

⟹ l n e 2 a m = l n [ ( 1 − ϵ m ) ϵ m ] \Longrightarrow lne^{2a_{m}} =ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}] lne2am=ln[ϵm(1ϵm)]

⟹ a m = 1 2 l n [ ( 1 − ϵ m ) ϵ m ] \Longrightarrow a_{m} =\frac{1}{2} ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}] am=21ln[ϵm(1ϵm)]

1.1 Adaboost算法构建流程

  1. 存在训练数据集 X = ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . ( x n , y n ) X={(x1 ,y1 ),(x2 ,y2 )....(xn,yn)} X=(x1,y1),(x2,y2)....(xn,yn)
  2. 初始化每个样本的权重 D 1 = ( w 11 , w 12 , w 13 , . . . , w 1 n ) , w 1 i = 1 n ( i = 1 , 2 , 3... , n ) D_{1}=(w_{11},w_{12},w_{13},...,w_{1n}),w_{1i}=\frac{1}{n}(i=1,2,3...,n) D1=(w11,w12,w13,...,w1n)w1i=n1(i=1,2,3...,n)
  3. 使用具有权值分布D1的训练数据集学习,得到基分类器 G 1 ( x ) G_{1}(x) G1(x)
    注意:这里得到的是每个样本的预测值,即:+1或-1
  4. 根据预测值,计算 G 1 ( x ) G_{1}(x) G1(x)在训练集上的分类误差: ε 1 = P ( G 1 ≠ y ) = ∑ i = 1 n w ˉ m i I ( y i ≠ G m ( x i ) ) = ∑ y i ≠ G m ( x i ) w ˉ m i \varepsilon _{1}=P(G_{1}\ne y)=\sum_{i=1}^{n}\bar{w}_{mi}I(y_{i}\ne G_{m}(x_{i}))=\sum_{y_{i}\ne G_{m}(x_{i})}\bar{w}_{mi} ε1=P(G1=y)=i=1nwˉmiI(yi=Gm(xi))=yi=Gm(xi)wˉmi
  5. 计算 G 1 ( x ) G_{1}(x) G1(x)模型的权重系数 α 1 α_{1} α1
    α 1 = 1 2 l n [ ( 1 − ϵ m ) ϵ m ] α_{1}=\frac{1}{2} ln[\frac{(1-\epsilon _{m})}{\epsilon _{m}}] α1=21ln[ϵm(1ϵm)]
  6. 构建线性组合:
    f ( x ) = ∑ m = 1 M α m G m ( x ) f(x)=\sum_{m=1}^{M} \alpha _{m}G_{m}(x) f(x)=m=1MαmGm(x)
  7. 更新训练数据集中每个样本的权值分布,用来训练下一个基分类器
    D 2 = ( w 21 , w 22 , w 23 , . . . , w 2 n ) D_{2}=(w_{21},w_{22},w_{23},...,w_{2n}) D2=(w21,w22,w23,...,w2n)
    w 2 i = w 1 i e − y i α 1 G 1 ( x i ) w_{2i}=w_{1i}e^{-y_{i}\alpha _{1}G_{1}(x_{i})} w2i=w1ieyiα1G1(xi)

参数解释:

G 1 ( x i ) G_{1}(x_{i}) G1(xi)为上一个弱学习器的预测值,对应第3步

归一化: w m + 1 , i = w m , i Z m e − y i α m G m ( x i ) 归一化:w_{m+1,i}=\frac{w_{m,i}}{Z_{m}}e^{-y_{i}\alpha _{m}G_{m}(x_{i})} 归一化:wm+1,i=Zmwm,ieyiαmGm(xi)
其中, Z m = ∑ i = 1 M w m , i e − y i α m G m ( x i ) 其中,Z_{m}=\sum_{i=1}^{M}w_{m,i}e^{ -y_{i}\alpha _{m}G_{m}(x_{i})} 其中,Zm=i=1Mwm,ieyiαmGm(xi)
8. 重复上述操作
9. 得到最终的分类器
G ( x ) = s i g n [ f ( x ) ] = s i g n [ ∑ m = 1 M α m G m ( x ) ] G(x) = sign[f(x)] = sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)] G(x)=sign[f(x)]=sign[m=1MαmGm(x)]

1.2 sklearn库参数说明

对于sklearn.ensemble.AdaBoostClassifier或 sklearn.ensemble.AdaBoostRegressor:

	学习器:默认为CART分类树/ CART回归树
	最大迭代次数:值过小可能会导致欠拟合,值过大可能会导致过拟合,一般50~100比较适合,默认50
	学习率:调节学习速率,可以防止过拟合

2. Gradient Boosting 算法

Gradient Boosting,即梯度提升迭代决策树Gradient Boosting Decison Tree,与AdaBoost类似,也是加法模型;

	 AdaBoost算法:
	 	根据前一轮弱学习器的误差来更新样本权重值,然后进行迭代
	 GBDT算法:
	 	根据前一轮的弱学习器的误差来重新计算目标值,然后进行迭代

    GBDT算法既可以用于解决分类问题,也可以用于解决回归问题
    GBDT算法的基学习器是CART回归树

在这里插入图片描述

2.1 Gradient Boosting算法构建流程

	目标是找到使损失函数L(Y,F(X))的损失值最小的近似函数F(X)

F ( x ) = arg ⁡ min ⁡ c L ( y i , F ( x ) ) F(x) = \arg\min_{c}L(y_{i},F(x)) F(x)=argcminL(yi,F(x))

以回归任务为例子:

  1. 存在训练数据集 X = ( x 1 , y 1 ) , ( x 2 , y 2 ) . . . . ( x n , y n ) X={(x1 ,y1 ),(x2 ,y2 )....(xn,yn)} X=(x1,y1),(x2,y2)....(xn,yn)
  2. 给定第一个常数函数 f 0 f_{0} f0,即: f 0 ( x ) = c f_{0}(x) = c f0(x)=c

对于回归任务:

定义损失函数 L ( y , F ( x ) ) = 1 2 ( y − F ( x ) ) 2 L(y,F(x)) = \frac{1}{2}(y-F(x))^{2} L(y,F(x))=21(yF(x))2

  1. 在给定的常数函数的基础上,求损失最小:
    f 0 ( x ) = c = a r g min ⁡ c ∑ i = 1 n L ( y i , F ( x ) ) = a r g min ⁡ c ∑ i = 1 n 1 2 ( y i − c ) 2 f_{0}(x) = c=arg\min_{c} \sum_{i=1}^{n}L(y_{i},F(x))=arg\min_{c} \sum_{i=1}^{n}\frac{1}{2}(y_{i}-c)^{2} f0(x)=c=argcmini=1nL(yi,F(x))=argcmini=1n21(yic)2

在回归任务中,损失最小时,函数的预测值为:均值

即:c一般选择平均值

也就是说:所有Y值取平均

  1. 构造第1棵树:
    计算每一个样本损失函数的负梯度值:

    对于初始化常数函数,负梯度值为c

    对于第1棵树,第2棵树,… ,
    y i m = − ∂ L ( y i , F ( x i ) ) ∂ F ( x i ) y_{im} = -\frac{\partial L(y_{i},F(x_{i}))}{\partial F(x_{i})} yim=F(xi)L(yi,F(xi))
    其中, F ( x ) = F m − 1 ( x ) 其中,F(x)=F_{m-1}(x) 其中,F(x)=Fm1(x)

公式解释:

F m − 1 ( x ) F_{m-1}(x) Fm1(x)是前 m − 1 m-1 m1个CART树的和
F m − 1 ( x ) = ∑ j = 0 m − 1 f j ( x ) F_{m-1}(x)=\sum_{j=0}^{m-1} f_{j}(x) Fm1(x)=j=0m1fj(x)
对于第1棵树, F 2 − 1 ( x ) = f 0 ( x ) F_{2-1}(x)=f_{0}(x) F21(x)=f0(x)

对于第2棵树, F 3 − 1 ( x ) = f 0 ( x ) + f 1 ( x ) F_{3-1}(x)=f_{0}(x)+f_{1}(x) F31(x)=f0(x)+f1(x)

  1. 通过求解负梯度值,更新Y值:
    对于最小二乘损失构造的损失函数,负梯度值就为残差:
    y i m = y i − F m − 1 ( x i ) y_{im}=y_{i}-F_{m-1}(x_{i}) yim=yiFm1(xi)

  2. 更新模型
    F ( x ) = ∑ i = 0 M f i ( x ) F(x)=\sum_{i=0}^{M} f_{i}(x) F(x)=i=0Mfi(x)

  3. 重复第4步-第6步操作

  4. 为了防止每个学习器能力过强而导致过拟合,在上述的学习过程中可以给定一个学习率v:
    F ( x ) = v ∑ i = 0 M f i ( x ) F(x)=v\sum_{i=0}^{M} f_{i}(x) F(x)=vi=0Mfi(x)

     	v减小时,M个数变多
    

2.2 Gradient Boosting算法的回归与分类问题

GBDT回归算法和分类算法的唯一区别:
    选择的损失函数不同,因此对应的负梯度值不同,采用的模型初值也不一样

2.2.1 Gradient Boosting回归算法
	损失函数选择一般是均方差(最小二乘)和绝对值误差
均方差损失函数
  • 损失函数:$L(y,F_{m}(x))=\frac{1}{2}(y-F_{m}(x))^{2} $
  • 负梯度值: y i m = y i − F m − 1 ( x ) y_{im}=y_{i}-F_{m-1}(x) yim=yiFm1(x)
  • 初始值:一般采用均值作为初始值
绝对误差损失函数
  • 损失函数: L ( y , F m ( x ) ) = ∣ y − F m ( x ) ∣ L(y,F_{m}(x))=|y-F_{m}(x)| L(y,Fm(x))=yFm(x)
  • 负梯度值: y i m = s i g n ( y i − F m − 1 ( x ) ) y_{im}=sign(y_{i}-F_{m-1}(x)) yim=sign(yiFm1(x))
  • 初始值:一般采用中值作为初始值
2.2.2 Gradient Boosting分类算法
	分类算法中一般选择对数损失函数来表示
对数损失函数(二分类)
  • 损失函数: L ( y , F m ( x ) ) = − [ y l n ( p m ) + ( 1 − y ) l n ( 1 − p m ) ] , 其中 p m = 1 1 + e − F m ( x ) L(y,F_{m}(x))=-[yln(p_{m})+(1-y)ln(1-p_{m})],其中p_{m}=\frac{1}{1+e^{-F_{m}(x)}} L(y,Fm(x))=[yln(pm)+(1y)ln(1pm)],其中pm=1+eFm(x)1
  • 负梯度值: y i m = y i − p m y_{im}=y_{i}-p_{m} yim=yipm
  • 初始值:一般采用 l n ( 正样本个数 / 负样本个数 ) ln(正样本个数/负样本个数) ln(正样本个数/负样本个数)作为初始值
对数损失函数(多分类)
  • 损失函数: L ( y , F m l ( x ) ) = − ∑ k = 1 K y k l n p k ( x ) , 其中 p k ( x ) = e f k ( x ) ∑ l = 1 K e f l ( x ) L(y,F_{ml}(x))=-\sum_{k=1}^{K}y_{k}lnp_{k} (x),其中p_{k}(x)=\frac{e^{f_{k}(x)}}{\sum_{l=1}^{K}e^{f_{l}(x)} } L(y,Fml(x))=k=1Kyklnpk(x),其中pk(x)=l=1Kefl(x)efk(x)
  • 负梯度值: y i m l = y i l − p m l ( x ) y_{iml}=y_{il}-p_{ml}(x) yiml=yilpml(x)
  • 初始值:一般采用0作初始值

2.3 sklearn库参数说明

对于sklearn.ensemble.GradientBoostingClassifier或 sklearn.ensemble.GradientBoostingRegressor:

	loss:
		分类:对数似然函数deviance / 指数损失函数exponential;
			  默认为deviance;不建议修改
		回归:均方差ls / 绝对损失lad / Huber损失 huber / 分位数损失quantile
			  默认ls;一般采用默认
			  如果噪音数据比较多,推荐huber
			  如果是分段预测,推荐 quantile
	最大迭代次数:值过小可能会导致欠拟合,值过大可能会导致过拟合,一般50~100比较适合,默认50
	学习率:默认为1;一般从一个比较小的值开始进行调参;该值越小表示需要更多的弱分类器
	subsample:不放回采样
			   默认为1,表示不采用子采样;
			   小于1时,表示采用部分数据进行模型训练,可以降低模型的过拟合情况
			   推荐[0.5,0.8]:

3. 小节:Bagging、Boosting区别

1. 样本选择方式对比

Bagging思想是有放回的随机采样
Boosting思想是每一轮训练集不变
        改变的是训练集样本在分类器的权重 / 目标属性y
        权重 / y值都是根据上一轮的预测结果进行调整

2. 样本权重对比

Bagging思想使用随机抽样,样例是等权重
Boosting思想根据样本被分类错误与否,不断的调整样本的权重值,分类错误的样本权重大(Adaboost)

3. 预测函数

Bagging思想所有预测模型的权重相等
Boosting思想对于误差小的分类器具有更大的权重(Adaboost)

4. 并行计算

Bagging思想可以并行生成各个基模型
Boosting思想理论上只能顺序生产,因为后一个模型需要前一个模型的结果

5. 可解决问题

Bagging思想是减少模型的variance(方差)
        基学习器分散,总模型几种
Boosting思想是减少模型的Bias(偏度)
        基学习器不断更新模型,达到目标值

e r r o r = B i a s + V a r i a n c e error = Bias + Variance error=Bias+Variance
在这里插入图片描述

对于Low Variance & Low Bias:模型准确
对于High Variance & Low Bias:模型准但不确
                             方差大,过拟合现象 => bagging
对于Low Variance & High Bias:模型确但不准
                             偏度大,欠拟合现象 => boosting

对于High Variance & High Bias:模型不准确
在这里插入图片描述

bagging是对许多强(甚至过强)的分类器求平均

	此时每个单独的分类器bias都是低的,平均之后bias依然低;
	然而每个单独的分类器variance都很高,平均之后就是降低这个variance

boosting是把许多弱分类器组合成一个强的分类器

	Boosting是迭代算法,每一次迭代都根据上一次迭代的预测结果,对样本进行加权
	随着迭代不断进行,误差会越来越小,所以模型的 bias 会不断降低;所以说boosting起到了降低bias的作用
	
	variance不是boosting的主要考虑因素

感谢阅读🌼
如果喜欢这篇文章,记得点赞👍和转发🔄哦!
有任何想法或问题,欢迎留言交流💬,我们下次见!
本文相关代码存放位置
    【Boosting思想 代码实现

祝愉快🌟!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/484251.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringMVC结合设计模式:解决MyBatisPlus传递嵌套JSON数据的难题

&#x1f389;&#x1f389;欢迎光临&#xff0c;终于等到你啦&#x1f389;&#x1f389; &#x1f3c5;我是苏泽&#xff0c;一位对技术充满热情的探索者和分享者。&#x1f680;&#x1f680; &#x1f31f;持续更新的专栏《Spring 狂野之旅&#xff1a;从入门到入魔》 &a…

有道翻译实现接口加密解密

文章目录 目标简单逆向分析源码深度逆向分析参考文献目标 实现对网易有道 sign 等参数的加密 及 返回的密文数据解密实现 简单逆向分析 首先在右上角提前登录好账号信息。 输入中文:你好 要求翻译成:英文 全局搜索:你好 或 hello,结果没有发现什么。 切换 Fetch/XHR …

QML ShapePath绘制虚线

一.qml PathLine介绍 在 QML&#xff08;Qt Modeling Language&#xff09;中&#xff0c;PathLine 是 Path 元素的一个子类型&#xff0c;用于创建两点之间的直线段。Path 类型用于描述一个二维路径&#xff0c;可以用来绘制形状、曲线和直线。PathLine 是所有路径曲线中最简单…

Day60:WEB攻防-PHP反序列化POP链构造魔术方法流程漏洞触发条件属性修改

目录 PHP-DEMO1-序列化和反序列化 序列化操作 - 即类型转换 序列化案例 PHP-DEMO2-魔术方法触发规则 __construct(): //当对象new的时候会自动调用 __destruct()&#xff1a;//当对象被销毁时会被自动调用 __sleep(): //serialize()执行时被自动调用 __wakeup(): //uns…

高中信息技术教资刷题笔记_选择题篇

1.信息技术基础 位与字节的换算 模2除法运算 网页保存 进制之间的计算 教你快速学会二进制、十进制、十六进制之间的转换 - 知乎 (zhihu.com) 原码、补码、反码计算 物联网技术 位运算 按位与&#xff1a;同位置为1&#xff0c;则为1&#xff0c;其他都是0按位或&#xff1a;有…

2024年产品品牌化深度分析:消费者心理与品牌化、产品质量的权衡

随着市场竞争的加剧和消费者需求的多样化&#xff0c;产品品牌化已经成为企业不可或缺的战略选择。在2024年&#xff0c;当消费者面对众多商品时&#xff0c;品牌化与产品质量之间的权衡成为了消费者决策的重要因素。那么&#xff0c;在消费者心理中&#xff0c;品牌化重要还是…

Docker 之 数据卷

目录 1. 数据卷是什么 1.1 运行一个带有容器卷存储功能的容器实例 2.能干什么 3. 容器卷案例 3.1 宿主机vs容器之间映射添加容器卷 3.1.1 命令添加&#xff1a; 3.1.2 查看数据卷是否挂载成功 3.1.3 容器和宿主机之间数据共享 3.2 读写规则映射添加说明 3.2.1 读写&…

详解:JS异步解决方案之回调函数,及其弊端

「异步编程」是前端工程师日常开发中经常会用到的技术&#xff0c;异步的实现有好几种方式&#xff0c;各有利弊&#xff0c;本篇先讲通过回调来实现来异步 。 一、同步和异步 同步编程和异步编程是两种不同的编程方式。 同步编程是指按照代码的顺序执行&#xff0c;每一行代…

前端小卡片:vue3路由是什么,有什么作用,该如何配置?

在 Vue 3 中&#xff0c;路由的处理使用了 Vue Router&#xff0c;它是官方提供的路由管理器。Vue Router 用于实现单页应用中的路由功能&#xff0c;通过将不同的 URL 映射到对应的组件&#xff0c;实现页面之间的切换和导航。 Vue Router 的作用包括&#xff1a; 实现页面之…

Python并发编程:线程和多线程的使用

前面的文章&#xff0c;我们讲了什么Python的许多基础知识&#xff0c;现在我们开始对Python并发编程进行学习。我们将探讨 Python 中线程和多线程的使用。帮助大家更好地理解如何使用这种技术。 目录 1. 线程&#xff08;Threads&#xff09; 1.1 Python 中的线程工作原理 …

《妈妈是什么》笔记(五) 一切负面经验都必须转化为正面角度

经典摘录 我的引导原则是&#xff0c;一切负面经验都必须转化为正面角度。我们不能选择孩子的经历&#xff0c;但是可以帮助孩子选择如何看待这些事情&#xff0c;以及如何积极地利用这些事情&#xff0c;锤炼自己的社会交往能力。 比如&#xff0c; 别人&#xff08;老师、同…

正则表达式具体用法大全~持续更新

# 正则表达式&#xff1a; ## 单字符匹配&#xff1a; python # 匹配某个字符串&#xff1a; # text "abc" # ret re.match(b,text) # print(ret.group()) # 点&#xff08;.&#xff09;&#xff1a;匹配任意的字符(除了\n)&#xff1a; # text "\nabc&quo…

Navicat 干货 | 探索 PostgreSQL 的外部数据包装器和统计函数

PostgreSQL 因其稳定性和可扩展性而广受青睐&#xff0c;为开发人员和数据管理员提供了许多有用的函数。在这些函数中&#xff0c;file_fdw_handler、file_fdw_validator、pg_stat_statements、pg_stat_statements_info 以及 pg_stat_statements_reset 是其中的重要函数&#x…

记一次由于buff/cache导致服务器内存爆满的问题

目录 前言 复现 登录服务器查看占用内存进程排行 先了解一下什么是buff/cache&#xff1f; 尝试释放buffer/cache /proc/sys/vm/drop_caches dirty_ratio dirty_background_ratio dirty_writeback_centisecs dirty_expire_centisecs drop_caches page-cluster swap…

2024年计算机三级|数据库习题整理(自用④)

所有题目均来自【三级数据库技术基础题库】&#xff0c;此博客仅为知识点的补充&#xff0c;用于自主的回顾学习&#xff0c;仅供参考。 选择题 知识点&#xff1a;数据库文件 透明性分级&#xff1a; ①分片透明性 > ②位置透明性 > ③局部数据模型透明性 数据仓库数据…

vector类详解及重要函数实现

&#x1fa90;&#x1fa90;&#x1fa90;欢迎来到程序员餐厅&#x1f4ab;&#x1f4ab;&#x1f4ab; 今日主菜&#xff1a;vector类 主厨&#xff1a;邪王真眼 所属专栏&#xff1a;c专栏 主厨的主页&#xff1a;Chef‘s blog 坚持下去&#xff0c;成功不是目的&a…

阿里二面:谈谈ThreadLocal的内存泄漏问题?问麻了。。。。

引言 ThreadLocal在Java多线程编程中扮演着重要的角色&#xff0c;它提供了一种线程局部存储机制&#xff0c;允许每个线程拥有独立的变量副本&#xff0c;从而有效地避免了线程间的数据共享冲突。ThreadLocal的主要用途在于&#xff0c;当需要为每个线程维护一个独立的上下文…

基于Python3的数据结构与算法 - 20 AVL的旋转

一、二叉搜索树的效率 平均情况下&#xff0c;二叉搜索树进行搜索的时间复杂度为O(lgn)。最坏情况下&#xff0c;二叉搜索树可能非常偏斜。&#xff08;如下图所示&#xff09;解决方法&#xff1a; 随机化插入AVL树 二、AVL树 AVL树是一棵自平衡的二叉树AVL树具有以下性质&…

自动驾驶感知新范式——BEV感知经典论文总结和对比(一)

自动驾驶感知新范式——BEV感知经典论文总结和对比&#xff08;一&#xff09; 博主之前的博客大多围绕自动驾驶视觉感知中的视觉深度估计&#xff08;depth estimation&#xff09;展开&#xff0c;包括单目针孔、单目鱼眼、环视针孔、环视鱼眼等&#xff0c;目标是只依赖于视…

YOLOv8:Roboflow公开数据集训练模型

Roboflow公开数据集 Roboflow是一个提供计算机视觉数据集管理和处理工具的平台。虽然Roboflow本身并不创建或策划公开数据集&#xff0c;但它提供了一系列功能&#xff0c;帮助用户组织、预处理、增强和导出计算机视觉数据集。 官方网站&#xff1a;https://universe.roboflow…