头歌-机器学习 第12次实验 Adaboost算法

第1关:什么是集成学习

任务描述

本关任务:根据本节课所学知识完成本关所设置的选择题。

相关知识

为了完成本关任务,你需要掌握:1.什么是集成学习。

什么是集成学习

集成学习方法是一种常用的机器学习方法,分为baggingboosting两种方法,应用十分广泛。集成学习基本思想是:对于一个复杂的学习任务,我们首先构造多个简单的学习模型,然后再把这些简单模型组合成一个高效的学习模型。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。

集成学习采取投票的方式来综合多个简单模型的结果,按bagging投票思想,如下面例子:

假设一共训练了5个简单模型,每个模型对分类结果预测如上图,则最终预测结果为: A:2 B:3 3>2 结果为B

不过在有的时候,每个模型对分类结果的确定性不一样,即有的对分类结果非常肯定,有的不是很肯定,说明每个模型投的一票应该是有相应的权重来衡量这一票的重要性。就像在歌手比赛中,每个观众投的票记1分,而专家投票记10分。按boosting投票思想,如下例:

A:(0.9+0.4+0.3+0.8+0.2)/5=0.52 B:(0.1+0.6+0.7+0.2+0.8)/5=0.48 0.52>0.48 结果为A

闯关要求

根据所学知识完成右侧选择题!!!

1、对于一个二分类问题,假如现在训练了500个子模型,每个模型权重大小一样。若每个子模型正确率为51%,则整体正确率为多少?若把每个子模型正确率提升到60%,则整体正确率为多少?(C)


A、51%,60%

B、60%,90%

C、65.7%,99.99%

D、65.7%,90%

第2关: Boosting

任务描述

本关任务:根据本节课所学知识完成本关所设置的选择题。 ####相关知识 为了完成本关任务,你需要掌握:1.Boosting。 #####Boosting 提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。

历史上,KearnsValiant首先提出了强可学习弱可学习的概念。指出:在PAC学习的框架中,一个概念,如果存在一个多项式的学习算法能够学习它,并且正确率很高,那么就称这个概念是强可学习的;一个概念,如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。非常有趣的是Schapire后来证明强可学习与弱可学习是等价的,也就是说,在PAC学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习的。

这样一来,问题便成为,在学习中,如果已经发现了弱学习算法,那么能否将它提升强学习算法。大家知道,发现弱学习算法通常要比发现强学习算法容易得多。那么如何具体实施提升,便成为开发提升方法时所要解决的问题。

bagging不同,boosting采用的是一个串行训练的方法。首先,它训练出一个弱分类器,然后在此基础上,再训练出一个稍好点的弱分类器,以此类推,不断的训练出多个弱分类器,最终再将这些分类器相结合,这就是boosting的基本思想,流程如下图:

可以看出,子模型之间存在强依赖关系,必须串行生成。boosting是利用不同模型的相加,构成一个更好的模型,求取模型一般都采用序列化方法,后面的模型依据前面的模型。

1、现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗?(B)

A、是

B、不是

C、不确定

第3关:Adaboost算法流程

任务描述

本关任务:用Python实现Adaboost,并通过鸢尾花数据集中鸢尾花的2种属性与种类对Adaboost模型进行训练。我们会调用你训练好的Adaboost模型,来对未知的鸢尾花进行分类。

相关知识

为了完成本关任务,你需要掌握:1.Adaboost算法原理,2.Adaboost算法流程。

数据集介绍

数据集为鸢尾花数据,一共有150个样本,每个样本有4个特征,由于Adaboost是一个串行的迭代二分类算法,运算成本较大,为了减轻运算成本,我们只利用其中两个特征与两种类别构造与训练模型,且adaboost算法返回的值为1-1,所以要将标签为0的数据改为-1部分数据如下图:

数据获取代码:

 
  1. #获取并处理鸢尾花数据
  2. def create_data():
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data, columns=iris.feature_names)
  5. df['label'] = iris.target
  6. df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
  7. data = np.array(df.iloc[:100, [0, 1, -1]])
  8. #将标签为0的数据标签改为-1
  9. for i in range(len(data)):
  10. if data[i,-1] == 0:
  11. data[i,-1] = -1
  12. return data[:,:2], data[:,-1]
Adaboost算法原理

对提升方法来说,有两个问题需要回答:一是在每一轮如何改变训练数据的权值或概率分布;二是如何将弱分类器组合成一个强分类器。关于第1个问题,AdaBoost的做法是,提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。这样一来,那些没有得到正确分类的数据,由于其权值的加大而受到后一轮的弱分类器的更大关注。于是,分类问题被一系列的弱分类器“分而治之”。至于第2个问题,即弱分类器的组合,AdaBoost采取加权多数表决的方法,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用

Adaboost算法流程

AdaBoostAdaptiveBoost的缩写,表明该算法是具有适应性的提升算法。

算法的步骤如下:

1.给每个训练样本(x1​,x2​,..,xN​)分配权重,初始权重w1​均为1/N

2.针对带有权值的样本进行训练,得到模型Gm​(初始模型为$$G _1$$)

3.计算模型Gm​的误分率:

em​=i∑N​wi​I(yi​​=GM​(Xi​))

其中:

I(yi​​=GM​(Xi​)

为指示函数,表示括号内成立时函数值为1,否则为0

4.计算模型Gm​的系数:

αm​=21​log[em​1−em​​]

5.根据误分率e和当前权重向量wm​更新权重向量:

wm+1,i​=zm​wm​​exp(−αm​yi​Gm​(xi​))

其中Zm​为规范化因子:

zm​=i=1∑m​wmi​exp(−αm​yi​Gm​(xi​))

6.计算组合模型f(x)=∑m=1M​αm​Gm​(xi​)的误分率

7.当组合模型的误分率或迭代次数低于一定阈值,停止迭代;否则,回到步骤 2

编程要求

根据提示,在右侧编辑器补充 Python 代码,实现Adaboost算法,并利用训练好的模型对鸢尾花数据进行分类。

测试说明

只需返回分类结果即可,程序内部会检测您的代码,预测正确率高于95%视为过关。

#encoding=utf8

import numpy as np

#adaboost算法
class AdaBoost:
    '''
    input:n_estimators(int):迭代轮数
          learning_rate(float):弱分类器权重缩减系数
    '''
    def __init__(self, n_estimators=50, learning_rate=1.0):
        self.clf_num = n_estimators
        self.learning_rate = learning_rate
    
    def init_args(self, datasets, labels):
        
        self.X = datasets
        self.Y = labels
        self.M, self.N = datasets.shape
        
        # 弱分类器数目和集合
        self.clf_sets = []
        
        # 初始化weights
        self.weights = [1.0/self.M]*self.M
        
        # G(x)系数 alpha
        self.alpha = []    
    def _G(self, features, labels, weights):
        '''
        input:features(ndarray):数据特征
              labels(ndarray):数据标签
              weights(ndarray):样本权重系数
        '''
        #********* Begin *********#
        m = len(features)
        error = 100000.0 # 无穷大
        beat_v = 0.0
        #单维features
        features_min = min(features)
        features_max = max(features)
        n_step = (features_max-features_min+self.learning_rate) // self.learning_rate
        direct,compare_array = None,None
        for i in range(1,int(n_step)):
            v = features_min + self.learning_rate * i

            if v not in features:
                # 误分类计算
                compare_array_positive = np.array(
                    [1 if features[k] > v else -1 for k in range(m)])
                weight_error_positive = sum([
                    weights[k] for k in range(m)
                    if compare_array_positive[k] != labels[k]
                ])

                compare_array_nagetive = np.array(
                    [-1 if features[k] > v else 1 for k in range(m)])
                weight_error_nagetive = sum([
                    weights[k] for k in range(m)
                    if compare_array_nagetive[k] != labels[k]
                ])

                if weight_error_positive < weight_error_nagetive:
                    weight_error = weight_error_positive
                    _compare_array = compare_array_positive
                    direct = 'positive'
                else:
                    weight_error = weight_error_nagetive
                    _compare_array = compare_array_nagetive
                    direct = 'nagetive'

                # print('v:{} error:{}'.format(v, weight_error))
                if weight_error < error:
                    error = weight_error
                    compare_array = _compare_array
                    best_v = v
        return best_v, direct, error, compare_array
    # 计算alpha
    def _alpha(self, error):
        return 0.5 * np.log((1 - error) / error)

    # 规范化因子
    def _Z(self, weights, a, clf):
        return sum([
            weights[i] * np.exp(-1 * a * self.Y[i] * clf[i])
            for i in range(self.M)
        ])

    # 权值更新
    def _w(self, a, clf, Z):
        for i in range(self.M):
            self.weights[i] = self.weights[i] * np.exp(
                -1 * a * self.Y[i] * clf[i]) / Z

    # G(x)的线性组合
    def _f(self, alpha, clf_sets):
        pass

    def G(self, x, v, direct):
        if direct == 'positive':
            return 1 if x > v else -1
        else:
            return -1 if x > v else 1

    def fit(self, X, y):
        self.init_args(X, y)

        for epoch in range(self.clf_num):
            axis = 0
            final_direct = 'null'
            best_clf_error, best_v, clf_result = 100000, None, None
            # 根据特征维度, 选择误差最小的
            for j in range(self.N):
                features = self.X[:, j]
                # 分类阈值,分类误差,分类结果
                v, direct, error, compare_array = self._G(
                    features, self.Y, self.weights)

                if error < best_clf_error:
                    best_clf_error = error
                    best_v = v
                    final_direct = direct
                    clf_result = compare_array
                    axis = j  # axis数字代表第几个属性列

                # print('epoch:{}/{} feature:{} error:{} v:{}'.format(epoch, self.clf_num, j, error, best_v))
                if best_clf_error == 0:
                    break

            # 计算G(x)系数a
            a = self._alpha(best_clf_error)
            self.alpha.append(a)
            # 记录分类器
            self.clf_sets.append((axis, best_v, final_direct))
            # 规范化因子
            Z = self._Z(self.weights, a, clf_result)
            # 权值更新
            self._w(a, clf_result, Z)
                

        #********* End *********#            
    def predict(self, feature):
        result = 0.0
        for i in range(len(self.clf_sets)):
            axis, clf_v, direct = self.clf_sets[i]
            f_input = feature[axis]
            result += self.alpha[i] * self.G(f_input, clf_v, direct)
        # sign
        return 1 if result > 0 else -1
    
    def score(self, X_test, y_test):
        right_count = 0
        for i in range(len(X_test)):
            feature = X_test[i]
            if self.predict(feature) == y_test[i]:
                right_count += 1
        
        return right_count / len(X_test)





























第4关:sklearn中的Adaboost

任务描述

本关任务:你需要调用sklearn中的Adaboost模型,并通过鸢尾花数据集中鸢尾花的2种属性与种类对Adaboost模型进行训练。我们会调用你训练好的Adaboost模型,来对未知的鸢尾花进行分类。

相关知识

为了完成本关任务,你需要掌握:1.AdaBoostClassifier

数据介绍

数据集为鸢尾花数据,一共有150个样本,每个样本有4个特征,由于Adaboost是一个串行的迭代二分类算法,运算成本较大,为了减轻运算成本,我们只利用其中两个特征与两种类别构造与训练模型,且adaboost算法返回的值为1-1,所以要将标签为0的数据改为-1部分数据如下图:

数据获取代码:

 
  1. #获取并处理鸢尾花数据
  2. def create_data():
  3. iris = load_iris()
  4. df = pd.DataFrame(iris.data, columns=iris.feature_names)
  5. df['label'] = iris.target
  6. df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
  7. data = np.array(df.iloc[:100, [0, 1, -1]])
  8. #将标签为0的数据标签改为-1
  9. for i in range(len(data)):
  10. if data[i,-1] == 0:
  11. data[i,-1] = -1
  12. return data[:,:2], data[:,-1]
AdaBoostClassifier

AdaBoostClassifier 的构造函数中有四个常用的参数可以设置:

  • algorithm:这个参数只有 AdaBoostClassifier 有。主要原因是scikit-learn 实现了两种 Adaboost 分类算法,SAMMESAMME.R。两者的主要区别是弱学习器权重的度量,SAMME.R使用了概率度量的连续值,迭代一般比SAMME快,因此 AdaBoostClassifier 的默认算法algorithm的值也是SAMME.R
  • n_estimators:弱学习器的最大迭代次数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。默认是50
  • learning_rate: AdaBoostClassifier 和 AdaBoostRegressor 都有,即每个弱学习器的权重缩减系数ν,默认为1.0
  • base_estimator:弱分类学习器或者弱回归学习器。理论上可以选择任何一个分类或者回归学习器,不过需要支持样本权重。我们常用的一般是 CART 决策树或者神经网络 MLP。

sklearn中其他分类器一样,AdaBoostClassifier 类中的fit函数用于训练模型,fit函数有两个向量输入:

  • X:大小为**[样本数量,特征数量]**的ndarray,存放训练样本
  • Y:值为整型,大小为[样本数量]的ndarray,存放训练样本的分类标签

AdaBoostClassifier 类中的predict函数用于预测,返回预测标签,predict函数有一个向量输入:

X:大小为**[样本数量,特征数量]**的ndarray,存放预测样本 AdaBoostClassifier的使用代码如下:

 
  1. ada=AdaBoostClassifier(n_estimators=5,learning_rate=1.0)
  2. ada.fit(train_data,train_label)
  3. predict = ada.predict(test_data)
编程要求

填写ada_classifier(train_data,train_label,test_data)函数完成鸢尾花分类任务,其中:

  • train_data:训练样本
  • train_label:训练标签
  • test_data:测试样本
测试说明

只需返回预测结果即可,程序内部会检测您的代码,预测正确率高于95%视为过关。

#encoding=utf8
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier

def ada_classifier(train_data,train_label,test_data):
    '''
    input:train_data(ndarray):训练数据
          train_label(ndarray):训练标签
          test_data(ndarray):测试标签
    output:predict(ndarray):预测结果
    '''
    #********* Begin *********#
    ada=AdaBoostClassifier(base_estimator=DecisionTreeClassifier
         (max_depth=2,min_samples_split=10,min_samples_leaf=5),
         n_estimators=50,learning_rate=0.2)
    ada.fit(train_data,train_label)
    predict=ada.predict(test_data)

    

    #********* End *********# 
    return predict

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/534194.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity 遮罩

编辑器版本 2017.2.3f1 学习Unity的三张遮罩方式 1. Mask 遮罩方式 首先&#xff0c;在界面上创建2个Image&#xff0c;一个命名Img_Mask,大小设置 400* 400&#xff0c; 一个命名Img_Show,大小设置500*500。 然后&#xff0c;给 Img_Mask添加Mask,选择Img_Mask,点击Add Com…

面试算法-170-二叉树的最大深度

题目 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3 解 class Solution {public int maxDepth(TreeNod…

卷积运算及实现

本文介绍卷积运算及实现。 1.定义 线性时不变系统的输出是输入样本与系统的冲激响应的卷积。这里假设输入样本为x(n)&#xff0c;系统冲激响应为h(n)&#xff0c;系统输出为y(n)&#xff0c;则 线性卷积计算过程包含以下4个步骤&#xff1a; 1)折叠&#xff0c;关于l0&#…

The C programming language (second edition,KR) exercise(CHAPTER 2)

E x c e r c i s e 2 − 1 Excercise\quad 2-1 Excercise2−1&#xff1a;输出结果如图1和图2所示&#xff0c;这道练习题需要文章1和文章2的知识。 #include <stdio.h> #include <limits.h>float getFloat(char sign, unsigned char exp, unsigned mantissa); do…

抖音小店无货源怎么做?新型无货源玩法,帮商家躲避无货源处罚!

大家好&#xff0c;我是电商糖果 关于现在抖店的商家&#xff0c;是谈“无货源”色变&#xff0c;被平台罚怕了。 动不动就是扣分&#xff0c;扣2000的保证金&#xff0c;商家是苦不堪言。 又不舍得放弃抖音小店现在热度和风口。 糖果做抖音小店无货源有四年时间了&#xf…

WritableComparable排序案例实操

文章目录 WritableComparable排序概述第一个案例需求&#xff08;全排序&#xff09;代码实现结果分析 第二个案例需求&#xff08;二次排序&#xff09;问题分析和代码结果分析 第三个案例需求&#xff08;区内排序&#xff09;需求分析代码实现结果分析 WritableComparable排…

材料物理 笔记-5

原内容请参考哈尔滨工业大学何飞教授&#xff1a;https://www.bilibili.com/video/BV18b4y1Y7wd/?p12&spm_id_frompageDriver&vd_source61654d4a6e8d7941436149dd99026962 或《材料物理性能及其在材料研究中的应用》&#xff08;哈尔滨工业大学出版社&#xff09; 半…

激光测距漫反射板

激光测距漫反射板是一种重要的光学元件&#xff0c;广泛应用于工业测量、自动化控制、机器人导航等领域。自动驾驶技术的发展日新月异&#xff0c;其中激光测距技术在自动驾驶车辆中发挥着至关重要的作用。而激光测距反射板作为激光测距的关键组件之一&#xff0c;其性能和应用…

基于RKNN的YOLOv5安卓Demo

1.简介 基于RKNPU2 SDK 1.6.0版的安卓YOLOv5演示应用程序&#xff0c;选择图片进行对象检测并显示识别结果。 GitHub源码地址&#xff1a;https://github.com/shiyinghan/rknn-android-yolov5 2.实现过程 参考RKNN官方库RKNN Model Zoo提供的YOLOv5对象检测demo&#xff0c…

短袖怎么选质量好?5款质量好的短袖T恤

最近天气逐渐开始变热了&#xff0c;不少朋友都在考虑选什么短袖比较好。由于现在市面上的短袖品牌实在太多&#xff0c;并且还有很多做工差、面料不好的短袖混杂在其中&#xff0c;让大家挑选短袖十分困难。为此我特意进行了一次短袖测评&#xff0c;总结出几点选购方法&#…

C++ 之 newmat 矩阵运算库使用笔记

文章目录 Part.I IntroductionChap.I newmat 简介 Part.II 安装与编译Chap.I 直接使用源码Chap.II 基于 CMake 使用源码Chap.III 编译成库 Part.III 关于矩阵的构造与运算Chap.I 矩阵的构造与初始化Chap.II 矩阵的运算Chap.III 矩阵维数和类型的更改Chap.IV 矩阵最值统计 Refer…

可视化大屏的应用(11):智慧运维领域的得力助手

一、什么是智慧运维 智慧运维&#xff08;Smart Operations and Maintenance&#xff0c;简称智慧运维&#xff09;是一种利用先进的信息技术和数据分析手段&#xff0c;对设备、设施或系统进行监测、分析和优化管理的运维方式。它通过实时监测数据、智能分析和预测&#xff0…

【汇编语言实战】两个32位数的相加运算

C语言描述&#xff1a; #include <stdio.h> int main() { int a3,b2; printf("%d",ab); }汇编语言&#xff1a; include irvine32.inc .data a dword 32 b dword 33 .code main proc mov eax,a mov ebx,b add eax,ebx call writeint main endp end main运行结…

【Package Marking】UG475 FPGA 芯片丝印解析 AMD XILINX

Spartan 7 Devices Kintex 7 Device Virtex 7 Device 说明 条目定义Xilinx LogoXilinx 徽标、带有商标的 Xilinx 名称和商标注册状态。Pb-free Character对于 FFG、FBG 或 SBG 封装&#xff0c;器件右上角标有无铅字符&#xff0c;表示该器件使用无铅材料组制造&#xff0c;如…

Qt之QSS样式表

QSS简介 QSS&#xff08;Qt Style Sheet&#xff09;样式表是一种用于描述图形用户界面&#xff08;GUI&#xff09;样式的语言。它允许开发者为应用程序的控件定义视觉外观&#xff0c;例如颜色、字体、尺寸和布局等。 QSS 样式表的主要目的是提供一种简洁而灵活的方式来美化…

Java毕业设计 基于springboot vue撸宠平台 宠物系统

Java毕业设计 基于springboot vue撸宠平台 宠物系统 springboot撸宠平台 宠物系统 功能介绍 首页 图片轮播 用户或商家注册 用户或商家登录 登录验证码 店铺信息 店铺详情 店铺投诉 宠物信息 宠物详情 预订 退订 搜索 收藏 点赞 踩 评论 个人中心 更新信息 我的收藏 在线客服…

一文2500字从0到1使用JMeter进行接口测试教程!

安装 使用JMeter的前提需要安装JDK&#xff0c;需要JDK1.7以上版本目前在用的是JMeter5.2版本&#xff0c;大家可自行下载解压使用 运行 进入解压路径如E: \apache-jmeter-5.2\bin&#xff0c;双击jmeter.bat启动运行 启动后默认为英文版本&#xff0c;可通过Options – Cho…

【vim 学习系列文章 22 -- vim 实现 linux 多行快速标准注释】

文章目录 vim 实现 linux 多行快速标准注释 vim 实现 linux 多行快速标准注释 不多说了&#xff0c;直接上动图&#xff1a; 上代码&#xff1a; function! CommentBlock()" 获取Visual模式选中的起始和结束行号let old_start_line line("<")let old_end…

多语言婚恋交友APP开发流程一览

近年来&#xff0c;随着全球化的发展和人们对跨文化交流的需求增加&#xff0c;多语言婚恋交友APP的需求逐渐增长。开发这类APP需要考虑到不同语言和文化下用户的需求&#xff0c;涉及到一系列独特的流程和挑战。本文将从专家角度为您解析多语言婚恋交友APP的开发流程&#xff…

[leetcode]maximum-width-of-binary-tree

. - 力扣&#xff08;LeetCode&#xff09; 给你一棵二叉树的根节点 root &#xff0c;返回树的 最大宽度 。 树的 最大宽度 是所有层中最大的 宽度 。 每一层的 宽度 被定义为该层最左和最右的非空节点&#xff08;即&#xff0c;两个端点&#xff09;之间的长度。将这个二叉…