机器学习模型总结

多元线性回归(linear regression)

自变量:连续型数据,因变量:连续型数据
选自:周志华老师《机器学习》P53-55
思想:残差平方和达到最小时的关系式子即为所求,残差平方和:实际值和估计值之间差的平方和。
后续补充:求解方式1:手动推导,求解方式2:梯度下降。手动推到时矩阵不可逆如何加归纳偏好。
1708912697172.png
残差平方和达到最小:
1708912981710.png
image.png
1708915530950.png
1708915566263.png

逻辑回归(logistic regression)

以下选自:王汉生《应用商务统计分析》第四章
(1)变量:连续型数据,因变量:离散型数据
(2)思想:假设了一个式子,计算事件发生的可能性。
令事件发生的可能性用Z表示:
1708917629500.png
设定一个阈值c,使得:
1708918318362.png
无论对F(t)的具体函数形式作任何假设,该假设都不可能完全反映真实情形,那么挑选那些“方便"的假设,假设服从正态分布。1708918723906.png,该模型称为probit模型,但是很多年前计算不够发达的时候,这种假设过于复杂,计算不出来,所以便产生了如下的公式:
1708918896806.png
(3)效果评测方式:
TPR:召回率,有问题的预测为有问题的比例,即预测出来有问题的个数/所有有问题的个数:TP/(TP+FN)
FPR:误报,FP/(TN+FP),将正常的预测为有问题的数/所有正常的个数
**同一个模型,找效果最好时的阈值:**设置不同的阈值后可以绘制ROC曲线,然后选取自己想要的召回率和误报平衡组合。ROC曲线同对角线(虚线)相比,永远是向上突起的。这说明TPR的取值必须高于FPR的取值,否则,这种预测方法是错误的。
1709021599181.png
**不同模型之间的效果比较:**绘制不同模型的ROC曲线,选择最上面的曲线所代表的模型。
1709021766068.png
补充“公式构造符合常识”:选自李航《统计学习方法》P77-80
下图可见,t越大概率越大(t就是z,就是上面的线性函数值),t无穷大时候概率接近于1,t越接近负无穷概率值越接近0。
1709021528658.png

决策树(decision tree)

选自李航《统计学习方法》第五章
思想:找到一种划分方法,每次划分时,大大降低系统的混乱度,让系统信息明确。
3.1 知识点介绍:
(1)熵:信息越混乱,随机变量的熵越大。
1709086775282.png
(2)信息增益
1709091088171.png
1709090998931.png
上面案例数据如下:
1709091722391.png

(3)信息增益比
特征A划分的信息增益/数据集合D中A特征的信息熵,下面截图(5.10)分母错误,作者在出版第二版的时候分母已经改为Ha(D)。
如数据集合D中”年龄“特征的信息熵:
**H年龄(D)=-(5/15)*log(5/15)-(5/15)log(5/15)-(5/15)log(5/15)=1.585
如数据集合D中”有工作“特征的信息熵:
**H有工作(D)=-(5/15)log(5/15)-(10/15)log(10/15)=0.918
1709108956044.png
3.2 算法介绍:
划分方法1:ID3算法
思想:信息增益越大,即熵降低的越多,就选此种划分方法。
1709101305095.png
1709110796572.png

**划分方法2:C4.5算法 **

思想:信息增益比越大,熵降低的越多,就选此时的划分方法。
以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比(informationganrawo)可以对这一问题进行校正。
1709110914699.png
划分方法3:基尼指数
CART算法(分类和回归)
1709107656317.png
1709107730671.png
(1)分类
1709107969504.png
(2)回归
1709108051085.png
3.3 剪枝方法:
预剪枝:限定深度、设置阈值
后剪枝:最小误差剪枝、基于错误剪枝、降低错误剪枝、悲观错误剪枝
降低错误剪枝 (自下而上,使用测试集来剪枝。对每个结点,计算剪枝前和剪枝后的误判个数,若是剪枝有利于减少误判(包括相等的情况),则减掉该结点所在分枝。)
悲观错误剪枝(根据剪枝前后的错误率来决定是否剪枝。和rep不同之处在于,pep只需要训练集即可,不需要验证集,并且pep是自上而下剪枝的。)
后续补充:三者之间的区别,如何处理连续值。

随机森林(Random Forest,RF)

特征随机选择,有放回采样n个样本,构建很多个决策树,那么由各个决策树的结果怎么得到最终的结果呢。
选自:周志华老师《机器学习》P181-183
对于回归问题:
1709195074679.png
1709195391627.png
对于分类问题:
1709197712164.png
1709197849184.png

GBDT

XGboost

支持向量机(support vector machines,SVM)

**选自:周志华老师《机器学习》第六章 周志华老师《机器学习》的视频课程(主讲人:周老师) **
首先说下我自己的理解过程,然后再引入周老师西瓜书内容:
思想:找到一个平面,a)可以很好的区分不同类别的点(使得分类器的训练误差小,线性可分时要求训练误差为0),b)可以识别未知类别样本的类别(即多大程度上信任该分类器在未知样本上分类的效果。)


贴西瓜书对如上式子的推导过程:
1709168590810.png
1709168944486.png

1709169375201.png
从下图最后的推导结果可知,要满足KKT条件,最优解时候的变量取值都为支持向量,也就是说最后决定这个模型的就是这些支持向量,支持向量机的名字由此而来。
1709169547816.png
线性不可分时,进行特征空间映射,使得可分:
1709173074662.png
内积不好计算,选用核函数来替代计算,理想状态下内积就等于选择的核函数,但确定性的最优解不好找,可以一个个核函数的试,在很多核函数中找一个最合适的。
1709174975264.png
1709175915138.png

朴素贝叶斯(naǐve Bayes)

思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,判定给概率最大的类别。在求解概率的时候假设各个属性之间独立同分布。
选自”算法杂货铺-分类算法之朴素贝叶斯分类
1709020493138.png
1709020609996.png
1709020776550.png
特征属性为离散值值可以直接数数求比例即可计算概率,特征属性为连续值时,用如下方法:
1709021089558.png

k近邻法(k-nearest neighbor,k-NN)

选自李航《统计学习方法》P37
可做分类和回归问题。分类思想:给定一个有标签的训练数据集,对新的实例,根据k个最近邻的训练实例的类别,通过多数表决等方式进行预测。
1709014947466.png
补充“距离加权表决”:选自Pang-Ning Tan等著,范明等译《数据挖掘导论完整版_人民邮电出版社》P138
1709016428633.png
后续补充:knn的缺陷,如计算量大,噪声敏感,补充如何降低计算开销。

textrank

思想:指向点v(i)的所有边的值加总便是v(i)的textrank值。每条边上值的计算,如v(j)和v(i)边值的计算为:
w=v(i)和v(j)边权重/v(j)指出的所有权重和
score=v(j)的textrank
w*score便为所求。
1709017067011.png

k均值(k-means)

选自Pang-Ning Tan等著,范明等译《数据挖掘导论完整版_人民邮电出版社》P310
算法思想:
1709023110355.png
1709024483175.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/428433.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

考研英语语法(句子成分)

目录 1.主句的成分: 2.化妆后句子的成分: 3.句子的基本结构: 4.句子成分表 5.复杂句型总结 1.并列句(是由并列连词连接两个或两个以上的句子,用逗号隔开) 2.名词性从句(名词在句中充当成…

加密与安全_探索常用编码算法

文章目录 概述什么是编码编码分类ASCII码 (最多只能有128个字符)Code: 字符转换成ascii码ASCII码对照表 Unicode (用于表示世界上几乎所有的文字和符号)URL编码 (解决服务器只能识别ASCII字符的问题&#x…

【数据结构】复杂度详解

目录 (一)算法的复杂度 (二)时间复杂度 (1)练笔解释: i,示例1 ii,示例2 iii,二分查找 iv,斐波那契 (三)空间复杂度…

带使能控制的锂电池充放电解决方案

一、产品概述 TP4594R 是一款集成线性充电管理、同步升压转换、电池电量指示和多种保护功能的单芯片电源管理 SOC,为锂电池的充放电提供完整的单芯片电源解决方案。 TP4594R 内部集成了线性充电管理模块、同步升压放电管理模块、电量检测与 LED 指示模块、保护模块…

企业指标体系建设与管理:运用MECE原则与战略地图,打造完美闭环

在数字化时代,数据已经成为企业的核心资产。为了更好地利用这些数据,企业需要建立一套科学、完整、高效的指标体系。而在这个过程中,MECE原则(Mutually Exclusive, Collectively Exhaustive,即“相互独立,完…

day04-Maven-SpringBootWeb入门

文章目录 01. Maven1.1 课程安排1.2 什么是Maven1.3 Maven的作用1.4 Maven模型1.5 Maven仓库1.6 Maven安装1.6.1 下载1.6.2 安装步骤 2 IDEA集成Maven2.1 配置Maven环境2.1.1 当前工程设置2.1.2 全局设置 2.2 创建Maven项目2.3 POM配置详解2.4 Maven坐标详解2.5 导入Maven项目 …

探索Ubuntu命令行:常见问题与解决方案

一、引言 Ubuntu,作为一款流行的Linux发行版,其命令行界面(CLI)为用户提供了丰富的功能和灵活性。然而,对于新手来说,命令行可能会带来一些挑战。本文将探讨一些在使用Ubuntu命令行时可能遇到的问题及其解决…

#QT(DEMO)

1.IDE:QTCreator 2.实验:打印"hello wolrd" 3.记录 (1)创建一个新工程: 新建好一个工程存放文件夹(路径不能有中文),然后按下图配置 (2)点击widgets.ui拖入以…

数学建模【多元线性回归模型】

一、多元线性回归模型简介 回归分析是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进…

一篇了解电阻的使用

目录 一、电阻理论基础 1.电阻的定义 2.欧姆定律 3.电阻决定式 4.电阻的串并联​编辑 5.电阻的功率 6.温度对电阻的影响 二、电阻的选型 1.安装方式 2.电阻值 (1)电阻值的标称 (2)电阻值的确定 (3&#x…

图片上的物品怎么抠出来?这三种方法教你快速消除

怎么把图片上的物品抠出来?这是一个在设计、摄影和后期制作中经常遇到的问题。在很多设计项目中,我们可能需要从一张图片中扣出某个物品,以便在其他背景中使用,或者将其与其他图像组合在一起。今天,我们就来分享三种常…

力扣刷题记录--463. 岛屿的周长

题目链接&#xff1a;463. 岛屿的周长 - 力扣&#xff08;LeetCode&#xff09; 题目描述 我的代码实现 class Solution {public int islandPerimeter(int[][] grid) { int result0; int rowgrid.length; int colgrid[0].length; for(int i0;i<row;i){for(int j0;j<col…

FPGA时序约束与分析--数据到达路径和数据需求路径

文章目录 前言一、定义二、时序模型三、公式推导前言 时序约束的定义–设计者根据实际的系统功能,通过时序约束的方式提出时序要求; FPGA 编译工具根据设计者的时序要求,进行布局布线;编译完成后, FPGA 编译工具还需要针对布局布线的结果,套用特定的时序模型( FPGA 器件…

Git 初试 安装

Git初识 遇到问题&#xff1a; 在生活和学习中&#xff0c;我们会遇到这样的问题&#xff0c;比如上交论文的时候&#xff0c;老师让你改了一遍又一遍&#xff0c;结果改到最后一版的时候&#xff0c;说你这个还不如你第一版的或者前几版的&#xff0c;老师又说&#xff0c;把…

美女街拍3000张高清图

美女街拍3000张高清图&#xff0c;需要的可以直接下载 2.资源下载 ​途径一&#xff1a;点击以下链接直接下载 美女街拍3000张高清图 途径二&#xff1a;直接长按住以下图片识别进去下载即可

揭秘App访问量背后的秘密:数据统计与分析

在移动互联网时代&#xff0c;App已成为人们日常生活的重要组成部分。对于App运营者来说&#xff0c;了解用户的访问量、行为习惯等数据至关重要。本文将深入探讨如何精准统计App访问量&#xff0c;为运营者提供有价值的数据支持。 一、App访问量统计的重要性 访问量是衡量A…

jmeter 二次开发详解

背景&#xff1a; JMeter 是一个功能强大的性能测试工具&#xff0c;但它可能无法满足特定项目或组织的特定需求。通过进行二次开发&#xff0c;可以定制 JMeter&#xff0c;使其适应具体项目的需求。例如&#xff0c;可能需要添加自定义的 测试元件、报告生成器或结果分析器…

Springboot+vue的船舶监造系统(有报告)。Javaee项目,springboot vue前后端分离项目。

演示视频&#xff1a; Springbootvue的船舶监造系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot vue前后端分离项目。 项目介绍&#xff1a; 本文设计了一个基于Springbootvue的船舶监造系统&#xff0c;采用M&#xff08;model&#xff09;V&#xff…

温湿度传感器SHT21

SHT21是一款基于IIC的温湿度传感器&#xff0c;它的引脚及定义如下&#xff1a; 标准的IIC器件&#xff0c;没有其他多余的引脚&#xff0c;应用框图如下&#xff1a; 温度的测量范围是-40到125℃&#xff0c;湿度测量范围0-100%RH&#xff0c;具体参数及采样精度见下图&#x…

鸿蒙ArkTs开发问题总结

版本问题 现阶段鸿蒙ArkTs开发主要分为两个版本 HarmonyOS3.x.x(API9)及HarmonyOS4.x.x(API10) 一下简称为 API9,API10 官方现在所有案例均以 HarmonyOS4.x.x(API10) 为基础请注意选择分支 API9&HarmonyOS3.x.x 鸿蒙开发编译器默认下载的为public版本SDK不是全量SDK需要…