01 机器学习概述

目录

1. 基本概念

2. 机器学习三要素

3. 参数估计的四个方法

3.1  经验风险最小化

3.2  结构风险最小化

3.3  最大似然估计

3.4  最大后验估计

4. 偏差-方差分解

5. 机器学习算法的类型

6. 数据的特征表示

7.  评价指标


1. 基本概念

        机器学习Machine LearningML就是研究如何让计算机从数据中进行自动学习,得到某种知识(或规律)并利用学习到的规律(模型)对未知或无法观测的数据进行预测

        机器学习的任务,比如光学字符识别、语音识别、人脸识别等.这些任务的特点是,对于我们人类而言很容易完成,但我们不知道自己是如何做到的,因此也很难人工设计一个计算机程序来完成这些任务。比如:下图中的手写数字识别,对人来说认识0~9很简单,但对计算机来说却十分困难.。

        在计算机中,一切皆数据,包括声音、图片或视频,均会被计算机转换为数组读取!

2. 机器学习三要素

3. 参数估计的四个方法

       关于参数分布及先验后验的一些概念,可参看一下文章: 

https://zhuanlan.zhihu.com/p/506449599icon-default.png?t=N7T8https://zhuanlan.zhihu.com/p/506449599

3.1  经验风险最小化

       这种方法用于求解线性回归参数时,也叫 最小二乘法 Least Square Method LSM ): 

       由于这种方法要求(XX^T) 必须有逆矩阵(满秩),而实际情况是(XX^T)并不一定满秩,这会导致参数\textbf{w}^*有多个解.。因此,一般会对数据预处理,比如通过主成分分析消除不同特征之间的相关性,使其满秩。

3.2  结构风险最小化

        如果数据量大且特征非常多,那么特征间可能存在多重共线性,即使预处理了数据,也会使得最小二乘法计算结果不稳定。为了解决这个问题,Hoerl等人提出了岭回归(Ridge Regression),也就是给(XX^T)的对角线元素都加上一个常数\lambda,使(XX^T+\lambda I)满秩,这种方法表现在风险函数上即为(相较经验风险函数)增加了一个正则项:

3.3  最大似然估计

        最大似然估计 Maximum Likelihood Estimation MLE 是指找到一组参数使似然函数的值最大,也等价于对数似然函数的值最大。最大似然估计参数方法如下:

 可以看出最大似然估计的解和最小二乘法的解相同。

3.4  最大后验估计

        最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合我们可以给参数加上一些先验知识,即基于经验对要估计的参数加上一定的限制,这样得到的参数称为最大后验估计,计算方法如下:

可以看出,最大后验概率等价于平方损失的结构风险最小化,其中正则化系数\lambda =\sigma ^2/\nu ^2

由于贝叶斯求解复杂,最大后验概率是贝叶斯学派的一种近似手段,最大后验估计和最大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计参数的不同解释。

4. 偏差-方差分解

      关于偏差(bias)和方差(Variance)的概念可参看下面这篇文章:

偏差(bias)和方差(Variance)icon-default.png?t=N7T8https://blog.csdn.net/nanhuaibeian/article/details/102658419?ops_request_misc=&request_id=&biz_id=102&utm_term=%E5%81%8F%E5%B7%AE%E5%92%8C%E6%96%B9%E5%B7%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-0-102658419.nonecase&spm=1018.2226.3001.4187

      针对于高偏差和高方差的解决措施,可参看我之前的文章:

《吴恩达机器学习 第二课 week3 学习算法(模型)进阶》icon-default.png?t=N7T8https://blog.csdn.net/weixin_43490087/article/details/139709608?spm=1001.2014.3001.5501

     偏差方差分解,是一种重要的分析技术,‌用于解释学习算法泛化能力。‌

     偏差方差分解将学习算法的期望误差分解为三个非负项的和,‌即样本真实噪声、‌偏差方差。‌这种分解帮助我们从统计学派的视角看待模型复杂度,‌提供了一种理解模型泛化性能的方法。‌如下:

5. 机器学习算法的类型

6. 数据的特征表示

       在实际应用中,数据的类型多种多样,比如文本、音频、图像、视频等,不同类型的数据,其原始特征(Raw Feature)的空间也不相同。而很多机器学习算法要求输入的样本特征是数学上可计算的,因此在机器学习之前我们需要将这些不同类型的数据转换为向量表示。

      (也有一些机器学习算法(比如决策树)不需要向量形式的特征)

 图像特征:表示为 𝑀 × 𝑁 维的向量,为了提高模型准确率,会经常加入一个额外的特征比如直方图宽高比、笔画数纹理特征边缘特征等。

文本特征:从文本形式转为向量形式一种简单的方式是使用词袋Bag-of-WordsBoW)模型,比如两个文本我 喜欢 读书我 讨厌 读书中共有”“喜欢”“”“读书四个词它们的BoW表示分别为[1 1 0 1]和[1 0 1 1]。

词袋模型将文本看作词的集合不考虑词序信息不能精确地表示文本信

一种改进方式是使用N元特征N-Gram Feature),即每𝑁 个连续词构成一个基本单元然后再用词袋模型进行表示以最简单的二元特征即两个词的组合特征)为例上面的两个文本中共有”“我喜欢”“我讨厌”“喜欢读书”“厌读书”“读书六个特征单元,随着 𝑁 的增长N 元特征的数量会指数上升,因此,在实际应用中,文本特征维数通常在十万或百万级别以上

特征工程(Feature Engineering)是指通过人工方式进行提取特征。一个成功的机器学习系统通常需要尝试大量的特征。

让机器自动地学习出有效的特征的研究内容,称为特征学习(Feature Learning),也叫表示学习Representation Learning)。

7.  评价指标

     (1)准确率(所有类别整体性能的平均

         最常用的评价指标为 准确率 Accuracy ):

     (2)错误率

       和准确率相对应的就是错误率Error Rate):

      (3)精确率和召回率(单个类进行性能估计

        准确率是所有类别整体性能的平均 如果希望对每个类都进行性能估计, 就需要计算 精确率 Precision 召回率 Recall ):

 

        精确率Precision),也叫精度查准率

        召回率 Recall ), 也叫 查全率:

        F F Measure 是一个综合指标 为精确率和召回率的调和平均

其中𝛽 用于平衡精确率和召回率的重要性一般取值为1𝛽 = 1时的F值称为F1 值。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/802345.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【python】PyQt5的窗口界面的各种交互逻辑实现,轻松掌控图形化界面程序

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

C# modbus 图表

控件:chart1(图表),cartesianChart1(第三方添加图表),timer(时间) 添加第三方: 效果:图标会根据连接的温度,湿度用timer时间进行改变 Chart1控件样式:Series添加线条,颜色&#xf…

【算法】LRU缓存

难度:中等 题目: 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存int get(int key) 如果关键字 key 存在于缓存中,…

2024牛客暑期多校训练营1 A题 解题思路

前言: 今年和队友报了牛客暑期多校比赛,写了一下午结果除了签到题之外只写出了一道题(A),签到题没什么好说的,其他题我也没什么好说的(太菜了,根本写不出来),…

SAP ABAP性能优化

1.前言 ABAP作为SAP的专用的开发语言,衡量其性能的指标主要有以下两个方面: 响应时间:对于某项特定的业务请求,系统在收到请求后需要多久返回结果 吞吐量:在给定的时间能,系统能够处理的数据量 2. ABAP语…

FFMPEG录屏入门指南【转载】

文章非原创,为防失联而转载:【原创】FFMPEG录屏入门指南 - 博客园 (cnblogs.com) 【原创】FFMPEG录屏入门指南 最近部门内部在做技术分享交流,需要将内容录制成视频存档。很自然的想到了去网上找一些录屏的软件,试过了几款诸如屏幕…

昇思25天学习打卡营第13天|CycleGAN 图像风格迁移互换全流程解析

目录 数据集下载和加载 可视化 构建生成器 构建判别器 优化器和损失函数 前向计算 计算梯度和反向传播 模型训练 模型推理 数据集下载和加载 使用 download 接口下载数据集,并将下载后的数据集自动解压到当前目录下。数据下载之前需要使用 pip install dow…

LabVIEW设备检修信息管理系统

开发了基于LabVIEW设计平台开发的设备检修信息管理系统。该系统应用于各种设备的检修基地,通过与基地管理信息系统的连接和数据交换,实现了本地检修工位数据的远程自动化管理,提高了设备的检修效率和安全性。 项目背景 现代设备运维过程中信…

QT小细节

QT小细节 1 QTextToSpeech1.1 cmake1.2 qmake QT6 6.7.2 1 QTextToSpeech 从下图可以看到,分别使用qmake或者cmake编译情况下的,QTextToSpeech的使用方法 QTextToSpeech官方链接,也可以直接在QT Creator的帮助中搜索 1.1 cmake 将上图中的…

jmeter之变量随机参数化以及解决多线程不会随机变化

参考链接: https://www.cnblogs.com/Testing1105/p/12743475.html jmeter 使用random函数多线程运行时数据不会随机变化?_jmeter 线程组循环执行时 变量不变-CSDN博客 1、如下图所示,需要对请求参数 autor 和phone进行随机参数化 2、目前有…

FullCalendar日历组件集成实战(20)

背景 有一些应用系统或应用功能,如日程管理、任务管理需要使用到日历组件。虽然Element Plus也提供了日历组件,但功能比较简单,用来做数据展现勉强可用。但如果需要进行复杂的数据展示,以及互动操作如通过点击添加事件&#xff0…

【Java--数据结构】二叉树

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 树结构 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合 注意:树形结构中,子…

昇思MindSpore学习开始

昇思MindSpore是一个全场景深度学习框架,旨在实现易开发、高效执行、全场景统一部署三大目标。 其中,易开发表现为API友好、调试难度低;高效执行包括计算效率、数据预处理效率和分布式训练效率;全场景则指框架同时支持云、边缘以…

二叉树、B树/B-树

二叉树 在中文语境中,节点结点傻傻分不清楚,故后文以 node 代表 "结点",root node 代表根节点,child node 代表 “子节点” 二叉树是诸多树状结构的始祖,至于为什么不是三叉树,四叉树,或许是因为计算机只能数到二吧,哈哈,开个玩笑。二叉树很简单,每个 no…

在android11 上实现平行视界效果

前言: 平行视界是谷歌为了解决大屏横屏设备 适配为手机等竖屏设备开发的APP , 在这类APP显示时 在横屏设备上不方便用户观看。 android 13 上平行视界的效果如下: 正文: 在android13前 ,各家有各自的解决方案,下面提…

[计算机网络] VPN技术

VPN技术 1. 概述 虚拟专用网络(VPN)技术利用互联网服务提供商(ISP)和网络服务提供商(NSP)的网络基础设备,在公用网络中建立专用的数据通信通道。VPN的主要优点包括节约成本和提供安全保障。 优…

心理健康服务小程序的设计

管理员账户功能包括:系统首页,个人中心,学生管理,最新资讯管理,心理产品管理,产品分类管理,音乐理疗管理,试题管理 微信端账号功能包括:系统首页,心理产品音…

学习大数据DAY17 PLSQL基础语法6和Git的基本操作

目录 包 存储过程调试功能 作业 阶段复习作业 Git课程目录 什么是版本控制 没有版本控制的缺点 常见的版本工具 版本控制分类 1. 本地版本控制 2. 集中版本控制 3. 分布式版本控制 Git与SVN主要区别 Git软件安装及配置 Windows系统安装Git 安装Tortoise Git(乌龟…

git和gitee的基本操作

目录 git常见命令 1.初始化工作区(在某一文件路径下) 2.查看当前工作区的代码文件状态 3.将工作区的代码文件提交到暂存区 4.将暂存区的代码文件提交到本地仓库 5.工作区和暂存区文件差异化比较 6.暂存区和本地仓库的差异化比较 7.工作区和本地仓库差异化比较 8.版本回…

自适应键盘,自带隐藏键盘的输入框(UITextField)

引言 在iOS开发中,输入框占据着举足轻重的地位。与安卓不同,iOS输入框经常面临键盘遮挡的问题,或者无法方便地取消键盘。为了解决这些问题,有许多针对iOS键盘管理的库,如IQKeyboardManager、TPKeyboardAvoiding和Keyb…