机器学习 01

目录

一、机器学习

二、机器学习工作流程

2.1 获取数据

2.2 数据集

2.2.1  数据类型构成

2.2.2 数据分割

2.3 数据基本处理

2.4 特征工程

2.4.1什么是特征工程

2.4.2 为什么需要特征工程(Feature Engineering)

2.4.3 特征工程内容

2.5 机器学习

2.6 模型评估

2.7 拟合

2.7.1 欠拟合

2.7.2 过拟合 

三、机器学习算法分类

3.1 监督学习

3.1.1 回归

3.1.2 分类

3.2 无监督学习

3.2.1  无监督学习 与 监督学习对比

3.3 半监督学习

3.4 强化学习

3.4.1 强化学习和监督学习的对比


一、机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

二、机器学习工作流程

机器学习工作流程总结
1、获取数据
2. 数据基本处理
3. 特征工程
4. 机器学习(模型训练)
5. 模型评估
结果达到要求,上线服务
没有达到要求,重新上面步骤

2.1 获取数据

归类:

2.2 数据集

在数据集中一般:
一行数据我们称为一个样本
一列数据我们成为一个特征
有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标
值)

2.2.1  数据类型构成

数据类型一:特征值+目标值 (目标值是连续的和离散的)

数据类型二:只有特征值,没有目标值

2.2.2 数据分割

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:
训练集: 70% 80% 75%
测试集: 30%20% 25%

2.3 数据基本处理

即对数据进行缺失值、去除异常值等处理

2.4 特征工程

2.4.1什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果

2.4.2 为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming,requires expert knowledge. "Applied machine learning" is basically feature engineering.
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2.4.3 特征工程内容

特征提取:将任意数据《如文本或图像)转换为可用于机器学习的数字特征

 
特征预处理:通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

 标准化/归一化


特征降维:指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

2.5 机器学习

选择合适的算法对模型进行训练


2.6 模型评估

对训练好的模型进行评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。


按照数据集的目标值不同,可以把模型评估分为分类模型评估回归模型评估

2.6.1 分类模型评估

准确率: 预测正确的数占样本总数的比例。

其他评价指标: 精确率、召回率、F1-score、AUC指标等

2.6.2 回归模型评估

 

均方根误差 (Root Mean Squared Error,RMSE)
RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型

 

其他评价指标:

相对平方误差 (Relative Squared Error,RSE)、

平均绝对误差(Mean AbsoluteError,MAE)、

相对绝对误差(Relative Absolute Error,RAE)

2.7 拟合

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类: 过拟合、欠拟合。

在训练过程中,你可能会遇到如下问题:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?
当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

2.7.1 欠拟合

因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。

欠拟合(under-fitting):模型学习的太过粗,连训练集中的样本数据特征关系都没有学出来 

2.7.2 过拟合 

机器已经基本能区别天鹏和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

过拟合 (over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。

上问题解答:
训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

三、机器学习算法分类

根据数据集组成不同,可以把机器学习算法分为
监督学习
无监督学习
半监督学习
强化学习

3.1 监督学习

定义: 输入数据是由输入特征值和目标值所组成。

函数的输出 可以是一个连续的值(称为回归)或是输出是有限个离散值 (称作分类)

3.1.1 回归

3.1.2 分类

区别: 

欠拟合
学习到的东西太少。模型学习的太过相糙

过拟合
学习到的东西太多。学习到的特征多,不好泛化

3.2 无监督学习

定义:  输入数据是由输入特征值组成,没有目标值

1、输入数据没有被标记,也没有确定的结果。样本数据类别未知;

2、需要根据样本间的相似性对样本集进行类别划分;

根据有无帽子进行分类

3.2.1  无监督学习 与 监督学习对比

 

3.3 半监督学习

定义: 训练集同时包含有标记样本数据和未标记样本数据

 

 区别: 1、标记数据量的多少    2、训练的模型有无用到未标记的数据

3.4 强化学习

定义: 实质是make decisions 问题,即自动进行决策,并且可以做连续决策

举例
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务即走了几步)时,孩子得到奖励《给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素: agent,action,reward,environment,observation;

 强化学习的目标: 为最大化reward之和,而不是单步reward

3.4.1 强化学习和监督学习的对比

 1.独立同分布(i.i.d.)
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。
在西瓜书中解释是: 输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。


2.简单解释 一 独立、同分布、独立同分布
(1) 独立:每次抽样之间没有关系,不会相互影响举例:给一个般子,每次抛般子抛到几就是几,这是独立:如果我要抛般子两次之和大于8,那么第一次和第二次抛就不独立,因为第二次抛的结果和第一次相关。
(2) 同分布:每次抽样,样本服从同一个分布
举例:给一个股子,每次抛般子得到任意点数的概率都是六分之一,这个就是同分布
(3) 独立同分布:ld.,每次抽样之间独立而且同分布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/8073.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java代理之jdk动态代理+应用场景实战

本文将先介绍jdk动态代理的基本用法,并对其原理和注意事项予以说明。之后将以两个最常见的应用场景为例,进行代码实操。这两个应用场景分别是拦截器和声明性接口,它们在许多开发框架中广泛使用。比如在spring和mybatis中均使用了拦截器模式&a…

【计算机架构】如何计算 CPU 时间

目录 0x00 响应时间和吞吐量(Response Time and Throughput) 0x01 相对性能(Relative Performance) 0x02 执行时间测量(Measuring Execution Time) 0x03 CPU 时钟(Clocking) 0x…

【数据结构与算法】并查集

文章目录一、并查集的概念二、并查集的实现2.1 find()的实现2.2 路径压缩算法2.3 join()的实现三、并查集的应用3.1 例题:合并集合3.2 例题:连通块中点的数量四、总结一、并查集的概念 并查集是一个树形结构,所谓的并查,就是当我…

关于神经网络的权重信息和特征图的可视化

目录 1. 介绍 2. 隐藏层特征图的可视化 2.1 AlexNet 网络 2.2 forward 2.3 隐藏层特征图可视化 2.4 测试代码 3. 训练参数的可视化 3.1 从网络里面可视化参数 3.1.1 测试代码 3.1.2 参数的字典信息 3.1.3 参数可视化 3.2 从保存的权重参数文件(.pth)里面可视化参数…

汉诺塔与二进制、满二叉树的千丝万缕

汉诺塔(Tower of Hanoi)源于印度传说中,大梵天创造世界时造了三根金钢石柱子,其中一根柱子自底向上叠着64片黄金圆盘。大梵天命令婆罗门把圆盘从下面开始按大小顺序重新摆放在另一根柱子上。并且规定,在小圆盘上不能放大圆盘,在三…

数据挖掘(2.3)--数据预处理

目录 三、数据集成和转换 1.数据集成 2.数据冗余性 2.1 皮尔森相关系数 2.2卡方检验 3.数据转换 四、数据的规约和变换 1.数据归约 2数据离散化 三、数据集成和转换 1.数据集成 数据集成是将不同来源的数据整合并一致地存储起来的过程。 不同来源的数据可能有不同…

【ESP32+freeRTOS学习笔记之“ESP32环境下使用freeRTOS的特性分析(2-多核环境中的任务)”】

目录1、ESP32的双核对称多处理SMP概念2、涉及任务task的特殊性2.1 创建任务的特殊函数2.2 xTaskCreatePinnedToCore()函数的解释3、任务的删除4、总结1、ESP32的双核对称多处理SMP概念 最初的FreeRTOS(以下简称Vanilla FreeRTOS)…

线性表——顺序表

文章目录一:线性表二:顺序表1:概念与结构1:静态顺序表2:动态顺序表2:动态顺序表的代码实现1:结构2:接口实现1:初始化2:释放内存3:检查容量4&#…

Linux下最小化安装CentOS-7.6(保姆级)

文章目录安装包开始安装一、 新建一个虚拟机二、配置安装CentOS7.6二、开始安装CentOS三、配置CentOS并下载基本信息安装包 链接:https://pan.baidu.com/s/1DodB-kDy1yiNQ7B5IxwYyg 提取码:p19i 开始安装 一、 新建一个虚拟机 1、 打开VMWare&#x…

刷题笔记【5】| 快速刷完67道剑指offer(Java版)

本文已收录于专栏🌻《刷题笔记》文章目录前言🎨 1、合并两个有序链表题目描述思路一(递归)思路二(双指针)🎨 2、树的子结构题目描述思路一(递归)🎨 3、二叉树…

Redis分布式锁系列

1.压力测试出的内存泄漏及解决(可跳过) 使用jmeter对查询产品分类列表接口进行压力测试,出现了堆外内存溢出异常。 我们设置的虚拟机堆内存100m,并不是堆外内存100m 产生堆外内存溢出:OutOfDirectMemoryError 原因是…

某大厂面试题:说一说Java、Spring、Dubbo三者SPI机制的原理和区别

大家好,我是三友~~ 今天来跟大家聊一聊Java、Spring、Dubbo三者SPI机制的原理和区别。 其实我之前写过一篇类似的文章,但是这篇文章主要是剖析dubbo的SPI机制的源码,中间只是简单地介绍了一下Java、Spring的SPI机制,并没有进行深…

SQL——数据查询DQL

基本语句、时间查询(当天、本周,本月,上一个月,近半年的数据)。 目录 1 查询语句基本结构 2 where 子句 3 条件关系运算符 4 条件逻辑运算符 5 like 子句 6 计算列 7 as 字段取别名 8 distinct 清除重复行 9 …

linux mysql

安装 下载包 wget https://cdn.mysql.com/archives/mysql-8.0/mysql-8.0.31-1.el8.x86_64.rpm-bundle.tar解压 tar -zxvf mysql-8.0.31-1.el8.x86_64.rpm-bundle.tar -C /usr/local/mysql安装openssl-devel插件 yum install openssl-devel安装rpm包 使用rpm -ivh安装图中r…

【Unity项目实战】从零手戳一个背包系统

首先我们下载我们的人物和背景资源,因为主要是背包系统,所以人物的移动和场景的搭建这里我们就不多讲了,我这里直接提供基础项目源码给大家去使用就行 基础项目下载地址: 链接: https://pan.baidu.com/s/1o7_RW_QQ1rrAbDzT69ApRw 提取码: 8s95 顺带说一下,这里用到了uni…

AttributeError: module transformers has no attribute LLaMATokenizer解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

AES加密

来源:链接: b站up主可厉害的土豆 (据评论区说图片中有计算错误,但是过程是对的。只是了解过程问题不大,专门研究这一块的话自己可以看视频算一下) 准备 首先,明文是固定长度 16字节 128位。 密钥长度可以…

TCP协议一

TCP数据报格式 TCP通信时序 下图是一次TCP通讯的时序图。TCP连接建立断开。包含大家熟知的三次握手和四次握手。 在这个例子中,首先客户端主动发起连接、发送请求,然后服务器端响应请求,然后客户端主动关闭连接。两条竖线表示通讯的两端&…

houjie-cpp面向对象

houjie 面向对象 面向对象(上) const 在一个函数后面放const,这个只能修饰成员函数,告诉编译器这个成员函数不会改数据 const还是属于函数签名的一部分。 引用计数:涉及到共享的东东,然后当某个修改的时候&…

Mysql的学习与巩固:一条SQL查询语句是如何执行的?

前提 我们经常说,看一个事儿千万不要直接陷入细节里,你应该先鸟瞰其全貌,这样能够帮助你从高维度理解问题。同样,对于MySQL的学习也是这样。平时我们使用数据库,看到的通常都是一个整体。比如,你有个最简单…