【机器学习 复习】 第1章 概述

一、概念

1.机器学习是一种通过先验信息来提升模型能力的方式。    

从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。

2.数据集(Dataset):所有数据的集合称为数据集。

训练集:用来训练出一个适合模型的,相当于人预习用的数据集。

验证集:相当于游戏的内测玩家。

测试集:用来测试训练的模型对不对的数据集。

3.样本(Sample):数据集中 每条记录 称为样本。

4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。

5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。

6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。

(1)人话:你是人,他是狗。

(2)有二分类和多分类之分。

7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值

8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。

(1)人话:物以类聚,一样的放一块。

(2)与分类的区别:

a.分类是有监督,聚类是无监督(更diao)

b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。

9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。

(1)人话:误差=预测值-真实值 (正负先不管)

(2)分三种:

a.训练误差或称经验风险——指模型在训练样本集上的整体误差

b.测试误差——模型在测试样本集上的整体误差

c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。

10.泛化能力:

(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。

(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。

11.机器学习的分类

(1)监督学习:人为干涉让模型更完美

分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯

数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)

(2)非监督式学习:不管机器,让他自己来

典型例子:聚类算法

(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。

(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。

12.机器学习的步骤:

数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试

(1)模型构建的相关过程:

a. 建立训练数据集和测试数据集,通常80%为训练数据集。

b. 选择机器学习算法

c. 模型调优

d. 模型融合

二、习题

单选题:

1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和()。

A、评估 B、验证  C、训练和验证 D、性能度量准则

3. 以下属于典型的监督学习的是(C )

A、聚类  B、关联分析  C、分类  D、降维

4. (A  )是指机器学习算法对新鲜样本的适应能力。

A、泛化能力  B、测试能力  C、识别能力  D、训练能力

5. 欠拟合是指(C )

A、在训练集表现非常好,但在测试集上表现很差

B、在训练集表现非常好,但在测试集上表现也非常好

C、在训练集表现非常差,但在测试集上表现很差

D、在训练集表现非常差,但在测试集上表现非常好

6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )

A、欠拟合  B、过拟合  C、模型很棒  D、模型不确定

18. 以下属于典型的无监督学习的是(C )

A、支持向量机

B、k-近邻算法

C、降维

D、逻辑回归

19. 下列关于过拟合的说法错误的是(   )。

A、模型的训练误差比较高,则称此分类模型过拟合。

B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。

C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。

D、可以通过预剪枝,避免决策树规模过大产生过拟合。

多选题:

1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )

A、监督学习  B、无监督学习  C、迁移学习  D、半监督学习

2. 以下属于解决模型过拟合的方法的是(ABD )

A、增加训练数据量  B、对模型进行裁剪  C、增加训练过程的迭代次数  D、正则化

3. 聚类的宗旨是(BD )

A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化

6. 机器学习中,通常将数据集划分为(ABC  )

A、训练集    B、验证集   C、测试集    D、对照集

判断题:

1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )

答:回归

2. 降维、聚类是无监督学习算法。(

3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很F )

答:弱

4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )

17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )

答:从原始数据中抽取出新的特征

19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 ()       

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/732335.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android (已解决)Execution failed for task ‘:app:lint‘

文章目录 一、错误原因二、解决方法 一、错误原因 这个错误信息表示在执行 Lint 检查时发现了错误,导致构建过程被中断。Lint 是一个用于检测 Android 项目中潜在问题的工具,比如性能、安全性、可用性等方面的问题。当Lint检查到严重错误时,…

库卡机器人减速机维修齿轮磨损故障

一、KUKA机器人减速器齿轮磨损故障的原因 1. 润滑不足:润滑油不足或质量不佳可能导致齿轮磨损。 2. 负载过重:超过库卡机械臂减速器额定负载可能导致齿轮磨损。 3. 操作不当:未按照说明书操作可能导致KUKA机器人减速器齿轮磨损。 4. 维护不足…

2024年全国青少信息素养大赛python编程复赛集训第四天编程题分享

整理资料不容易,感谢各位大佬给个点赞和分享吧,谢谢 大家如果不想阅读前边的比赛内容介绍,可以直接跳过:拉到底部看集训题目 (一)比赛内容: 【小学组】 1.了解输入与输出的概念,掌握使用基本输入输出和简单运算 为主的标准函数; 2.掌握注释的方法; 3.掌握基本数…

Ubuntu配置ssh+vnc(完整版)

Ubuntu配置sshvnc(完整版) 1 配置ssh 1. 安装openssh-server,配置开机自启 # 更新包 sudo apt-get update # 安装openssh-server sudo apt-get install -y openssh-server # 启动服务 sudo service ssh start # 配置开机自启 sudo systemc…

Github 2024-06-19 C开源项目日报 Top9

根据Github Trendings的统计,今日(2024-06-19统计)共有9个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目9C++项目1Netdata: 开源实时监控平台 创建周期:4020 天开发语言:C协议类型:GNU General Public License v3.0Star数量:68982 个Fork数量…

可平滑替代传统FTP的国产FTP方案,了解一下

企业在处理数据传输时,效率和安全性是关键。尽管传统FTP曾被广泛采用,然而,随着企业业务需求的增长,传统FTP在传输速度、安全性、稳定性以及可控性方面的不足逐渐显现。许多企业正在寻找更为高效、安全且用户体验更好的的国产FTP方…

在webstorm配置nodejs(从零开始)

在webstorm配置nodejs之前,需要先下载node.js和webStorm。 按下winr,输入cmd打开命令行 输入node -v和npm -v会出现相应的版本,如果报错则需要去下载node.js。 打开webStorm,File—settings 搜索node 选择node.exe安装位置 重启…

Elasticsearch基础(一):阿里云Elasticsearch简介

文章目录 阿里云Elasticsearch简介 一、什么是阿里云Elasticsearch 1、开源Elasticsearch 2、阿里云Elasticsearch 3、阿里云Elasticsearch介绍 4、总结 二、 阿里云Elasticsearch组件 1、X-Pack(商业版扩展包) 2、 Beats(数据采集中…

华为OD机试 - 地图寻宝 - 深度优先搜索BFS(Java 2024 D卷 200分)

华为OD机试 2024D卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(D卷C卷A卷B卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

秋招突击——6/21——新作{两两交换链表中的节点,K个一组反转链表}

文章目录 引言新做删除有序数组中的重复项个人实现 K 个一组翻转链表个人实现参考代码 总结 引言 上午完全去听讲座了,听了三场,拿了三个讲座单,从九点一直到十二点。笔记本电脑插电才能用,就没带,所以没有进行复习。…

【图解IO与Netty系列】Netty源码解析——事件循环

Netty源码解析——事件循环 Netty事件循环源码解析select()processSelectedKeys()NioMessageUnsafe#read()NioByteUnsafe#read() runAllTasks() Netty事件循环 当Netty服务端启动起来以后,就可以接受客户端发送的请求,接收到客户端发来的请求后就会有事…

Android平台下VR头显如何低延迟播放4K以上超高分辨率RTSP|RTMP流

技术背景 VR头显需要更高的分辨率以提供更清晰的视觉体验、满足沉浸感的要求、适应透镜放大效应以及适应更广泛的可视角度,超高分辨率的优势如下: 提供更清晰的视觉体验:VR头显的分辨率直接决定了用户所看到的图像的清晰度。更高的分辨率意…

微服务改造启动多个 SpringBoot 的陷阱与解决方案

在系统运行了一段时间后,业务量上升后,生产上发现java应用内存占用过高,服务器总共64G,发现每个SpringBoot占用近12G的内存,我们项目采用微服务架构,有多个springboot应用。 一下子内存就不够用了&#xf…

基于SpringBoot+Vue在线考试报名系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,…

<Rust><iced>基于rust使用iced构建GUI实例:如何将svg格式转为ico格式图片?

前言 本专栏是Rust实例应用。 环境配置 平台:windows 软件:vscode 语言:rust 库:iced、iced_aw 概述 本文是专栏第4篇实例,依旧是一个图像格式转换程序,基于rust的svg库resvg、图像处理库image以及文件处…

Python xlwt库:写excel表格

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

电路仿真实战设计教程--平均电流控制原理与仿真实战教程

1.平均电流控制原理: 平均电流控制的方块图如下,其由外电路电压误差放大器作电压调整器产生电感电流命令信号,再利用电感电流与电流信号的误差经过一个电流误差放大器产生PWM所需的控制电压,最后由控制电压与三角波比较生成开关管的驱动信号。 2.电流环设计: 根据状态平…

C语言:生命周期和作用域,static和extern

关键字static与extern 1.作用域(scope):代码中能够访问到变量的范围(变量可以被使用的文本区间)。(分为全局作用域和局部作用域) ☺全局作用域:在整个程序中都能访问的变量。通常…

【数据结构】第十九弹---C语言实现冒泡排序算法

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、冒泡排序基本思想 2、代码的初步实现 3、代码的优化 4、代码的测试 5、时空复杂度分析 6、模拟实现qsort 6.1、冒泡排序函数 6.2、交换数…

【PyTorch】【机器学习】图片张量、通道分解合成和裁剪

一、导入所需库 from PIL import Image import torch import numpy as np import matplotlib.pyplot as plt二、读取图片 pic np.array(Image.open(venice-boat.jpg))上述代码解释:先用Image.open()方法读取jpg格式图片,再用np.array()方法将图片转成…