机器学习期末复习

机器学习

    • 选择题
    • 名词解释:
    • 简答题
    • 计算题
      • 一、线性回归
      • 二、决策树
      • 三、贝叶斯

选择题

  1. 机器学习利用经验 ,须对以下()进行分析
    A 天气 B 数据 C 生活 D 语言

  2. 归纳偏好值指机器学习算法在学习的过程中,对以下()的偏好
    A 数据 B 某种类型假设 C 标记 D 运行速度

  3. 有的情况下 ,模型学习到了训练数据满足的特有性质,但这些性
    质不是一般规律,这种现象被称为()
    A 欠拟合 B 过拟合 C 欠配 D 以上三个选项都不是

  4. 最小二乘法估计 得到的线性回归模型 满足()性质
    A 均方模型为 0 B 均方误差偏大 C 均方误差偏小 D 均方误差为 1

  5. 下列()是决策树的预测过程。
    A 将测试示例从一个中间节点开始,沿着划分属性所构成的“判
    定测试序列”下行,知道叶节点、
    B 将测试实例从一个中间节点开始,沿着划分属性所构成的“判
    定测试序列”上行,直到根节点。
    C 将测试示例从叶节点开始,沿着划分属性 所构成的“判定测试
    序列”上行,直 到根节点。
    D 将测试示例从根节点开始,沿着划分属性所构成的“判定测试
    序列”下行,直到叶节点。

  6. BP 算法基于()策略对参数进行调整
    A 梯度下降 B 梯度上升 C 最小化误差 D 误差逆传播

  7. 当训练样本线性不可划分时可采用()来缓解和解决
    A 增加正例样本 B 核函数 C 训练误差最小 D 测试误差最小

  8. 朴素贝叶斯分类器中,对给定类别,模型对所有属性间的独立性
    有()
    A 部分不独立 B 部分独立 C 相互不独立 D 相互独立

  9. KNN(L 近邻算法)属于一种典型的()算法
    A 监督学习 B 无监督学习 C 半监督学习 D 弱监督

  10. 缓解维数灾难的操作是()
    A 降维 B 升维 C 低维度嵌入 D 流型处理

  11. 决策树属于()模型。-
    A.判别式 B.生成式 C.判别式和生成式 D.以上都不对

  12. 先对联合概率分布P(x, c)建模,再由此获得P(clx),属于()模型。
    A.判别式 B.生成式 C.回归 D. 以上都不是

  13. 贝叶斯公式中,估计后验概率P(c|x)的主要困难在于估计()。
    A. P(c) B. P(x|c) C.以上两者都是 D.以上两者都不是

  14. 下列()方法可以用来获得从原始数据集中划分出“测试集”?
    A.留出法 B.交叉验证法 C.自助法 D.以上三个选项都可以

  15. 在训练集上的误差被称作()
    A.泛化误差 B.经验误差 C.测试误差 D.以上三个选项都不对

  16. 当西瓜收购公司去瓜摊l收购西瓜时既希望把好瓜都收走J尽可能的少,请问他应该考虑()评价指标?
    A.精度 B.查全率 C.查准率 D.F1度量

  17. 信息嫡是度量样本集合()最常用的一种指标。
    A.纯度 B.对称差 C.大小 D.重要性

  18. 在属性划分中,信息增益越大,结点的纯度( )。
    A.不变
    B.变为零
    C.提升越大
    D.降低越快

  19. 剪枝是决策树学习算法对付()现象的主要手段。
    A.标记噪声
    B.数据少
    C.过拟合
    D.欠拟合

  20. 多层感知机表示异或逻辑时最少需要()个隐含层(仅考虑二元入)。
    A. 1 B. 2 C. 3 D. 4

答案:BBBCD ABDAA ABBDB DACCB

名词解释:

  1. 奥卡姆剃刀原则: 是一种科学原则,在解释现象时,应该选择最简单的解释和假设
  2. 归纳偏好: 是指在遇到不完全信息或不确定性情况下,人们对于潜在解释或假设的倾向和偏好
  3. 线性模型: 是一种常见的机器学习模型,用于建立输入特征与输出变量之间的线性关系
  4. 线性回归:是一种常见的线性模型,用于建立输入特征与连续输出变量之间的线性关系
  5. 最小二乘法: 是一种常用的拟合方法,最小化预测值与真实值之间的残差平方和来确定模型的参数
  6. 类别不平衡: 是指在分类问题中,不同类别的样本数量存在较大差异
  7. 决策树: 是一种常见的机器学习算法,主要用于回归和分类任务,通过创建一个树形结构,将复杂的任务分解成一系列简单的决策分支,进而解决复杂的分类和回归问题。通常用于有监督的学习,可以训练数据集进行学习和预测
  8. 神经网络: 是一种模拟脑部神经系统的模型,由大量人工神经元相互连接构成。通过模拟神经元之间的连接和信息传递来实现复杂的信息处理,神经元之间连接的权重可以通过学习算法来进行调整,以使得神经网络可以学习和适应不同的任务和数据
  9. 间隔(margin): 是指支持向量机中分类器的决策边界与最近的分类样本之间的距离,间隔越大,泛化能力越强
  10. 贝叶斯决策论:是一种基于概率统计理论的决策方法,通过计算不同决策的期望损失来选择最优的决策,用于处理分类问题
  11. 急切学习: 一种机器学习的方法,在训练阶段就构造一个模型进行学习,并用它进行预测
  12. 懒惰学习:与急切学习相反

简答题

1.机器学习:
是人工智能的一种分支,让计算机从数据中学习和改进,以完成某种任务,目标是让计算机在经验中学习,自动发现模式和规律,并运用规律进行预测和决策

2.过拟合及缓解方法:
指模型在训练数据集上表现良好,但在新数据或测试集上表现不好的现象。通常是由于模型过于复杂,使得模型在训练的过程中过分注重与特定细节,而没有真正掌握数据的底层结构和一般规律
缓解方法:增加训练数据量,提供更多的数据样本供模型学习,减少过拟合的风险;降低模型的复杂度,减少模型的自由度;或者通过正则化限制模型的学习能力

3.有监督和无监督学习:
有监督的学习是指模型在训练数据中,每个样本都有对应的标签和目标输出,模型通过学习输入与输出的映射关系进行预测和决策
无监督的学习是指模型在训练数据中,每个样本没有对应的标签和目标输出,模型通过学习数据的内在结构和相似性进行聚类、降维或异常检测等任务

4.查准率和查全率:
查准率又称精确率,是指在预测为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的准确性。
查全率又称召回率,是指在实际为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的完整性。

5.P-R曲线怎么对学习器进行比较
P-R曲线是以P查准率为横轴,R查全率为纵轴绘制的曲线。通过改变分类的阈值来得到不同的P-R点,比较不同学习器的性能,可以通过曲线下的面积AUC,越接近1越好,或者F1-score来判断

6.真正例率和假正例率
真正例率(TPR)是表示实际为正例的样本中被正确预测为正例的比例,TPR=TP/TP+FN
假正例率(FPR)是表示实际为负例的样本中 被错误预测为正例的比例,FPR=FP/FP+TN

7.简述线性判别分析LDA
LDA的主要思想是选择一个投影方向,将数据投影,使得相同类别的数据尽可能紧凑,不同类别的数据尽可能分开
步骤:①计算类内散度矩阵和类间散度矩阵
②计算投影方向
③降维

8.决策树对过拟合的主要手段是什么?该手段的优缺点是什么?
主要手段是剪枝
预剪枝的优点是计算效率高和避免过拟合,缺点是容易信息丢失,导致欠拟合
后剪枝的优点是包括更好的泛化能力和不容易欠拟合,缺点是计算开销大,容易过拟合

9.简述M-P神经元模型的组成及每一部分的作用
M-P神经元是由输入部分和激活函数构成
输入部分接收外部输入信号,并赋予每个输入相应的权重
激活函数会根据输入信号的加权和是否超过神经元的阈值来决定是否激活神经元

10.神经网络对于过拟合的有效手段
正则化,通过在损失函数中加入正则化,如L1正则化或L2正则化,以惩罚模型的复杂度,防止模型过度拟合数据
早停法,通过在训练中监控验证集的性能表现,当模型性能不再提升时,停止训练,防止模型过度拟合数据

11.卷积神经网络CNN的结构和作用
输入层:接收原始数据
卷积层:提取特征
激活函数:增加非线性
池化层:减少特征图尺寸
全连接层:将特征进行分类和回归
卷积神经网络结构有:输入层、卷积层、激活函数、池化层、全连接层

12.支持向量机的基本型和稀疏性解释
包括线性SVM和非线性SVM,=> min w,b 1/2||w||²
基本型
稀疏性指在训练数据时,只有少量数据成为支持向量,只有少数样本对模型有影响作用

13.朴素贝叶斯分类器和半朴素贝叶斯分类器区别
区别在于两者对于数据样本处理的特征依赖关系不同,朴素贝叶斯分类器假设特征之间相互独立;
半朴素贝叶斯分类器允许特征之间存在一定的依赖关系

14.聚类算法和性能度量
聚类算法将数据样本划分为不同的类别或簇,不同类别的样本相似度较高,同一类别的相似度较低。性能度量是检测聚类算法的质量,包括聚类准确度、轮廓系数等,聚类准确度是指分类正确的样本占样本总数的比例,轮廓系数是指簇内紧密度和簇间分离度的平衡程度

计算题

一、线性回归

(1)什么是“线性回归”目的?
找到一条直线或一个平面或更高维的超平面,使得预测值与真实值之间的误差最小化。
(2)给出单一属性的线性回归目标函数。
在这里插入图片描述
(3)若用最小二乘法求解线性回归模型,给出最小二乘法的闭式解(w和b)及其推导过程。

线性回归

二、决策树

(1)简述决策树学习的目标,并列举两种度量样本集合纯度最常用的指标。
目标:在训练数据集上构建一棵决策树,使得该决策树能够对新的未知数据进行分类或回归预测,同时保证分类或预测的准确性。
指标举例:基尼指数、信息增益。
(2)“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk,k=1,2,…∣Y∣,写出D的信息熵Ent(D)的公式表达。
在这里插入图片描述

(3)假定离散属性a有V个可能的取值{a1,a2,…,aV},使用a来对样本集D进行划分,写出属性a对样本集合D进行划分所获得的信息增益的公式表达。

Gain(D,a) = Ent(D) - ∑p(v) * Ent(D_v)

(4)以属性“根蒂”为例,其对应的3个数据子集分别为D1(根蒂=蜷缩),D2(根蒂=稍蜷),D3(根蒂=硬挺),分别写出计算,Ent(D1)、Ent(D2)和Ent(D3)的过程。
D1(根蒂=蜷缩)有8个,其中正例5个,反例3个,D2(根蒂=稍蜷)有7个,其中正例3个,反例4个,D3(根蒂=硬挺)有2个,正例0个,反例2个,由此得出:

Ent(D1)= -(5/8*log2(5/8)+3/8*log2(3/8)Ent(D2)= -(3/7*log2(3/7)+4/7*log2(4/7)Ent(D3)= -(0/2*log2(0/2)+2/2*log2(2/2)

三、贝叶斯

两类的先验概率分别为:0.8和0.2。现有一待识别的鱼,其鱼的光泽度指标x,从类条件概率密度分布曲线上查得鲈鱼:P(x|c1) = 0.15;鲑鱼: P(x|c2) = 0.5。
(1)简述朴素贝叶斯分类器原理。
朴素贝叶斯分类器基于贝叶斯定理与特征条件独立假设,通过计算给定样本属于某个类别的概率,选择概率最大的类别作为预测类别。
(2)请给出后验概率P(c|x)和贝叶斯判定准则的具体式子。
在这里插入图片描述
在这里插入图片描述

(3)使用贝叶斯决策对鱼的类别进行预测。

P(c1|x) =  (0.8×0.15)/(0.8×0.15+0.2×0.5)=0.12/(0.12+0.1)  = 0.545
P(c2|x) =  (0.2×0.5)/(0.8×0.15+0.2×0.5)=0.1/(0.12+0.1)  = 0.454

由于P(c1|x)>P(c2|x),根据贝叶斯判定准则,将该鱼判定为鲈鱼。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/290074.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

酷开系统小酷少儿重磅升级!陪伴孩子美好童年!

孩子的成长总是匆匆太匆匆,父母们应该放慢脚步,感悟童心。用心灵和智慧陪伴孩子,在孩子的心中没有什么比幸福的家庭更重要,没有什么比父母的陪伴更美好!酷开系统少儿频道全面升级!让酷开系统小酷少儿陪伴成…

设计模式篇章(1)——理论基础

设计模式:在软件开发中会面临许多不断重复发生的问题,这些问题可能是代码冗余、反复修改旧代码、重写以前的代码、在旧代码上不断堆新的代码(俗称屎山)等难以扩展、不好维护的问题。因此1990年有四位大佬(GoF组合&…

ant design pro 5 企业级后台前端框架自定义根路径设置,解决public文件夹下资源在打包部署后出现找不到的问题

关于ant design pro v5的开箱使用方法见:开箱即用的企业级数据和业务管理中后台前端框架Ant Design Pro 5的开箱使用和偏好配置-CSDN博客 在开发过程中为了方便我们可能会将部分静态资源如logo等放入public文件夹,但在设置站点根路径后,publi…

5.云原生安全之ingress配置域名TLS证书

文章目录 cloudflare配置使用cloudflare托管域名获取cloudflare API Token在cloudflare中配置SSL/TLS kubesphere使用cert-manager申请cloudflare证书安装证书管理器创建Secret资源创建cluster-issuer.yaml创建cert.yaml申请证书已经查看申请状态 部署harbor并配置ingress使用证…

iec61850规约原理和工作原理

规约下载 https://products.iec.ch/view/search/all 规约整体介绍 ** IEC104和IEC61850的区别 ** modbus和IEC61850有什么区别 IEC61850简要介绍 变电站通信体系IEC61850将变电站通信体系分为3层站控层、间隔层、过程层。 IEC61850标准的服务实现主要分为三个部分&#xff…

运输层

title: 运输层 date: 2023-12-24 14:17:55 tags: 知识总结 categories: 计算机网络 运输层和网络层的联系和区别 物理层、数据链路层以及网络层它们共同解决了将主机通过异构网络互联起来所面临的问题,实现了主机到主机的通信,但实际上,在计…

奋楫扬帆,奔赴新程 | 2023 年图扑大事记回顾,与您携手共迎 2024

2023.01 工信部公示了 2022 年度智能制造示范工厂揭榜单位和优秀场景名单。图扑软件和上海洲邦合作建设的宁波甬友数字孪生工厂被评为优秀场景,全国共有 369 个智能制造典型场景入选。 2023.01 在第十一届中国创新创业大赛全国赛(新一代信息技术&#…

idea 弹框提示:Server‘s certificate is not trusted 解决办法

如图所示: 引起这个的根本原因:是因为你破解了idea,在本地hosts配置了映射,然后idea检测出来弹出警告 服务器证书不可用。所以在弹出这个框。 解决方法: 打开idea--->File-->Settings-->Tools-->点击Server Certifi…

anaconda navigator卡在loading user解决办法

01问题 打开anaconda navigator特别慢,卡在loading user 02查找原因 (1)关闭anaconda的所有进程 (2)打开anaconda prompt,输入anaconda-Navigator回车,即可通过报错查看原因。 QMimeDatabase: Error loading internal MIME data

jdk和IDEA教育版下载和安装详解

前言 研究生专业是通信系统,为了寻找实习于是在研二时期学习java。但是在学习java的过程中没有进行系统总结,很多知识点或者一些细节已经忘记。由于工作找的是某行软件中心的软件开发。准备在毕业前对java知识进行系统性学习。本专栏将从零基础开始,从最简单的jdk和IDEA下载…

python入门第一讲:认识python

目录 什么是计算机 什么是编程 编程语言有哪些 python是咋来的 python能干啥 python的优缺点 什么是计算机 什么叫计算机,当你把问这个问题问家里的老人的时候,他们很可能指着计算器告诉你说,这个就是计算机,这个很明显&am…

一文上手ThreadLocal使用和原理

什么是ThreadLocal?它有什么用? 当我们某个类需要被多线程共享的时候,我们就可以使用ThreadLocal关键字,ThreadLocal可以为每个线程创建这个变量的副本并存到每个线程的存储空间中(关于这个存储空间后文会展开讲述),从而确保共享…

输出回文数-第11届蓝桥杯选拔赛Python真题精选

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第23讲。 输出回文数&#…

数据分析概述

数据分析概述 在当今数字化的时代,数据已经成为我们周围不可忽视的存在。从商业领域到医疗行业,从科学研究到政府治理,数据的涌现为我们提供了前所未有的信息资源。然而,要从这个庞大的信息海洋中获取有意义的见解并做出明智的决策…

OpenCV-14图片的四则运算和图片的融合

一、图片的四则运算 1. 加法运算 通过使用API add来执行图像的加法运算 cv2.add(src1, src2)需要再其中传入两张图片。 图片就是矩阵,图片的加法运算就是矩阵的加法运算。 因此加法运算中要求两张图的shape必须是相同的。 首…

2023我的编程之旅-地质人的山和水

引言 大家好,我是搞地质的。外行人有的说我们游山玩水,有的说我们灰头土脸,也有的说我们不是科学。 而我说,这是一门穷极一生青春,值得奉献的行业。这是一门贴近民生,又拥抱自然的学科。他的真理性在于探…

excel 插件:Rainbow Analyst Crack

一个插件中包含四种 EXCEL 审核工具检测并修复隐藏的电子表格错误 不要满足于更少,四种领先的电子表格审计工具合二为一 Rainbow Analyst(因其对颜色编码的独特强大使用而得名)结合了世界级电子表格审核功能的多个领域: Excel™ …

【Spring实战】14 Web表单校验

文章目录 1. 依赖2. 实体类3. 控制器4. 页面5. 启动6. 验证1)访问页面2)后台校验 7. 优点8. 代码详细总结 在 Web 应用中,表单是用户与后端交互的主要界面之一。为了确保数据的有效性和一致性,我们经常需要对提交的表单数据进行验…

一文教会git如何配置多SSH Key(Github+Gitlab)

一文教会git如何配置多SSH Key(GithubGitlab) 对于工作了的伙伴来说,大家经常会配置多个SSH Key: SSH拉取的仓库不会反复的要求输入github用户名密码来验证自己的身份需要将公司的Gitlab和个人的Github区分开 我这里以Mac电脑为例…

Debezium发布历史46

原文地址: https://debezium.io/blog/2019/02/05/debezium-0-9-0-final-released/ 欢迎关注留言,我是收集整理小能手,工具翻译,仅供参考,笔芯笔芯. Debezium 0.9.0.Final 发布 2019 年 2 月 5 日 作者: G…