机器学习——期末复习 重点题归纳

第一题

问题描述

现有如下数据样本:

编号色泽敲声甜度好瓜
1乌黑浊响
2浅白沉闷
3青绿清脆
4浅白浊响

(1)根据上表,给出属于对应假设空间的3个不同假设。若某种算法的归纳偏好为“适应情形尽可能少”,则该算法喜欢选择哪些“判断为好瓜”的假设?

(2)若该数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下设计一种合理的归纳偏好用于假设选择。

回答

(1)假设空间中的三个不同假设
  • 假设1:色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
  • 假设2:色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜
  • 假设3:色泽 ≠ 浅白 ∧ 敲声 ≠ 沉闷 ∧ 甜度 ≠ 低 → 好瓜

如果算法的归纳偏好是“适应情形尽可能少”,那么它会选择那些能够覆盖最少正例的假设。在这种情况下,算法可能会选择以下两个假设:

  • 假设1:色泽 = 乌黑 ∧ 敲声 = 浊响 ∧ 甜度 = 高 → 好瓜
  • 假设2:色泽 = 青绿 ∧ 敲声 = 清脆 ∧ 甜度 = 中 → 好瓜

这两个假设分别只覆盖了一个正例,因此它们满足“适应情形尽可能少”的要求。

(2)合理的设计归纳偏好

在存在噪声的情况下,假设空间中可能没有一个假设能完全匹配所有的训练样本。此时可以采用以下几种归纳偏好来选择合适的假设:

  • 最小化错误率:选择使得预测错误率最低的假设。
  • 最大化置信度:选择对正例和负例分类最准确的假设。
  • 简化原则:选择最简单的假设,即参数最少或规则最简洁的假设。

这些归纳偏好可以帮助在有噪声的数据集中找到相对较好的假设。

第二题

问题描述

假设由同一数据分布采样得到两个样本集合 S1 和 S2:

  • S1 包含 6000 个数据样本;
  • S2 包含 120000 个数据样本。

每个样本集均按照 9:1 的比例随机划分为训练集和测试集。请按以下要求,在同一坐标系下清晰地绘制四条曲线,并标记每一条曲线:

  1. 对于每个样本集合,试画出该集合的训练误差曲线和测试误差曲线;纵轴为误差,横轴为模型复杂度。(5 分)
  2. 解释曲线为何这样画的原因,即解释不同曲线的变化趋势以及曲线间的高低位置关系。(5 分)

回答问题

1. 绘制曲线

在这里插入图片描述

2. 曲线变化原因及位置关系
  • 训练误差曲线:随着模型复杂度的增加,模型拟合能力增强,导致训练误差逐渐减小。当模型过拟合时,训练误差会趋于平稳。

  • 测试误差曲线:随着模型复杂度的增加,测试误差先下降是因为模型泛化能力提高。然而,当模型过于复杂时,会出现过拟合现象,导致测试误差再次升高。

  • S1 和 S2 曲线比较:由于 S2 样本量更大,其训练误差和测试误差都会比 S1 更低。同时,S2 的最佳模型复杂度也会更高,因为更多的数据有助于避免过拟合。

通过以上分析,我们可以在同一坐标系下绘制出四条曲线,并解释它们的变化趋势及其相互之间的位置关系。

第三题

问题描述

试简述离群点的基本概念并列出三种应对策略

离群点的基本概念

离群点是远离大部分数据点的点。

应对策略

以下是三种应对离群点的常见策略:

A1:只需忽略这些异常值即可。
A2:转换/归一化:应用平方根或取log,以使x/y的值更小,然后离
群值将更靠近大多数数据点。
A3:引入非线性项:y = b + w1x +w2x2。

第四题

问题描述

给定一个含有缺失值的西瓜数据集,其中前10个样本作为训练集,后5个样本作为验证集。数据集包括编号、色泽、敲击声音、根蒂和是否为好瓜五个属性。任务是在决策树的根节点处基于信息增益原则选择最优划分属性,并讨论预剪枝策略下的决策。

数据集

编号色泽敲击声音根蒂是否为好瓜
1乌黑浊响蜷缩
2-沉闷蜷缩
3青绿-稍蜷
4乌黑浊响蜷缩
5青绿清脆稍蜷
6浅白清脆硬挺
7-沉闷-
8浅白清脆硬挺
9-清脆硬挺
10青绿--
11青绿浊响稍蜷
12浅白清脆稍蜷
13乌黑沉闷蜷缩
14浅白沉闷硬挺
15青绿清脆稍蜷

回答

(1) 决策树的根节点处的选择
计算过程略
信息增益计算
  • 色泽:考虑色泽为乌黑、青绿、浅白的样本。
  • 敲击声音:考虑敲击声音为浊响、清脆、沉闷的样本。
  • 根蒂:考虑根蒂为蜷缩、稍蜷、硬挺的样本。

对于每一个属性,我们需要计算在该属性不同取值下的条件熵,然后计算信息增益。

最终,选择信息增益最大的属性作为根节点的划分属性。

(2) 预剪枝策略下的决策

第五题

题目要求设计一种高效、合理的方案,利用m台机器实现分布式聚类算法。具体来说,需要考虑如何将数据样本划分到每台机器上,并且如何汇总处理每台机器的计算结果。

设计方案

假设我们有m台机器,数据样本为D,特征维度为p,簇类别数为k。

  1. 初始化

    • 随机选择k个初始簇中心。
    • 将数据样本随机划分为m份,分别存储在m台机器上。
  2. 本地聚类

    • 每台机器执行以下操作:
      • 使用当前的簇中心对本地数据进行聚类。
      • 更新本地的簇中心。
  3. 同步与更新

    • 各台机器将自己的簇中心信息发送给主控机。
    • 主控机收集所有簇中心信息,计算新的全局簇中心。
    • 将新的全局簇中心广播给所有机器。
  4. 迭代优化

    • 重复步骤2和步骤3,直到簇中心收敛或达到最大迭代次数。
  5. 结果汇总

    • 根据最终的簇中心,对整个数据集进行重新分配,确定每个样本所属的簇。
    • 返回聚类结果。

通过这种方式,可以在多台机器上并行地执行聚类任务,有效地处理大数据场景下的聚类问题。

第六题

问题

六、Boosting 算法是一种常用的集成算法,试回答以下问题。(20 分)

(1)试描述 Boosting 算法的基本概念。(4 分)

(2)AdaBoost 是 Boosting 中最具代表性的算法,试描述 AdaBoost 算法是如何实现的。(10 分)

(3)AdaBoost 算法通常有如下 2 个局限性:
- 当基学习器的精度小于 50%时,AdaBoost 算法将不能正常运行,试其分析原因。(3 分)
- AdaBoost 算法易受离群点的干扰,试简要描述一种可以减少该干扰的方法。(3 分)

回答

(1)Boosting 算法的基本概念

(1)从初始训练集训练出一个基学习器;
(2)根据学习器的表现对训练样本分布进行调整,使得先前基学习
器做错的样本再后续受到更多关注;
(3)基于调整后的样本分布来训练一个基学习器;
(4)重复2-3,直到基学习器数量达到预设的T值;
(5)将T个基学习器进行加权结合。

(2)AdaBoost 算法如何实现

在这里插入图片描述

(3)AdaBoost 的局限性及解决方法
  • 当基学习器的精度小于 50%时,AdaBoost 算法将不能正常运行

    原因:如果基学习器的精度低于 50%,意味着它比随机猜测还要差,此时 AdaBoost 算法会不断放大这些错误分类样本的权值,导致整体性能下降甚至发散。

  • AdaBoost 算法易受离群点的干扰

    解决方法:使用剪枝技术或对异常值进行预处理。例如,可以通过设置阈值来识别和移除离群点,或者采用其他鲁棒性更强的学习算法作为基学习器。另一种方法是在训练过程中动态调整离群点的权值,使其影响最小化。

第七题

设计一个基于机器学习的高效、科学、合理的算法来检测视频内容是否违规,可以分为以下几个关键步骤:

1. 数据收集与标注

首先需要大量的视频数据作为训练集,包括合规和违规的内容。这一步骤可能需要人工参与,以确保数据的质量和准确性。

2. 特征提取

从视频中提取有助于判断内容是否违规的关键特征。常见的特征类型包括但不限于:

  • 视觉特征:如颜色直方图、纹理特征、人脸检测结果等。
  • 音频特征:如语音情感分析、背景噪音水平等。
  • 文本特征:若视频包含字幕或弹幕信息,则可从中抽取文本特征。

3. 模型选择与训练

根据任务需求和数据特性选择合适的机器学习模型。对于视频内容审核这类复杂场景,深度学习模型(如卷积神经网络CNN、循环神经网络RNN及其变种LSTM/GRU)往往能取得较好的效果。具体步骤如下:

  • 划分数据集为训练集、验证集和测试集。
  • 设计模型结构,定义损失函数和优化器。
  • 使用训练集数据训练模型,利用验证集调优超参数。
  • 在测试集上评估模型性能,确保泛化能力。

4. 异常检测与规则引擎

除了直接使用机器学习模型外,还可以结合一些规则引擎和技术手段来提高系统的准确性和效率:

  • 异常检测:针对某些特定类型的违规行为,如暴力、色情等,可以预先设定一些规则,一旦触发即视为违规。
  • 多模态融合:综合考虑视觉、音频和文本等多种信息源,提升检测的全面性和准确性。

5. 实时监控与反馈机制

为了应对实时上传的海量视频数据,系统应具备高效的批处理能力和实时响应机制:

  • 批量处理:对批量上传的视频进行快速初筛,过滤掉明显合规的内容,集中资源审查可疑视频。
  • 反馈机制:建立用户举报和专家复审通道,及时修正误判情况,持续优化模型表现。

简略版:

  1. 数据收集:从已知违规和非违规视频中收集大量标注数据。
  2. 特征提取:利用深度学习模型如卷积神经网络(CNN)提取视频帧特征。
  3. 模型训练:根据任务需求和数据特性选择合适的机器学习模型。对于视频内容审核这类复杂场景,深度学习模型(如卷积神经网络CNN、循环神经网络RNN及其变种LSTM/GRU)。
  4. 集成学习:结合多个不同类型的分类器以提高准确性和稳定性。
  5. 在线测试:实时监控上传的新视频并应用训练好的模型进行自动审核。
  6. 反馈机制:定期更新模型参数以适应新的违规模式变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/919002.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Web3浪潮下的区块链应用:从理论到实践的全面解析

随着Web3的兴起,区块链技术作为其核心支撑,正迎来前所未有的应用爆发。Web3不仅仅是技术的革新,更代表了一种去中心化、开放、透明的互联网愿景。在这一背景下,区块链技术的应用正从理论走向实践,推动着各行各业的数字…

学习大数据DAY61 宽表加工

目录 模型设计 加工宽表 任务调度: 大表 - 把很多数据整合起来 方便后续的明细查询和指标计算 模型设计 设计 建模 设计: excel 文档去编写 建模: 使用建模工具 PowerDesigner Navicat 在线画图工具... 把表结构给绘 制出来 共享\项目课工具\pd 加工宽表 数…

ChromeDriver驱动下载地址更新(保持最新最全)

说明: ChromeDriver 是 Selenium WebDriver 用于控制 Chrome 的独立可执行文件。 为了方便下载使用,本文保持ChromeDriver的最新版本更新,并提供115.0.5763.0-133.0.6841.0版本的下载地址: 所有版本和下载地址: &am…

QT基本绘图

QT绘图 1.概述 这篇文章介绍如何绘图 2.绘图基本操作 创建一个普通的widget类型的项目 在widget.h 文件中重写绘图事件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : p…

[ACTF2020]Upload 1--详细解析

信息收集 题目告诉我们是一道upload&#xff0c;也就是文件上传漏洞题目。 进入界面&#xff0c;是一个灯泡&#xff0c;将鼠标放在图标上就会出现文件上传的相应位置&#xff1a; 思路 文件上传漏洞&#xff0c;先看看有没有前端校验。 在js源码中找到了前端校验&#xff…

Android Studio开发学习(五)———LinearLayout(线性布局)

一、布局 认识了解一下Android中的布局&#xff0c;分别是: LinearLayout(线性布局)&#xff0c;RelativeLayout(相对布局)&#xff0c;TableLayout(表格布局)&#xff0c; FrameLayout(帧布局)&#xff0c;AbsoluteLayout(绝对布局)&#xff0c;GridLayout(网格布局) 等。 二、…

计算机视觉在自动驾驶汽车中的应用

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 计算机视觉在自动驾驶汽车中的应用 计算机视觉在自动驾驶汽车中的应用 计算机视觉在自动驾驶汽车中的应用 引言 计算机视觉在自动…

表格的选择弹窗,选中后返显到表格中

项目场景&#xff1a; 提示&#xff1a;这里简述项目相关背景&#xff1a; 表格的下拉框可以直接显示选项&#xff0c;那如果选择框不是下拉的&#xff0c;而是弹窗&#xff0c;那么在表格中如何返显呢&#xff1f; 问题描述 如上图所示&#xff0c;点击表格中的选择&#xf…

金融领域先锋!海云安成功入选2024年人工智能先锋案例集

近日&#xff0c;中国人工智能产业发展联盟《2024年人工智能先锋案例集》&#xff08;以下简称“AIIA先锋案例集”&#xff09;在中国人工智能产业发展联盟第十三次全体会议上正式发布。该案例集由人工智能产业发展联盟&#xff08;AIIA&#xff09;、工业和信息化部新闻宣传中…

HarmonyOs鸿蒙开发实战(16)=>沉浸式效果第一种方案一窗口全屏布局方案

1.沉浸式效果的目的 开发应用沉浸式效果主要指通过调整状态栏、应用界面和导航条的显示效果来减少状态栏导航条等系统界面的突兀感&#xff0c;从而使用户获得最佳的UI体验。 2.窗口全屏布局方案介绍 调整布局系统为全屏布局&#xff0c;界面元素延伸到状态栏和导航条区域实现沉…

OpenAI震撼发布:桌面版ChatGPT,Windows macOS双平台AI编程体验!

【雪球导读】 「OpenAI推出ChatGPT桌面端」 OpenAI重磅推出ChatGPT桌面端&#xff0c;全面支持Windows和macOS系统&#xff01;这款新工具为用户在日常生活和工作中提供了前所未有的无缝交互体验。对于那些依赖桌面端进行开发工作的专业人士来说&#xff0c;这一更新带来了令人…

Android OpenGLES2.0开发(八):Camera预览

严以律己&#xff0c;宽以待人 引言 终于到该章节了&#xff0c;还记得Android OpenGLES2.0开发&#xff08;一&#xff09;&#xff1a;艰难的开始章节说的吗&#xff1f;写这个系列的初衷就是因为每次用到GLSurfaceViewCamera预览时&#xff0c;总是CtrlC、CtrlV从来没有研究…

独立站干货:WordPress主机推荐

WordPress作为全球最受欢迎的独立站建设平台&#xff0c;提供了灵活性和强大的功能&#xff0c;使得建站变得简单而高效。本文将为您详细介绍WordPress建站的流程&#xff0c;并推荐几款实测后觉得好用的主机商。 WordPress建站流程 域名注册 首先需要注册一个域名&#xff0c…

细说STM32单片机DMA中断收发RTC实时时间并改善其鲁棒性的方法

目录 一、DMA基础知识 1、DMA简介 (1)DMA控制器 (2)DMA流 (3)DMA请求 (4)仲裁器 (5)DMA传输属性 2、源地址和目标地址 3、DMA传输模式 4、传输数据量的大小 5、数据宽度 6、地址指针递增 7、DMA工作模式 8、DMA流的优先级别 9、FIFO或直接模式 10、单次传输或突…

基于Spring Boot+Vue的多媒体素材管理系统的设计与实现

一.系统开发工具与环境搭建 1.系统设计开发工具 后端使用Java编程语言的Spring boot框架 项目架构&#xff1a;B/S架构 运行环境&#xff1a;win10/win11、jdk17 前端&#xff1a; 技术&#xff1a;框架Vue.js&#xff1b;UI库&#xff1a;ElementUI&#xff1b; 开发工具&…

如何禁用关闭奇安信天擎开机自启动教程

前言 公司要求我们员工每个电脑上都要安装奇安信防护软件&#xff0c;但是身为开发&#xff0c;这个软件占内存不说&#xff0c;还禁用我们电脑上todesk等远程软件&#xff0c;因为我们给客户部署的项目&#xff0c;部署的有软件服务&#xff0c;经常需要用到todesk等远程软件…

[Docker#8] 容器配置 | Mysql | Redis | C++ | 资源控制 | 命令对比

目录 一&#xff1a;Mysql 容器化安装 二&#xff1a;Redis 容器化安装 Redis 简介 Redis 容器创建 三&#xff1a;C容器制作 四&#xff1a;容器资源更新 常见问题 一&#xff1a;Mysql 容器化安装 进入 mysql 的镜像网站&#xff0c;查找 mysql 的镜像 mysql docker…

CentOS 修改服务器登录密码的完整指南

个人名片 &#x1f393;作者简介&#xff1a;java领域优质创作者 &#x1f310;个人主页&#xff1a;码农阿豪 &#x1f4de;工作室&#xff1a;新空间代码工作室&#xff08;提供各种软件服务&#xff09; &#x1f48c;个人邮箱&#xff1a;[2435024119qq.com] &#x1f4f1…

深入理解Redis(七)----Redis实现分布式锁

基于Redis的实现方式 1、选用Redis实现分布式锁原因&#xff1a; &#xff08;1&#xff09;Redis有很高的性能&#xff1b; &#xff08;2&#xff09;Redis命令对此支持较好&#xff0c;实现起来比较方便 2、使用命令介绍&#xff1a; &#xff08;1&#xff09;SETNX SETNX …

Uniapp运行环境判断和解决跨端兼容性详解

Uniapp运行环境判断和解决跨端兼容性 开发环境和生产环境 uniapp可通过process.env.NODE_ENV判断当前环境是开发环境还是生产环境&#xff0c;一般用于链接测试服务器或者生产服务器的动态切换。在HX中&#xff0c;点击运行编译出来的代码是开发环境&#xff0c;点击发行编译…