人工智能期末复习笔记(更新中)

分类问题

分类:根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类
垃圾分类、图像分类
在这里插入图片描述

怎么解决分类问题

在这里插入图片描述

分类和回归的区别

在这里插入图片描述

1. 逻辑回归分类

用于解决分类问题的一种模型。根据数据特征或属性,计算其归属于某一类别
的概率P,根据概率数值判断其所属类别。主要应用场景:二分类问题。
在这里插入图片描述

1. 谈谈你对机器学习的理解,包括回归和分类的相同点和不同点

机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术。
回归和分类的相同点:
预测性质:回归和分类都是用来预测未知数据的属性或类别。
监督学习:这两种任务都属于监督学习的范畴,即训练数据集包含了输入和相应的输出(标签)。
使用模型:它们都需要构建一个数学模型,该模型能够从训练数据中学习,然后用于对新数据进行预测。
回归和分类的不同点:
预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。

2. 简述机器学习的流程

抽象实际问题,获取数据,数据预处理,特征工程,训练模型及调优,模型评估不断迭代模型,获取最终模型

3. 简述监督学习与无监督学习之间的区别

数据类型:监督学习使用有标签的数据,无监督学习使用无标签的数据。
目标:监督学习旨在预测输出,无监督学习旨在发现数据中的结构和模式。
应用:监督学习用于分类和回归,无监督学习用于聚类、降维等

4. 数据预处理的过程中,对于异常数据处理的方法有哪些

1.删除异常值
2.修正异常值
3.数据变换
4.使用离群值检测算法
5.使用模型

填空题

机器学习

  1. 机器学习的工作流程:抽象实际问题、获取数据、数据预处理、特征工程、训练模型及调优、模型评估、获取最终模型
  2. 数据预处理的方法:数据清洗、数据变换、数据过滤
  3. 特征工程定义:从原始数据中进行特征构建、特征提取、特征选择
  4. 数据集分为:训练集(用于学习的数据集)、验证集(用来预防过拟合的发生,辅助训练过程的数据集)、测试集(用于测试和评估训练好的模型的数据集)
  5. 机器学习分为:监督学习、半监督学习、无监督学习
  6. 监督学习:基于标签训练数据的机器学习模型的过程
  7. 半监督学习:使用大量的未标记数据、以及同时使用标记数据,来进行模型识别工作
  8. 无监督学习:建立及其学习模型的过程不依赖标签训练数据

在机器学习中,回归和分类是两种基本的任务类型

  1. 分类:根据数据的属性或特征是否相似,来把它们归为一类
  2. 回归:评估输入变量和输出变量之间关系的过程

回归和分类的不同点:

预测目标:

回归的目标是预测连续型变量的数值,例如房价、温度等。回归问题的输出是一个连续的数值。
分类的目标是预测离散的类别或标签,例如判断邮件是否为垃圾邮件、图片中的物体类别等。分类问题的输出是一个离散的类别。
输出类型:

回归的输出是连续的实数值,可以是任意范围内的数字。
分类的输出是离散的类别,通常是有限的、预定义的标签集合。
评估指标:

回归问题通常使用诸如均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)等连续型指标来评估预测结果的准确性。
分类问题通常使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)等离散型指标来评估模型的性能。
课本原话
区别在于输出变量类型不同,分类的输出是离散的,回归的输出是连续的,分类问题是从不同类型的数据中学习数据的边界,而回归问题是从同一类型的数据中学习到这种数据中不同维度间的规律,去拟合真实规律

  1. 数据清洗的目的:将数据集中的”脏“数据去除
  2. 脏数据:缺少的数据、异常的数据、重复的数据
  3. 缺少的数据的处理方法:直接删去、填充为一个常量、取均值、中位数或使用频率高的值、插值填充、模型填充
  4. 异常数据的发现方法:建模法、计算机检查和人工检查相结合、聚类、密度法
  5. 数据变换:对对象的属性再数值上进行处理,包括规范化、离散化、稀疏化
  6. sklearn基本功能主要分为:数据预处理、数据降维、模型选择、分类、回归、聚类

逻辑回归分类

逻辑回归定义:用来解释输入变量和输出变量之间关系的一种技术,主要用于二分类问题

  1. sigmoid()函数:
    在这里插入图片描述

线性回归预测

线性回归定义:利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法

聚类(无标红,非重点)

聚类定义:根据相似性原则,将具有较高相似度的数据对象划分为同一类簇,将具有较高相异度的数据对象划分为不同类簇。(无监督学习)
聚类算法:K-Means算法(K均值算法)

  1. 初始化质点
  2. 聚类对象
  3. 更新质点

第4章 自然语言处理(NLP)

  1. 自然语言处理工具包:NLTK

  2. 使用stemming、lemmatization还原词汇

  3. 词袋模型:文本特征提取方式

  4. 文本分析的主要目的之一:把文本转化为数值

  5. 分析文档的步骤:1. 提取文档 2. 转换为数值形式

  6. 使用TF-IDF算法构建文档类别检测器
    作用:对文档所属的类别进行检测
    TF-IDF:是一种用于信息检索与数据挖掘的常用加权技术
    TF-IDF的值是这两个值的乘积:TF*IDF
    TF-IDF主要思想:p113
    TF-IDF作用:去除过滤常见的词语,从而保留重要的词语

  7. 主题模型算法不需要任何被标记的数据

  8. LDA包括三层结构:词、主题、文档(重点)

  9. LDA是非监督机器学习

课后习题

列出几种文本特征提取算法:词袋模型、TF-IDF、文本主题模型(LDA)
列出几种自然语言处理开源工具包:NLTK、Gensim、TextBlob

第5章 语言识别

将音频信号从时域转换为频域

  1. 音频信号包括:频率、相位、振幅的正弦波
  2. 信号的基本性质:时域、频域
  3. 时域是唯一实际存在的域,真实世界的,频域是一个数学构造,正弦波是频域唯一存在的波形
  4. 时域的基本变量:时间
  5. 频域的基本变量:频率
  6. 将音频信号从时域转换为频域:快速傅里叶变换

提取语音特征

  1. MFCC:用于从给定音频信号中提取频域特征
  2. 只使用低频MFCC,丢弃中高频MFCC
  3. 提取语言特征参数MFCC主要流程:预加重、分帧、加窗、FFT、Mel滤波器组、对数对算、DCT离散余弦变换

课后习题

  1. 列举几个语言识别技术的应用领域:通信、家电、工业、汽车电子、家庭服务、医疗、消费电子产品

  2. 简单概述语言识别技术的原理:
    先采集并预处理信号,使用数字信号处理技术提取声音的特征,利用声学模型和语言模型分析声音的特征和语言规律,以实现对语音输入的理解和处理

  3. 实现音频信号从时域转换为频域:
    首先将连续的模拟信号采样为离散的数字信号。然后,使用傅里叶变换(如快速傅里叶变换)将离散时域信号转换为频域信号,以分析信号在不同频率上的能量分布。

第6章 计算机视觉

视频中移动物体检测方法

  1. 帧间差分法
  2. 色彩空间
  3. 背景差分法

差分法的实现

  1. 视频采集
  2. 图像预处理
  3. 提取背景
  4. 二值化
  5. 获取前景图片

第7章 人工神经网络

  1. 循环神经网络基本原理:一个序列当前的输入与前面的输出有点联系,在网络会记忆前面的信息并计算当前的输出,隐藏层之间的节点是有连接的,隐藏层的输入包括输入层的输出和上一时刻隐藏层的输出。

简答题(概念)

  1. 机器学习:机器学习是一种通过数据(经验)和算法让计算机从中学习并改善系统自身的性能的技术,分为监督学习、半监督学习、无监督学习。
  2. 人工神经网络定义:一种模仿人类大脑结构和作用的数学模型,从而模拟人脑神经系统对复杂信息处理。
  3. 循环神经网络定义(必考):是对序列数据建模的人工神经网络,目的是处理序列数据。一个序列当前的输入与前面的输出有点联系,在网络会记忆前面的信息并计算当前的输出,隐藏层之间的节点是有连接的,隐藏层的输入包括输入层的输出和上一时刻隐藏层的输出。
  4. 深度学习定义:是一种精确的分层学习,指在多个计算阶段中精确第分配信用,以转换网络中的聚合激活,从而由简单的基础来学习和分析处理复杂的问题。
  5. 卷积神经网络:一种专门用于处理具有网格结构数据的深度学习模型,本质为前馈神经网络,包括卷积计算且具有深度结构。
  6. 强化学习:解决智能体在与外部环境交互活动的过程中,能够通过自身学习策略来应对外部环境问题,从而达到回报效益最大化的状态。
  7. 前馈神经网络:没有反馈机制,只能向前传播而不能反向传播来调整权值参数的神经网络模型。
  8. 神经元结构:神经元是ANN中的基本单元,每个神经元接收多个输入信号(通常包括权重和偏置),对这些输入信号进行加权求和,然后通过一个激活函数生成输出。
  9. 感知器:感知机(Perceptron)是一种最简单的人工神经网络模型,通常用于二元分类任务。它由输入层、权值、偏置、激活函数和输出层组成

第8章 强化学习和深度学习

  1. 卷积层的三个参数:核大小、步长、填充

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/760487.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

66、基于长短期记忆 (LSTM) 网络对序列数据进行分类

1、基于长短期记忆 (LSTM) 网络对序列数据进行分类的原理及流程 基于长短期记忆(LSTM)网络对序列数据进行分类是一种常见的深度学习任务,适用于处理具有时间或序列关系的数据。下面是在Matlab中使用LSTM网络对序列数据进行分类的基本原理和流…

XJTUSE-数据结构-homework1

任务 1 题目: 排序算法设计: 需要写Selection、Shell、Quicksort 和 Mergesort四种排序算法,书上讲述比较全面而且不需要进行额外的优化,下面我简要地按照自己的理解讲述。 Selection(选择排序)&#xff…

HarmonyOS Next开发学习手册——单选框 (Radio)

Radio是单选框组件,通常用于提供相应的用户交互选择项,同一组的Radio中只有一个可以被选中。具体用法请参考 Radio 。 创建单选框 Radio通过调用接口来创建,接口调用形式如下: Radio(options: {value: string, group: string})…

Linux常用工具使用方式

目录 常用工具: 安装包管理工具: 查找含有关键字的软件包 安装软件 安装文件传输工具 安装编辑器 C语言编译器 C编译器 安装调试器 安装项目版本管理工具 cmake 卸载软件 安装jsoncpp 安装boost库 安装mariadb 安装tree(让目录…

Python28-3 朴素贝叶斯分类算法

朴素贝叶斯算法简介 朴素贝叶斯(Naive Bayes)算法是一种基于贝叶斯定理的分类算法。它广泛应用于文本分类、垃圾邮件检测和情感分析等领域。该算法假设特征之间是独立的,这个假设在实际情况中可能并不完全成立,但Naive Bayes在许…

java笔记(30)——反射的 API 及其 使用

文章目录 反射1. 什么是反射2. 获取class字段(字节码文件对象)方式1方式2方式3应用 3. 获取构造方法和权限修饰符前期准备获取所有的公共构造方法获取所有的构造方法获取无参构造方法获取一个参数的构造方法获取一个参数的构造方法获取两个参数的构造方法…

Java面试题--JVM大厂篇之G1 GC的分区管理方式如何减少应用线程的影响

目录 引言: 正文: 1. 区域划分(Region) 2. 并行和并发回收 3. 区域优先回收(Garbage First) 4. 可预测的停顿时间 5. 分阶段回收 6. 复制和压缩 实际效果: 场景举例 1. 减少单次GC的影响 2. 支持高并发环境 3. 优…

数学建模(1):期末大乱炖

1 概述!! 1.1 原型和模型 原型:客观存在的研究对象称为原型,也称为“系统”、“过程”。 机械系统、电力系统、化学反应过程、生产销售过程等都是原型; 研究原型的结构和原理, 从而进行优化、预测、评价…

一区算法MPA|海洋捕食者算法原理及其代码实现(Matlab/Python))

Matlab/Python: 本文KAU将介绍一个2020年发表在1区期刊ESWA上的优化算法——海洋捕食者算法 (Marine Predators Algorithm,MPA)[1] 该算法由Faramarzi等于2020年提出,其灵感来源于海洋捕食者之间不同的觅食策略、最佳相遇概率策略、海洋记…

【MySQL】Linux下MySQL的目录结构、用户、权限与角色

一、Linux下MySQL的目录结构 1、MySQL相关目录 数据库文件存放路径:/var/lib/mysql数据库命令存放路径:/user/bin和/user/sbin配置文件目录:/usr/share/mysql-8.0/、/usr/share/mysql/和/etc/my.cnf 2、假设我们创建了一个数据库dbtest1&a…

使用evo工具比较ORB-SLAM3的运行轨迹(从安装到解决报错)

ORB-SLAM2和ORB-SLAM3怎么跑出来,之前都有相关的保姆级的教程,下来给大家介绍一款evo工具,给科研加速!!! 文章目录 1.下载evo2.生成轨迹3.evo别的功能使用 1.下载evo 输入命令下载 pip install -i https…

你真的会udf提权???数据库权限到系统权限 内网学习 mysql的udf提权操作 ??msf你会用了吗???

我们在已经取得了数据库的账号密码过后,我们要进一步进行提取的操作,我们mysql有4钟提权的操作。 udf提权(最常用的)mof提权启动项提权反弹shell提权操作 怎么获取密码操作: 怎么获取密码,通过sql注入获取这个大家都应该知道了&a…

百强韧劲,进击新局 2023年度中国医药工业百强系列榜单发布

2024年,经济工作坚持稳中求进、以进促稳、先立后破等工作要求。医药健康行业以不懈进取的“韧劲”,立身破局,迎变启新。通过创新和迭代应对不确定性,进化韧性力量,坚持高质量发展,把握新时代经济和社会给予…

零基础开始学习鸿蒙开发-读书app简单的设计与开发

目录 1.首页设计 2.发现页面的设计 3.设置页面的设计 4.导航页设计 5.总结: 6.最终的效果 1.首页设计 Entry Component export struct home {State message: string 首页build() {Row() {Column() {Text(this.message).fontSize(50).fontWeight(FontWeight.B…

基于线调频小波变换的非平稳信号分析方法(MATLAB)

信号处理领域学者为了改进小波变换在各时频区间能量聚集性不高的缺点,有学者在小波分析基础上引入调频算子构成了线性调频小波变换,线调频小波一方面继承了小波变换的理论完善性,另一方面用一个新的参数(线调频参数)刻…

构建高效业财一体化管理体系

构建高效业财一体化管理体系 业财一体化战略意义 提升决策质量 强化数据支撑:通过整合业务与财务数据,为决策提供准确、实时的信息基础,确保分析的深度与广度。促进业务与财务协同:打破信息孤岛,实现业务流程与财务管…

Django 定义模型执行迁移

1,创建应用 Test/app8 python manage.py startapp app8 2,注册应用 Test/Test/settings.py 3,配置路由 Test/Test/urls.py from django.contrib import admin from django.urls import path, includeurlpatterns [path(app8/, include(a…

Linux服务器上安装CUDA11.2和对应的cuDNN 8.4.0

一、检查 检查本机是否有CUDA工具包,输入nvcc -V: 如图所示,服务器上有CUDA,但版本为9.1.85,版本过低,因此博主要重装一个新的。 二、安装CUDA 1.查看服务器最高支持的CUDA版本 在命令行输入nvidia-smi查看显卡驱动…

Mining Engineering First Aid Riding

4个最主要的日常技能:Mining 采矿 Engineering 工程 First Aid 急救 Riding 骑术 4个最主要的日常技能

C# 信号量的使用

学习来源:《.net core 底层入门》 第六章第9节:信号量 案例:主线程负责添加数据,子线程负责获取数据 使用SemaphoreSlim(轻信号量)实现: using System; using System.Collections.Generic; us…