机器学习-Basic Concept

机器学习(Basic Concept)

videopptblog

Where does the error come from?

在前面我们讨论误差的时候,我们提到了Average Error On Testing Data是最重要的
A more complex model does not lead to better performance on test data

Bias And Variance

Bias And Variance

Bias(偏差)

偏差指的是模型在训练过程中对于真实关系的错误假设或简化程度。当模型具有较高的偏差时,它倾向于对问题进行过于简单的建模,从而忽略数据中的一些复杂特征或模式。这可能导致模型在训练数据上表现较差,并且很可能在测试数据上也表现不佳,即出现欠拟合的现象。通常,高偏差的模型过于刚硬,难以适应数据的变化和复杂性.
偏差:整体预测值与真实值之间的误差,具体表现为预测的整体与正确预测的偏离程度。

Variance(方差)

方差指的是模型在不同训练集上预测结果的变化程度。当模型具有较高的方差时,它对于训练数据中的噪声和随机性非常敏感,从而导致在不同的训练集上表现差异较大。这可能表现为在训练数据上表现很好,但在测试数据上表现较差的现象,即出现过拟合。过拟合意味着模型过于复杂,过于适应训练数据的细节,而无法很好地泛化到新数据。
方差:预测值离期望值的距离,具体表现为数据的分散程度。

Bias And Variance
简介
来源

多项式拟合次数模型复杂度方差偏差过/欠拟合
欠拟合
适度
过拟合

在这里插入图片描述

区别:

  • 偏差关注的是模型对问题的刻画能力,即是否能够捕捉到数据的真实规律,过高的偏差导致欠拟合。
  • 方差关注的是模型对训练数据的敏感性,即是否过度适应了训练数据,导致在新数据上泛化能力差,过高的方差导致过拟合。
  • 偏差和方差都是希望降低的,因为它们都可能导致模型在不同情况下表现不佳。优化模型的目标是在偏差和方差之间找到一个平衡点,从而提高模型的泛化能力。

Picture

Noise(噪声)

噪声指的是数据中的随机性和不可预测性,它来源于许多现实世界的因素,比如测量误差、数据收集的不完美等。噪声是不可避免的,并且可能会对模型的性能产生影响。机器学习的目标是找到真实关系,并尽可能减少噪声的影响。模型的偏差和方差会影响其对噪声的敏感性。

在模型优化过程中,通常通过调整模型的复杂度(例如,增加或减少特征、调整模型的深度和宽度等)来平衡偏差和方差。较复杂的模型可能会降低偏差但增加方差,而简单的模型则相反。同时,采用交叉验证等技术来评估模型的性能,以便更好地理解模型的泛化能力。

在这里插入图片描述

The Balence Between Bia And Variance

Balence

Underfitting

Due To Large Bias
欠拟合是指模型在训练数据上表现不佳,无法很好地捕捉数据中的模式和关系。
一般原因:模型过于简单,数据集中,与真实值误差较大

  • redesign your model:
  • Add more features as input
  • A more complex model

Overfitting

Due To Large Variance
过拟合是指模型在训练数据上表现优秀,但在未见过的新数据上表现不佳。
一般原因:模型过于复杂,整体数据偏差较小,预测值较为分散

  • More data(Very effective,but not always practical)
  • Regularization(Make your function more smooth)

Cross Validation

交叉验证(Cross-validation)是机器学习中一种常用的技术,用于评估模型的性能和泛化能力。它帮助我们检验模型在未见过的数据上的表现,并提供比单一训练集和测试集划分更可靠的性能评估。
基本思想:将数据集进行划分,如何使用这些数据集多次进行模型训练和测试。
步骤:

  1. 数据划分:将整个数据集随机分成K个子集(折叠),每个子集的大小大致相等。
  2. 训练与验证:对于每个折叠,使用K-1个子集作为训练集,剩余的一个子集作为验证集。
  3. 性能指标:用选定的评估指标(如准确率、均方误差等)在验证集上评估模型的性能。
  4. 平均性能:将K次验证得到的性能指标取平均,得到模型的整体性能评估结果。
N-fold Cross Validation

在N折交叉验证中,将数据集划分为N个子集,每个子集只包含一个样本。然后,依次将每个子集作为验证集,其他N-1个子集作为训练集进行模型训练和验证。这样,每个样本都将作为单独的验证集,并且模型将在所有样本上进行N次训练和验证。
步骤:

  1. 将数据集划分为N个子集,每个子集只包含一个样本。
  2. 对于每个子集,将其作为验证集,其他N-1个子集作为训练集。
  3. 在训练集上训练模型,并在验证集上进行性能评估。
  4. 重复步骤2和3,直到所有子集都被用作验证集。
  5. 计算N次验证的性能指标的平均值,得到模型的性能评估结果。

Cross Validation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/53473.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

排序算法(冒泡排序、选择排序、插入排序、希尔排序、堆排序、快速排序、归并排序、计数排序)

🍕博客主页:️自信不孤单 🍬文章专栏:数据结构与算法 🍚代码仓库:破浪晓梦 🍭欢迎关注:欢迎大家点赞收藏关注 文章目录 🍓冒泡排序概念算法步骤动图演示代码 &#x1f34…

数学建模学习(7):Matlab绘图

一、二维图像绘制 1.绘制曲线图 最基础的二维图形绘制方法:plot -plot命令自动打开一个图形窗口Figure; 用直线连接相邻两数据点来绘制图形 -根据图形坐标大小自动缩扩坐标轴,将数据标尺及单位标注自动加到两个坐标轴上,可自定…

【Linux】sed修改文件指定内容

sed修改文件指定内容: 参考:(5条消息) Linux系列讲解 —— 【cat echo sed】操作读写文件内容_shell命令修改文件内容_星际工程师的博客-CSDN博客

理解构建LLM驱动的聊天机器人时的向量数据库检索的局限性 - (第1/3部分)

本博客是一系列文章中的第一篇,解释了为什么使用大型语言模型(LLM)部署专用领域聊天机器人的主流管道成本太高且效率低下。在第一篇文章中,我们将讨论为什么矢量数据库尽管最近流行起来,但在实际生产管道中部署时从根本…

【编译】gcc make cmake Makefile CMakeList.txt 区别

文章目录 一 关系二 gcc2.1 编译过程2.2 编译参数2.3 静态库和动态库1 后缀名2 联系与区别 2.4 GDB 调试器1 常用命令 三 make、makefile四 cmake、cmakelist4.1 语法特性4.2 重要命令4.2 重要变量4.3 编译流程4.4 两种构建方式 五 Vscode5.0 常用快捷键5.1 界面5.2 插件5.3 .v…

点播播放器如何自定义额外信息(统计信息传值)

Web播放器支持设置观众信息参数&#xff0c;设置后在播放器上报的观看日志中会附带观众信息&#xff0c;这样用户就可以通过管理后台的统计页面或服务端API来查看特定观众的视频观看情况了。 播放器设置观众信息参数的代码示例如下&#xff1a; <div id"player"…

加利福尼亚大学|3D-LLM:将3D世界于大规模语言模型结合

来自加利福尼亚大学的3D-LLM项目团队提到&#xff1a;大型语言模型 (LLM) 和视觉语言模型 (VLM) 已被证明在多项任务上表现出色&#xff0c;例如常识推理。尽管这些模型非常强大&#xff0c;但它们并不以 3D 物理世界为基础&#xff0c;而 3D 物理世界涉及更丰富的概念&#xf…

【100天精通python】Day20:文件及目录操作_os模块和os.psth模块,文件权限修改

目录 专栏导读 1 文件的目录操作 os模块的一些操作目录函数​编辑 os.path 模块的操作目录函数 2 相对路径和绝对路径 3 路径拼接 4 判断目录是否存在 5 创建目录、删除目录、遍历目录 专栏导读 专栏订阅地址&#xff1a;https://blog.csdn.net/qq_35831906/category_12…

Java中的代理模式

Java中的代理模式 1. 静态代理JDK动态代理CGLib动态代理 1. 静态代理 接口 public interface ICeo {void meeting(String name) throws InterruptedException; }目标类 public class Ceo implements ICeo{public void meeting(String name) throws InterruptedException {Th…

【信号去噪和正交采样】流水线过程的一部分,用于对L波段次级雷达中接收的信号进行降噪(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

计算机网络——应用层

文章目录 **1 网络应用模型****2 域名系统DNS****3 文件传输协议FTP****4 电子邮件****4.1 电子邮件系统的组成结构****4.2 电子邮件格式与MIME****4.3 SMTP和POP3** **5 万维网WWW****5.1 HTTP** 1 网络应用模型 客户/服务器模型 C/S 服务器服务于许多来自其他称为客户机的主…

uniapp跨域解决

uniapp跨域解决 跨域是什么 跨域指的是浏览器不能执行其他网站的脚本&#xff0c;当一个网页去请求另一个域名的资源时&#xff0c;域名、端口、协议任一不同&#xff0c;就会存在跨域。跨域是由浏览器的同源策略造成的&#xff0c;是浏览器对JavaScript施加的安全限制。 报错…

Spring AOP 中,切点有多少种定义方式?

在 Spring AOP 中&#xff0c;我们最常用的切点定义方式主要是两种&#xff1a; 使用 execution 进行无侵入拦截。使用注解进行拦截。 这应该是是小伙伴们日常工作中使用最多的两种切点定义方式了。但是除了这两种还有没有其他的呢&#xff1f;今天松哥就来和大家聊一聊这个话…

【C语言初阶(20)】调试练习题

文章目录 前言实例1实例2 前言 在我们开始调试之前&#xff0c;应该有个明确的思路&#xff1b;程序是如何完成工作的、变量到达某个步骤时的值应该是什么、出现的问题大概会在什么位置。这些东西在调试之前都需要先确认下来&#xff0c;不然自己都不知道自己在调试个什么东西…

FFmpeg aresample_swr_opts的解析

ffmpeg option的解析 aresample_swr_opts是AVFilterGraph中的option。 static const AVOption filtergraph_options[] {{ "thread_type", "Allowed thread types", OFFSET(thread_type), AV_OPT_TYPE_FLAGS,{ .i64 AVFILTER_THREAD_SLICE }, 0, INT_MA…

二十三种设计模式第二十篇--备忘录模式

备忘录模式&#xff0c;备忘录模式属于行为型模式。它允许在不破坏封装的情况下捕获和恢复对象的内部状态。保存一个对象的某个状态&#xff0c;以便在适当的时候恢复对象&#xff0c;该模式通过创建一个备忘录对象来保存原始对象的状态&#xff0c;并将其存储在一个负责管理备…

使用adb通过电脑给安卓设备安装apk文件

最近碰到要在开发板上安装软件的问题&#xff0c;由于是开发板上的安卓系统没有解析apk文件的工具&#xff0c;所以无法通过直接打开apk文件来安装软件。因此查询各种资料后发现可以使用adb工具&#xff0c;这样一来可以在电脑上给安卓设备安装软件。 ADB 就是连接 Android 手…

测试libcurl库的demo时,报错 curl_easy_perform() failed: SSL connect error

系统&#xff1a;麒麟V10 arm roothg-TR3250:/home/cur765/curl-7.65.3/docs/examples# cat /etc/os-release NAME"Kylin" VERSION"银河麒麟桌面操作系统(国防版)V10" VERSION_US"Kylin Linux Desktop (GFB)V10" IDkylin ID_LIKEdebian PRETT…

CloudDriver一款将各种网盘云盘挂在到电脑本地变成本地磁盘的工具 教程

平时我们的电脑可能由于大量的文件资料之类的导致存储空间可能不够&#xff0c;所以我们可以选择将网盘我们的本地磁盘用来存放东西。 CloudDrive 是一款可以将 115、阿里云盘、天翼云盘、沃家云盘、WebDAV 挂载到电脑中&#xff0c;成为本地硬盘的工具&#xff0c;支持 Window…