【机器学习300问】60、图像分类任务中,训练数据不足会带来什么问题?如何缓解图像数据不足带来的问题?

        在机器学习中,绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。就比如图像分类这样的计算机视觉任务,确实依赖于大规模且多样化的训练数据以确保模型能够有效地泛化到未见过的实例上。然而,实践中遭遇训练数据不足是很常见的挑战。当训练一个图像分类模型时,如果训练样本比较少,该如何处理呢?

一、训练数据不足会造成什么问题?

(1)过拟合

        图像分类任务上,训练数据不足带来的问题主要表现在过拟合方面。处理策略大致可以归纳为两大类:

  • 依赖模型的方法:其核心在于采取降低过拟合风险的策略。这包括简化模型结构(例如,将复杂的非线性模型简化为更易处理的线性模型)、引入正则化项以缩小模型假设空间(如采用L1或L2正则化技术)、运用集成学习方法以及调整Dropout超参数等手段。
  • 基于数据的方法:主要通过数据增强技术来实施。这类方法依据特定的先验知识,在保留关键信息的同时对原始数据进行合适的转换,旨在扩展数据集并提高模型的泛化能力。

(2)欠拟合

        在图像分类任务上,训练数据不足也有可能带来欠拟合的问题。欠拟合是指模型的复杂度不足以捕捉到数据集中的所有重要特征和模式,导致模型在训练集上的表现也不理想,更不用说在未见过的测试集上了。当训练数据不足时,模型可能无法从有限的样本中学习到足够的信息来概括整个数据分布,表现为模型的泛化能力较弱。

        可以通过上面的两种思路来尝试缓解欠拟合:

  • 依赖模型的方法:使用更大规模或者更深层次的神经网络结构,使模型具有更强的学习能力来捕捉数据中的复杂关系。或使用迁移学习、集成学习的方法。
  • 基于数据的方法:数据增强技术,对现有的少量训练数据进行各种变换,例如旋转、翻转、裁剪、缩放、颜色抖动等,以模拟更多的训练样本。

        关于跟多过拟合与欠拟合的概念,可以看看我之前的文章:
【机器学习300问】27、高偏差与高方差是什么?他们对评估机器学习模型起何作用?icon-default.png?t=N7T8http://t.csdnimg.cn/EalJu

二、如何解决数据不足带来的问题?

        这里有很多方法,我之前的文章已经讲过了,我在本文中拓展将一下图像的数据增强技术。 

(1)迁移学习

         利用预训练的深度学习模型,保留其底层特征提取层,并在顶部添加新的全连接层或卷积层,仅用少量标注图像对该部分进行微调。

【机器学习300问】37、什么是迁移学习?icon-default.png?t=N7T8http://t.csdnimg.cn/Q7aQQ

(2)欠采样/过采样技术

         对于类别不平衡问题,可以通过欠采样冗余类别或过采样少数类别的方法来平衡数据分布。

【机器学习300问】31、不平衡数据集如何进行机器学习?icon-default.png?t=N7T8http://t.csdnimg.cn/f8SL8

(3)数据增强

        通过对现有的图像数据进行各种变换,如翻转、旋转、裁剪、缩放、颜色抖动、平移等操作,生成新的训练样本,从而扩大训练集的大小而不引入额外的真实数据。

【机器学习300问】29、训练数据少该怎么办?数据增强icon-default.png?t=N7T8http://t.csdnimg.cn/uhLP5

① 色彩空间转换

        比如手势识别中,如果图像训练数据过少,可以采取颜色变换的方式增加图像。图像处理中常见的颜色空间分布有 RGB、HSV 和 YCrCb 三种空间模型。比较这三种空间模型后发现 RGB 空间由于亮度信息存在三个颜色通道中,并不相互独立,难以从 RGB 颜色空间中有效提取出手势的肤色信息,而 YCrCb 和 HSV 颜色空间都具有亮度与色度相分离的特点,并且肤色范围紧密,不易受光照后其他物体的干扰,相对来说更适用提取手势的肤色信息。RGB 与 YCrCb 空间转化的计算公式如下所示。

        这里的R、G、B代表原始RGB颜色空间中的红色、绿色和蓝色通道值,Y是计算出的亮度值,Cb和Cr是对应于蓝色和红色的色度分量。公式中加上的128是为了将色度分量的取值范围从-127至128调整到0至255的标准8位颜色值区间。通过这种转换后,可以根据Cr和Cb的值来判断像素是否属于肤色区域。

② 二值化

        图像的二值化处理是将图像上所有像素点的灰度值设置为 0 或者 255 过程,使得整个图像呈现出明显的黑白效果,通常选取一个合适的阈值,当图像中像素值大于或者等于阈值时判定为前景,将其值设为 255,反之则判定为背景,将其值设为 0。图像的二值化使得图像变得简单明了,通过前景和背景的像素值重置可以有效降低背景噪声,在一定程度增强了特征。

        下面介绍一个常用的选取合适阈值的方法——最大类间方差法(也称Otsu)。其基本思想是将图像看做前景目标和背景环境两个部分组成,用两部分像素值的方差来估计前景目标和背景环境之间的差别,通过像素划分各部分出现的概率和平均灰度级来计算两部分的方差,得到使得前景目标和环境背景的类间方差达到最大的灰度级值默认为最佳阈值。最佳阈值的标准判别公式如下所示。

 \sigma_{\text{b}}^2(t) = \omega_0(t) \omega_1(t) [\mu_0(t) - \mu_1(t)]^2

        其中,t是当前的阈值。\omega_0(t)\omega_1(t)分别是背景(阈值以下)和前景(阈值以上)的像素占比。\mu_0(t)\mu_1(t)分别是背景和前景的像素平均灰度值。\sigma_{\text{b}}^2(t)表示类间方差,即背景与前景之间的差异。Otsu的方法就是通过遍历全部可能的t值,找到最大化\sigma_{\text{b}}^2(t)的那个t值,即最佳阈值。在实践中,最大类间方差法是一种高效且自动的阈值选择方法,尤其在物体识别和图像分割中被广泛使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/508609.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Reversing Linked List

Given a constant K and a singly linked list L, you are supposed to reverse the links of every K elements on L. For example, given L being 1→2→3→4→5→6, if K3, then you must output 3→2→1→6→5→4; if K4, you must output 4→3→2→1→5→6. Input Specifi…

数据可视化高级技术(Echarts)

目录 (一)数据可视化概念及Echarts基础知识 数据可视化的好处: 数据可视化的目标 数据可视化的基本流程 (二)数据图表 类别比较图表: 数据关系图表: 数据分布图表: 时间序列…

VScode使用Prettier格式化代码

1、安装Prettier插件 2、扩展设置 3、设置.prettierrc.json配置文件路径 4、.prettierrc 配置文件 .prettierrc.json 是 Prettier 格式化工具的配置文件,用于指定代码格式化的规则和风格。下面是一些可能的配置选项,请自行选择: {"prin…

vim copilot插件安装使用

copilot简介 在使用不熟悉的开发语言或函数库进行开发工作时,虽然可以通过阅读开发文档或示例代码的方式学习开发,但这种方式学习成本较高、效率较低,且后续不一定会用上。 GitHub Copilot是一个由GitHub开发的机器学习工具,可以…

HarmonyOS 应用开发之通过关系型数据库实现数据持久化

场景介绍 关系型数据库基于SQLite组件,适用于存储包含复杂关系数据的场景,比如一个班级的学生信息,需要包括姓名、学号、各科成绩等,又或者公司的雇员信息,需要包括姓名、工号、职位等,由于数据之间有较强…

xshell7连接ubuntu18.04

🎡导航小助手🎡 1.查看ubuntu IP2.开启openssh-server3.静态IP设置4.Xshell连接 1.查看ubuntu IP 输入下面命令查看IP ifconfig -a可以看到网卡是ens33,IP为192.168.3.180。 2.开启openssh-server 1、执行下句,下载SSH服务 s…

标定系列——预备知识-OpenCV中相机标定相关函数(十一)

标定系列——预备知识-OpenCV中相机标定相关函数(十一) 说明记录 说明 对相机标定过程中使用的函数进行记录 记录

vscode 自用的一些配置

目录 1,修改默认配置1,关闭预览模式2,取消自动定位到左侧边栏 2,自定义快捷键1,手动定位到左侧边栏2,关闭其他3,其他常用快捷键 3,插件1,和 git 相关的GitlensGit Histor…

K8s Pod亲和性、污点、容忍度、生命周期与健康探测详解(下)

🐇明明跟你说过:个人主页 🏅个人专栏:《Kubernetes航线图:从船长到K8s掌舵者》 🏅 🔖行路有良友,便是天堂🔖 目录 五、健康探测 1、健康探测的概念 2、Pod启动探测…

如何在Portainer中创建Nginx服务并搭建静态站点实现公网访问本地网站

文章目录 前言1. 安装Portainer1.1 访问Portainer Web界面 2. 使用Portainer创建Nginx容器3. 将Web静态站点实现公网访问4. 配置Web站点公网访问地址4.1公网访问Web站点 5. 固定Web静态站点公网地址6. 固定公网地址访问Web静态站点 前言 Portainer是一个开源的Docker轻量级可视…

VTK 简介

VTK 简介 VTK 简介什么是 VTK?VTK 能做什么?VTK 的基本组成VTK 的框架结构VTK 的数据结构VTK 的可视化流程参考 VTK 简介 什么是 VTK? VTK,全称是Visualization Toolkit,即可视化工具包。是一个开源、跨平台、可自由…

OpenHarmony实战开发-image、image-animator组件的使用。

介绍 OpenHarmony提供了常用的图片、图片帧动画播放器组件,开发者可以根据实际场景和开发需求,实现不同的界面交互效果,包括:点击阴影效果、点击切换状态、点击动画效果、点击切换动效。 相关概念 image组件:图片组件…

物联网实战--入门篇之(七)嵌入式-MQTT

目录 一、MQTT简介 二、MQTT使用方法 三、MQTT驱动设计 四、代码解析 五、使用过程 六、总结 一、MQTT简介 MQTT因为其轻量、高效和稳定的特点,特别适合作为物联网系统的数据传输协议,已经成为物联网事实上的通信标准了。关于协议的具体内容看看这…

苹果应用上架成功之道

苹果上架要求是苹果公司对于提交应用程序到苹果商店上架的要求和规定。这些要求主要是为了保证用户体验、应用程序的质量和安全性。以下是苹果上架要求的详细介绍:1. 应用程序的内容和功能必须符合苹果公司的规 苹果上架要求是苹果公司对于提交应用程序到苹果商店上…

CListCtrl中高亮插入行,条目上移下移

1. 样式修改 2. 关键代码 BOOL CMFCApplication3Dlg::OnInitDialog() {CDialogEx::OnInitDialog();// // 代码省略......//// 设置此对话框的图标。 当应用程序主窗口不是对话框时,框架将自动// 执行此操作SetIcon(m_hIcon, TRUE); // 设置大图标SetIcon(m_hIc…

ubuntu软件推荐(2):终端美化 tabby+oh-my-zsh

文章目录 一、tabby下载二、tabby安装三、安装Oh-my-zsh1. 安装zsh2. 设置默认终端为zsh3. 下载安装oh-my-zsh3. 根据自己喜好安装字体(略)4. 在tabby终端修改字体5. 安装oh-my-zsh插件6. 修改主题插件生效 一、tabby下载 https://github.com/Eugeny/ta…

预处理指令——一些比较少见的概念

前言:预处理是我们的c语言源代码成为可执行程序的第一个步骤。而宏和预处理指令都是在这个阶段完成。本节内容就是关于宏和预处理指令相关知识点的解析。 目录 宏 预定义符号 #define定义常量 #define定义符号 #define定义宏 带副作用的宏参数 宏的替换规则…

2024最新GPT4.0使用教程:GPTs,AI绘画,AI换脸,AI绘画,文档分析一站式解决

一、前言 ChatGPT3.5、GPT4.0、相信对大家应该不感到陌生吧?简单来说,GPT-4技术比之前的GPT-3.5相对来说更加智能,会根据用户的要求生成多种内容甚至也可以和用户进行创作交流。 然而,GPT-4对普通用户来说都是需要额外付费才可以…

分享10个免费高可用的GPT3.5和4.0网站并做功能测试【第一个】

1.介绍 网址:直接点:aicnn 或者 www.aicnn.cn 基于ChatGPT可以实现智能聊天、绘画生成、高清文本转语音、论文润色等多种功能,基于sd和mj实现的绘画功能,下面是功能测试: 博主从 1.GPT3.5是否完全免费/是否限制频率、…

Mysql的基本命令

1 服务相关命令 命令描述systemctl status mysql查看MySQL服务的状态systemctl stop mysql停止MySQL服务systemctl start mysql启动MySQL服务systemctl restart mysql重启MySQL服务ps -ef | grep mysql查看mysql的进程mysql -uroot -hlocalhost -p123456登录MySQLhelp显示MySQ…