图像数据增广

目录

一、常用的图像增广方法

1、随机翻转

2、随机裁剪

3、随机颜色变换

二、图像代码实现

1、定义图像显示辅助函数

2、随机翻转

3、随机裁剪

4、随机颜色变换

5、结合多种图像增广方法

三、使用图像增广进行训练

1、下载数据集

2、读取图像并增广

3、多GPU训练

四、总结


一、常用的图像增广方法

       具体使用哪种数据增广方式取决于测试集中可能出现什么样的数据,数据增广本质上就是让训练集的数据尽可能取接近测试集的数据,使其能够模拟测试集中可能出现的所有情况。

1、随机翻转

       翻转图片又分为左右翻转和上下翻转,左右翻转图像通常不会改变对象的类别。这是最早且最广泛使用的图像增广方法之一。

       左右翻转一般没什么问题,但是上下翻转一般不总是可行,比如建筑物的图片,上下翻转的话就比较奇怪。

2、随机裁剪

       随机高宽比:在3/4和4/3之间随机取一个数字作为高宽比。随机大小:裁剪的部分占原始图片大小的百分比。随机位置:在图片的随机位置进行切割。

3、随机颜色变换

       改变图片的亮度、对比度、饱和度和色调等。

二、图像代码实现

       图像增广在对训练图像进行一系列的随机变化之后,生成相似但不同的训练样本,从而扩大了训练集的规模。此外,应用图像增广的原因是,随机改变训练样本可以减少模型对某些属性的依赖,从而提高模型的泛化能力。例如,我们可以以不同的方式裁剪图像,使感兴趣的对象出现在不同的位置,减少模型对于对象出现位置的依赖。我们还可以调整亮度、颜色等因素来降低模型对颜色的敏感度。

import torch
import torchvision
from torch import nn
from d2l import torch as d2l

       在对常用图像增广方法的探索时,我们将使用下面这个尺寸为400×500的图像作为示例。

d2l.set_figsize()
img = d2l.Image.open('../img/cat1.jpg')
d2l.plt.imshow(img)
<matplotlib.image.AxesImage at 0x26567e52ac0>

1、定义图像显示辅助函数

       大多数图像增广方法都具有一定的随机性。为了便于观察图像增广的效果,我们下面定义辅助函数`apply`。此函数在输入图像`img`上多次运行图像增广方法`aug`并显示所有结果。

def apply(img, aug, num_rows=2, num_cols=4, scale=1.5):
    Y = [aug(img) for _ in range(num_rows * num_cols)]
    d2l.show_images(Y, num_rows, num_cols, scale=scale)

2、随机翻转

       对于图像我们可以进行上下和左右翻转。

(1)左右翻转

       左右翻转图像通常不会改变对象的类别。这是最早且最广泛使用的图像增广方法之一。接下来,我们使用`transforms`模块来创建`RandomFlipLeftRight`实例,这样就各有50%的几率使图像向左或向右翻转。

apply(img, torchvision.transforms.RandomHorizontalFlip())

(2)上下翻转

       上下翻转图像不如左右图像翻转那样常用。但是,至少对于这个示例图像,上下翻转不会妨碍识别。接下来,我们创建一个`RandomFlipTopBottom`实例,使图像各有50%的几率向上或向下翻转。

apply(img, torchvision.transforms.RandomVerticalFlip())

3、随机裁剪

       在我们使用的示例图像中,猫位于图像的中间,但并非所有图像都是这样。池化层可以降低卷积层对目标位置的敏感性。另外,我们可以通过对图像进行随机裁剪,使物体以不同的比例出现在图像的不同位置。这也可以降低模型对目标位置的敏感性。

       下面的代码将随机裁剪一个面积为原始面积10%到100%的区域,该区域的宽高比从0.5~2之间随机取值。然后,区域的宽度和高度都被缩放到200像素。

shape_aug = torchvision.transforms.RandomResizedCrop(
    size=(200, 200), scale=(0.1, 1), ratio=(0.5, 2)) # size:宽度和高度缩放到的像素  scale:随机裁剪区域的面积占比  ratio:随机裁剪区域的宽高比
apply(img, shape_aug)

4、随机颜色变换

       另一种增广方法是改变颜色。我们可以改变图像颜色的四个方面:亮度、对比度、饱和度和色调。

(1)随机改变图像亮度(brightness)

在下面的示例中,我们随机更改图像的亮度,随机值为原始图像的50%($1-0.5$)到150%($1+0.5$)之间。

apply(img, torchvision.transforms.ColorJitter(    # jitter:抖动,颤动:物体或信号的不稳定、快速的抖动或颤动
    brightness=0.5, contrast=0, saturation=0, hue=0))

(2)随机改变图像色调(hue)

       同样,我们可以随机更改图像的色调。 

apply(img, torchvision.transforms.ColorJitter(
    brightness=0, contrast=0, saturation=0, hue=0.5))

(3)随机改变图像亮度、对比度、饱和度和色调

       我们还可以创建一个`RandomColorJitter`实例,并设置如何同时随机更改图像的亮度(brightness)、对比度(contrast)、饱和度(saturation)和色调(hue)。

color_aug = torchvision.transforms.ColorJitter(
    brightness=0.5, contrast=0.5, saturation=0.5, hue=0.5)
apply(img, color_aug)

5、结合多种图像增广方法

       在实践中,我们将结合多种图像增广方法。比如,我们可以通过使用一个`Compose`实例来综合上面定义的不同的图像增广方法,并将它们应用到每个图像。

augs = torchvision.transforms.Compose([
    torchvision.transforms.RandomHorizontalFlip(), color_aug, shape_aug])
apply(img, augs)

三、使用图像增广进行训练

1、下载数据集

       让我们使用图像增广来训练模型。这里,我们使用CIFAR-10数据集,而不是我们之前使用的Fashion-MNIST数据集。这是因为Fashion-MNIST数据集中对象的位置和大小已被规范化,而CIFAR-10数据集中对象的颜色和大小差异更明显。CIFAR-10数据集中的前32个训练图像如下所示。

all_images = torchvision.datasets.CIFAR10(train=True, root="../data",
                                          download=True)
d2l.show_images([all_images[i][0] for i in range(32)], 4, 8, scale=0.8)
Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ../data\cifar-10-python.tar.gz
100.0%
Extracting ../data\cifar-10-python.tar.gz to ../data

array([<AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>,
       <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>, <AxesSubplot:>],
      dtype=object)

2、读取图像并增广

       为了在预测过程中得到确切的结果,我们通常对训练样本只进行图像增广,且在预测过程中不使用随机操作的图像增广。在这里,我们只使用最简单的随机左右翻转。此外,我们使用`ToTensor`实例将一批图像转换为深度学习框架所要求的格式,即形状为(批量大小,通道数,高度,宽度)的32位浮点数,取值范围为0~1。

train_augs = torchvision.transforms.Compose([
     torchvision.transforms.RandomHorizontalFlip(),
     torchvision.transforms.ToTensor()])

test_augs = torchvision.transforms.Compose([
     torchvision.transforms.ToTensor()])

       接下来,我们定义一个辅助函数,以便于读取图像和应用图像增广。PyTorch数据集提供的`transform`参数应用图像增广来转化图像。

def load_cifar10(is_train, augs, batch_size):
    dataset = torchvision.datasets.CIFAR10(root="../data", train=is_train,
                                           transform=augs, download=True)
    dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,
                    shuffle=is_train, num_workers=d2l.get_dataloader_workers())
    return dataloader

3、多GPU训练

       我们在CIFAR-10数据集上训练ResNet-18模型。接下来,我们定义一个函数,使用多GPU对模型进行训练和评估。

def train_batch_ch13(net, X, y, loss, trainer, devices):
    """用多GPU进行小批量训练"""
    if isinstance(X, list):
        # 微调BERT中所需
        X = [x.to(devices[0]) for x in X]
    else:
        X = X.to(devices[0])
    y = y.to(devices[0])
    net.train()
    trainer.zero_grad()
    pred = net(X)
    l = loss(pred, y)
    l.sum().backward()
    trainer.step()
    train_loss_sum = l.sum()
    train_acc_sum = d2l.accuracy(pred, y)
    return train_loss_sum, train_acc_sum
def train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs,
               devices=d2l.try_all_gpus()):
    """用多GPU进行模型训练"""
    timer, num_batches = d2l.Timer(), len(train_iter)
    animator = d2l.Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0, 1],
                            legend=['train loss', 'train acc', 'test acc'])
    net = nn.DataParallel(net, device_ids=devices).to(devices[0])
    for epoch in range(num_epochs):
        # 4个维度:储存训练损失,训练准确度,实例数,特点数
        metric = d2l.Accumulator(4)
        for i, (features, labels) in enumerate(train_iter):
            timer.start()
            l, acc = train_batch_ch13(
                net, features, labels, loss, trainer, devices)
            metric.add(l, acc, labels.shape[0], labels.numel())
            timer.stop()
            if (i + 1) % (num_batches // 5) == 0 or i == num_batches - 1:
                animator.add(epoch + (i + 1) / num_batches,
                             (metric[0] / metric[2], metric[1] / metric[3],
                              None))
        test_acc = d2l.evaluate_accuracy_gpu(net, test_iter)
        animator.add(epoch + 1, (None, None, test_acc))
    print(f'loss {metric[0] / metric[2]:.3f}, train acc '
          f'{metric[1] / metric[3]:.3f}, test acc {test_acc:.3f}')
    print(f'{metric[2] * num_epochs / timer.sum():.1f} examples/sec on '
          f'{str(devices)}')

       现在,我们可以定义`train_with_data_aug`函数,使用图像增广来训练模型。该函数获取所有的GPU,并使用Adam作为训练的优化算法,将图像增广应用于训练集,最后调用刚刚定义的用于训练和评估模型的`train_ch13`函数。

batch_size, devices, net = 256, d2l.try_all_gpus(), d2l.resnet18(10, 3)

def init_weights(m):
    if type(m) in [nn.Linear, nn.Conv2d]:
        nn.init.xavier_uniform_(m.weight)

net.apply(init_weights)

def train_with_data_aug(train_augs, test_augs, net, lr=0.001):
    train_iter = load_cifar10(True, train_augs, batch_size)
    test_iter = load_cifar10(False, test_augs, batch_size)
    loss = nn.CrossEntropyLoss(reduction="none")
    trainer = torch.optim.Adam(net.parameters(), lr=lr)
    train_ch13(net, train_iter, test_iter, loss, trainer, 10, devices)

       让我们使用基于随机左右翻转的图像增广来训练模型。

train_with_data_aug(train_augs, test_augs, net)
loss 0.173, train acc 0.941, test acc 0.854
4183.9 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]

四、总结

  • 图像增广基于现有的训练数据生成随机图像,来提高模型的泛化能力。
  • 为了在预测过程中得到确切的结果,我们通常对训练样本只进行图像增广,而在预测过程中不使用带随机操作的图像增广。
  • 深度学习框架提供了许多不同的图像增广方法,这些方法可以被同时应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/339872.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

麦芯(MachCore)应用开发教程2 --- 时序

黄国强 2024/01/22 正如计算机的本质是状态机一样&#xff0c;设备也是一个状态机。笔者之前文章“什么是时序”用 switch/case 实现了状态机。在麦芯中&#xff0c;我们用Lambda实现了状态机。相对于switch/case&#xff0c;Lambda更优雅&#xff0c;更符合面向对象。先上代码…

单元化(Set)架构设计详解:异地多活、突破扩展上限的优选方案

文章目录 一、单元化架构基础1、扩展性&#xff08;Scalability&#xff09;概述2、扩展性 - 横向扩展&#xff08;Horizontal Scale&#xff09;3、扩展性 - 纵向扩展&#xff08;Vertical Scale&#xff09;4、扩展性 - 扩展魔方5、一致性 - 数据库事务一致性&#xff08;ACI…

【中文版ChatGPT4.0!国内可直接用】

中文版ChatGPT4.0&#xff01;国内可直接用 文心一言微软Copilot迅捷AI写作 在国内使用ChatGPT 4.0可能需要支付每月20美元的费用&#xff0c;约合人民币145元。如果不愿意付费&#xff0c;也可以考虑使用其他免费的AI工具。 目前有许多公司在研发出色的AI大模型&#xff0c;这…

Python进阶-Anaconda使用总结

本文是 Anaconda 的使用总结&#xff0c;旨在帮助用户快速搭建 Python 环境、进行数据科学和机器学习工作。首先&#xff0c;介绍了在 Windows 系统上安装 Anaconda 的步骤&#xff0c;包括下载安装程序、配置环境变量以及验证安装。随后&#xff0c;详细列举了 Anaconda 的常用…

新版AndroidStudio dependencyResolutionManagement出错

在新版AndroidStudio中想像使用4.2版本或者4.3版本的AndroidStudio来构造项目&#xff1f;那下面这些坑我们就需要来避免了&#xff0c;否则会出各种各样的问题。 一.我们先来看看新旧两个版本的不同。 1.jdk版本的不同 新版默认是jdk17 旧版默认是jdk8 所以在新版AndroidSt…

processing集训day03

编程英语 load 加载 image 图像 hawthorn 山楂 true 真 false 假 if 如果 distance 距离 collision 碰 图片显示 显示图片步骤&#xff1a; 1、准备好图片 2、定义图片变量 3、载入图片至变量 4、进行图片显示 Processing 所支持的图片格式有很多&#xff0c;常见的有…

全栈没有那么难!15 分钟搞明白 Express.js

Express 是老牌的 Node.js 框架&#xff0c;以简单和轻量著称&#xff0c;几行代码就可以启动一个 HTTP 服务器。市面上主流的 Node.js 框架&#xff0c;如 Egg.js、Nest.js 等都与 Express 息息相关。 Express 框架使用标准 Node.js 语法&#xff0c;主要由以下 3 个核心部分…

Elasticsearch8使用统一的CA为HTTP层更新证书

官方文档参考&#xff1a; Update certificates with the same CA | Elasticsearch Guide [8.10] | Elastic 使用统一的CA为HTTP层更新证书&#xff0c;包括3部分&#xff1a;在ES集群内某个节点上生成证书&#xff1b;将生成的证书拷贝给集群内其他节点&#xff1b;更新kiban…

大模型相关学习资料整理

1. 核心2框架 1. semantic-kernel【微软】 https://learn.microsoft.com/en-us/semantic-kernel/overview/ 2. LangChain https://www.langchain.asia/ https://python.langchain.com/docs/get_started/introduction 2. 技术点 1. Function Call https://platform.opena…

Dell戴尔XPS 8930笔记本电脑原装Win10系统 恢复出厂预装OEM系统

链接&#xff1a;https://pan.baidu.com/s/1eaTQeX-LnPJwWt3fBJD8lg?pwdajy2 提取码&#xff1a;ajy2 原厂系统自带所有驱动、出厂主题壁纸、系统属性联机支持标志、系统属性专属LOGO标志、Office办公软件、MyDell等预装程序 文件格式&#xff1a;esd/wim/swm 安装方式&am…

11- OpenCV:自定义线性滤波(卷积,卷积边缘)

目录 一、卷积 1、卷积概念 2、卷积如何工作 3、常见算子&#xff08;卷积核 Kenel&#xff09; 4、自定义卷积模糊 5、代码演示 二、卷积边缘 1、卷积边缘问题 2、处理边缘 3、相关的API说明 4、代码演示 一、卷积 1、卷积概念 &#xff08;1&#xff09;在OpenC…

Recommender Systems with Generative Retrieval

TLDR: 本文提出一种新的生成式检索推荐系统范式TIGER。当前基于大规模检索模型的现代推荐系统&#xff0c;一般由两个阶段的流程实现&#xff1a;训练双编码器模型得到在同一空间中query和候选item的embedding&#xff0c;然后通过近似最近邻搜索来检索出给定query的embedding的…

DBA技术栈MongoDB: 数据增改删除

该博文主要介绍mongoDB对文档数据的增加、更新、删除操作。 1.插入数据 以下案例演示了插入单个文档、多个文档、指定_id、指定多个索引以及插入大量文档的情况。在实际使用中&#xff0c;根据需求选择适合的插入方式。 案例1&#xff1a;插入单个文档 db.visitor.insert({…

zxz-uni-data-select插件,表单回显时,无法显示数据,原因是后端返回的数据是字符串,要把这个字符串转成number类型,就能显示了

zxz-uni-data-select插件&#xff0c;uniapp项目&#xff0c;vue3 表单回显时&#xff0c;这个下拉框不能显示数据 解决方法 用Number()方法把字符串转成number string转成number 回显就能显示了

CAM软件行业调研:广泛应用取得越来越大的市场份额

经过多年的推广&#xff0c;CAM技术已经广泛地应用在机械、电子、航天、化工、建筑等行业。近年来&#xff0c;我国CAM技术的开发和应用取得了长足的发展&#xff0c;除对许多国外软件进行了汉化和二次开发以外&#xff0c;还诞生了不少具有自主版权的CAM系统&#xff0c;由于这…

.NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接

Flurl.Http-3.2.4 升级到 4.0.0 版本后&#xff0c;https请求异常&#xff1a;Call failed. The SSL connection could not be established. 如下图&#xff1a; Flurl.Http-3.2.4版本绕过https的代码&#xff0c;对于 Flurl.Http-4.0.0 版本来说方法不再适用&#xff0c;3.2.…

js实现页面全屏展示

最近做一个网页项目&#xff0c;用户要求可以全屏展示&#xff0c;进入系统后隐藏地址栏&#xff0c;于是乎&#xff0c;经过调研就选择了全屏API&#xff0c;即便如此还是遇到了一些问题&#xff0c;总结一下&#xff0c;写下此篇文章。 全屏模式 获取Element节点&#xff0c…

红日靶场2打点记录

因为之前成功用冰蝎免杀360&#xff0c;把权限反弹到了MSF上&#xff0c;然后MSF把权限反弹到CS上 所以这次咱们走捷径直接通过反序列化漏洞连接&#xff08;就是关掉360&#xff09;因为权限弹来弹去感觉好麻烦 提示 大家如果想要免杀360千万别学我&#xff0c;我是之前免杀3…

【大数据分析与挖掘技术】Mahout推荐算法

目录 一、推荐的定义与评估 &#xff08;一&#xff09;推荐的定义 &#xff08;二&#xff09;推荐的评估 二、Mahout中的常见推荐算法 &#xff08;一&#xff09;基于用户的推荐算法 &#xff08;二&#xff09;基于物品的推荐算法 &#xff08;三&#xff09;基于S…

Linux配置主机名-使用主机名访问服务器

主要需要对Hosts文件进行操作&#xff0c; Hosts是一个没有扩展名的系统文件&#xff0c;可以用记事本等工具打开&#xff0c;其作用就是将一些常用的网址域名与其对应的IP地址建立一个关联“数据库”&#xff0c; 先将自己的主机名设置成有意义&#xff0c;别人好记的样子&a…