6.26.4 基于视觉变换的乳房x光片分类迁移学习

        乳房x线摄影(MG)在乳腺癌的早期发现中起着重要作用。MG可以在早期发现乳腺癌,即使是不能感觉到肿块的小肿瘤。然而,由于mg的复杂性和放射科医生进行的大量检查,可能会出现误诊。为了给放射科医生提供一个公正的视角,应用图像处理方法和模式识别的计算机辅助检测(CAD)已经发展起来。

        传统的CAD模型并不能显著提高MG的诊断效能。在使用传统CAD进行MG异常识别时,显著的假阳性率是主要障碍。假阳性结果导致患者焦虑、不必要的辐射暴露、无意义的活组织检查、高回复率、更高的医疗费用和更多的检查次数。因此,探索了新的更准确的检测技术,从而将机器学习技术用于诊断图像的分类。特别是乳房x线照片的深度学习(deep learning, DL)在过去几年被大量研究和应用于乳腺癌的早期发现。基于卷积神经网络(CNN)的深度学习最近引起了MG的广泛关注,因为它有助于克服CAD系统的限制(假阳性、不必要的辐射暴露、无意义的活检、高回调率、更高的医疗费用和更多的检查次数)。


        然而,当用于整张乳房x光图像时,由于在不同特征级别上进行多次卷积,CNN的计算成本很高。首先关注图像的特定区域,而不是整个图像,然后逐渐为整个图像建立特征,导致昂贵的计算步骤。在没有增强的情况下,CNN缺乏处理旋转和尺度不变性的能力,无法编码相对空间信息。为了解决相对空间信息编码失败以及缺乏旋转和尺度不变性处理的问题,使用了基于补丁的乳房图像分类器,其中使用了潜在感兴趣区域(ROI)而不是整个乳房图像。这种方法有局限性。基于CNN的深度学习模型用于乳腺x线摄影乳腺癌检测的第一个挑战是肿瘤定位[30]。

        大多数基于cnn的深度学习模型使用基于补丁的方法,即乳房x光片上的可疑肿瘤区域被裁剪并输入模型。这会导致整个乳房x光片的信息丢失,导致假阳性结果。此外,基于补丁的方法耗时且计算量大。基于CNN的方法的第二个限制是,它的性能会根据图像中病变的大小而变化。因此,感兴趣区域(ROI)损伤的大小会影响CNN的性能。第三,CNN需要大量的预处理来弥补较差的图像质量。由于能见度低、对比度低、清晰度差和噪音,相当大比例的异常被误诊或忽视。常用的预处理方法,如滤波器,已被建议用于提高图像质量,图像平滑和降噪。然而,选择最佳的预处理方法来增强CNN分类仍然是一个挑战。第四,CNN在不平衡数据集上表现不佳,从而极大地影响了其性能。训练数据集中正负类之间的不平等被称为数据集不平衡。在不平衡数据集上直接训练CNN模型可能会使预测偏向于具有更多观测值的类别。最后,CNN在多视图乳房x线照片中对肿瘤进行分类时表现不佳,而这在临床环境中是至关重要的辅助手段。目前的CNN模型被训练为检测MG上的肿瘤,而忽略了其他恶性肿瘤的存在。

        为了弥补训练图像数据集的不足,两种广泛使用的技术是数据增强和迁移学习。数据增强可以使用原始图像创建重新排列的图像数据,从而增加训练图像数据集的数量和种类。它包括诸如噪声添加、旋转、平移、对比度、饱和度、颜色增强、亮度、缩放和裁剪等操作。迁移学习利用来自选定数据集的预训练权值作为在另一个数据集上进行训练的起点。这种方法可以利用从以前的任务中学到的知识来完成目标任务。几乎所有基于cnn的乳腺x线摄影乳腺癌检测的深度学习方法都利用迁移学习方法来弥补大数据集的不足,并利用具有先验特征知识的优化模型来完成新任务。

        开发了一种基于视觉变换的迁移学习的乳房x线摄影乳腺癌检测的深度学习方法。本研究对文献有两大贡献。第一个是图像数据平衡模块,用于解决乳房x光数据集中的类不平衡问题。本研究使用的数据集由两类组成,来自良性和恶性组织,样本量不等。换句话说,类别不平衡可能导致模型学习的偏差。为了克服这个问题,提出了基于增强的类平衡。其次,我们设计了一种基于视觉变换的乳房x线照片分类迁移学习方法。这种新的迁移学习方法利用变形者的自注意方法,改进了基于cnn的迁移学习方法的缺点。

相关工作

        在分析乳房x线照片时,cnn只关注一个特定的区域(疑似肿瘤的区域),而忽略了图像的其他部分,这导致cnn错过了一些关键的细节,如果立即检查整个图像,这些细节就会被发现。视觉变压器(ViTs)最近在计算机视觉领域取得了突出的成就,在需要自然图像分类的任务中超过了cnn。由于其较低的计算复杂性和克服CNN只关注图像一小部分的局限性的能力,ViTs优于最先进的CNN模型。

       ViT概念是基于文本转换器的原始Transformer概念的发展。在代码中稍作调整以适应各种数据模式,它只是一个应用于图像域的转换器。ViT特别使用了几种标记化和嵌入技术。不过,总体架构是相同的。源图像被划分为称为视觉标记的图像补丁的集合。视觉标记被合并到固定维编码向量的集合中。变压器编码器网络与负责处理文本输入的网络本质上是相同的,它将图像中一个补丁的位置与编码向量一起馈送。

        ViT Encoder由几个块组成,每个块有三个主要的处理组件:层范数、多头注意网络(MSP)和多层感知器(MLP)。由于层范数,该模型可以根据训练图像的差异进行调整,使训练过程保持在轨道上。MSP(多头注意力网络)从提供的嵌入式视觉标记中创建注意力图。这些注意图帮助网络集中在图像最关键的区域,比如物体。MLP是一个两层分类网络,在最末端有一个GELU(高斯误差线性单元)。最后一个MLP块,也称为MLP头,作为变压器的输出。SoftMax可用于此输出以提供分类标签(即,如果应用程序是图像分类)。

此前的贡献 

         使用ViT对乳腺癌早期诊断的乳房x光照片进行分类。Lee等人[52]提出了基于变压器的深度学习,解决了乳房x线照片归一化和分级中读者间差异的挑战。提出了一种使用光度变压器网络(PTN)作为可编程归一化模块来预测输入MG的归一化参数的方法。它与初级预测网络无缝连接,允许组合学习最佳归一化和密度等级。原则上,PTN类似于一个空间变压器网络[53]。然而,PTN试图确定一组最适合预测乳腺密度的光度变换参数,而空间变压器网络预测合适的几何变换参数。        

        Tulder等人[45]提出了一种新的基于令牌的逐像素交叉视图转换器技术,并将其用于两个公共MG数据集。提出了一种基于转换器的方法,该方法在特征映射级别连接视图,而不需要逐像素对应。使用跨视图注意而不是自注意来跨视图传递信息,这与传统的变压器在单个序列中处理信息的方式不同。

        对于数字乳房x线照片中的图像分割和乳房肿块检测,Su等[54]提出了YOLO-LOGO变压器模型。这包括两个步骤:首先,他们使用YoloV5检测乳房肿块的ROI,并直接从高分辨率图像中裁剪,以提高训练效率。之后,他们使用了更新版本的local-global (LOGO)分割策略,显著提高了原始像素级的分割分辨率。

        Garrucho等人[55]通过比较在单一领域(包括基于变压器的模型)训练的八种尖端检测技术的性能,评估了MG模型的领域泛化,并在五个未开发的领域对其进行了测试。他们观察到基于变压器的模型在乳房x光片的域泛化方面比其他模型更健壮,表现更好。

        Chen等[56]使用多视图变压器(multi-view transformer, MVT)模型检测乳房x光片上的乳腺癌节段。MVT主要由局部变压器和全局变压器两部分组成。本地Transformer块单独分析来自每个视图图像的数据。相反,全局转换块结合了来自四视图乳房x光检查的数据。自注意、多头注意和多层感知器是局部和全局变压器块的三个主要组成部分,两者具有相同的设计。

材料与方法

数据集

        使用乳腺筛查数字数据库(DDSM)数据集来训练和测试我们基于视觉转换器的乳腺癌早期识别转移学习系统。该数据集是公开的。数据集包括13128张图像,其中5970张来自良性组织,7158张来自恶性组织。来自数据集的样例图像如图1所示。 

类别平衡

        数据集中来自恶性组织和良性组织的图像数量不相等。DDSM数据集中恶性与良性样本的比例为0.65:0.35。这种数据分布可能会影响所设计算法的学习,必须先加以修正。因此,我们使用数据增强执行了一种新的数据平衡方法。据我们所知,这种数据类平衡方法是我们小组首次使用的乳房x线照片[36]。

        首先,将数据集分为80%的训练集和20%的测试集。为了平衡数据集进行5倍交叉验证(嵌套交叉验证),使用了5幅图像增强,包括颜色抖动、伽马校正、水平翻转、盐和胡椒以及锐化,如[36]所示。数据集被分为五折,每折包含训练和验证数据集。因此,在DDSM数据集中,前4个折叠中,每个折叠中存在1145张恶性肿瘤图像,而第5个折叠中存在1146张恶性肿瘤图像。同样,对于良性组,前四组有955张图像,而第五组有956张图像。为了平衡两类之间的数据,我们对良性类图像进行了五次图像增强,而恶性肿块图像只进行了一次增强。最后,增强后,良恶性两类肿瘤的每组图像均为1146张,如图2所示。

预处理

        将所有图像的大小调整为224 × 224像素,这是从输入图像生成补丁的首选大小。 

提出的方法

        采用了一种基于视觉变换的迁移学习方法来区分乳腺x光片是良性还是恶性组织。因此,在自然图像(ImageNet数据集)上进行预训练的视觉转换模型被用于乳房x线照片分类。

Vision Transformer架构

        Vision Transformer源自自然语言处理(NLP)模型中使用的原始转换器模型,其中输入是单词标记的一维序列。然而,图像是二维的,视觉转换模型将图像分割成更小的二维小块,并将小块作为单词标记输入,就像原来的NLP转换模型所做的那样。输入图像的高度为H,宽度为W,通道数为C,被分成较小的二维小块,以类似于NLP域的输入结构的方式排列输入图像数据。这就产生了像素大小为P × P的N=\frac{HW}{P^2}块[57]。在将贴片提供给变压器编码器之前,按以下顺序进行平坦化、序列嵌入、可学习嵌入、贴片嵌入:         

  • 每个斑块被平展成一个向量,X^n_p,长度为P^2\times C,对于n = 1,…N
  • 使用可训练的线性投影E将这些平坦的图像块映射到D维,生成一系列嵌入的图像块
  • 嵌入的图像块序列以嵌入X_{class}的可学习类为前缀。X_{class}值对应于分类结果Y
  • 将训练中习得的一维位置嵌入E_{pos}加入到patch embedding中,将定位信息添加到输入中

嵌入向量:

z_o=\begin{bmatrix}X_{class}; X_p^1E;\dots;X_p^NE\end{bmatrix}+E_{pos} 

z_0输入到变压器-编码器网络中进行分类,该网络是由L个相同层组成的堆栈。然后在编码器输出的第L层将X_{class}的值输入分类头。在预训练过程中使用带有单个隐藏层的MLP实现分类头,在微调过程中使用单个线性层实现分类头。MLP实现了GELU非线性,作为分类头。

        总的来说,Vision Transformer使用了原始NLP变压器架构的编码器组件。编码器接收大小为16 × 16的嵌入图像补丁序列作为输入,同时接收位置数据,以及挂起到该序列的可学习类嵌入。补丁的尺寸越小,性能越高,计算成本也越高。因此,选择16 × 16的补丁大小,如[58],因为它对性能下降和计算复杂性的鲁棒性。可学习的类嵌入值被发送到与编码器输出耦合的分类头,编码器使用它根据其状态产生分类输出。图3显示了基于视觉转换器的迁移学习架构的一般结构。在ImageNet数据集上预训练的原始视觉变压器模型被这样使用,即最后一层被替换为平坦层,然后是批处理归一化层和输出密集层。

迁移学习

        利用在大型ImageNet自然图像数据集上预训练的视觉转换模型作为训练乳房x光片数据集的起点。目的是利用视觉转换器从大型自然图像数据集中获得的知识,将乳房x光照片分为两类:良性和恶性组织。为此,分离了预训练的预测头,并将其替换为D\times K前驱层,其中K = 2为下游方向的总类数。通过迁移学习,试图利用源域D_s 和学习任务T_s 的知识来增强目标域D_t 中目标函数f_t(\cdot)的学习。ImageNet数据集有m个训练样本\{(x^1,y^1),\ldots,(x^i,y^i),\ldots,(x^m,y^m)\},其中x^iy^i分别表示输入和标签。然后,将ImageNet预训练的视觉转换模型W_0的权值作为迁移学习的起点,通过最小化(2)中的目标函数来生成W1,其中\langle y^{ij}|x^{ij}, W_0,W_1,b\rangle为Softmax输出概率函数,b为偏置。

 J(\langle W_1, b|W_0\rangle)=\frac{-1}{mn}\sum_{i=1}^m\sum_{j=1}^my^{ij}\log\left(P\Big\langle y^{ij}\Big|x^{ij}, W_0,W_1,b\Big\rangle\right)\quad(2)

W-MSA,基于窗口的多头自我注意;SW-MSA,基于移位窗口的多头自我注意力

        PVT使用一种被称为空间缩减注意(spatial-reduction attention, SRA)的自注意类型,其特征是键和值的空间缩减,从而获得注意机制的二次复杂度。SRA在整个模型中逐步降低特征的空间维数。 

实验设置

        采用五种实验设置对所提方法的性能进行了评估。首先是使用三种最先进的视觉转换器架构比较所提出的迁移学习方法的性能。其次,我们使用这三种架构从头开始在乳房x线照片数据集上训练视觉转换模型,并将它们与迁移学习模型进行比较。第三,我们比较了使用视觉变压器和CNN的迁移学习。在第四个实验设置中,评估每个视觉转换器模型的计算成本。第五,在相同的数据集上,将所提出的方法与之前使用的方法的性能进行了比较。

实现细节

        模型使用Adam优化器以0.0001的学习率训练了50个epoch。这些参数的选择是基于先前对同一数据集的研究以及硬件和软件设置。采用指数衰减,批次大小为64。将数据集以8:2的比例分成训练组和测试组。对于视觉变压器模型,GELU作为激活函数,与L2正则化器一起使用。在CNN中使用了一个整流线性单元(ReLu)和一个L2正则化器。为防止结果偏差,所有比较均采用相同的参数设置。采用五重交叉验证比较模型性能。

结果

        基于Vision Transformer的迁移学习模型在DDSM数据集上的准确率、AUC、F1分数、精度、召回率、MCC和kappa值均为1±0。这提供了强有力的证据,表明基于Vision Transformer的迁移学习在改进乳腺x光检查的DL方法方面是有效的,从而改进了乳腺癌的早期诊断技术。

        使用每秒浮点运算(FLOPS)来比较不同的基于视觉转换器的迁移学习模型的计算成本。FLOPS是运行某个模型的单个实例所需的操作数量的度量。例如,训练单个ViT模型实例需要多少操作。FLOPS越大,计算成本越高;FLOPS越低,计算成本越低。因此,首选具有较小FLOPS的模型。在DDSM数据集上,FLOPS值最小的PVT-medium对于基于视觉转换器的迁移学习是有效的,尽管其在精度方面的表现与其他五种模型相同。

结论

        Vision Transformer性能更好的主要原因是能够从早期层捕获全局信息,以及深度自注意力机制,使每个补丁的特征能够被仔细分析以进行决策。此外,研究表明,由于DDSM数据集中的图像数量较少,因此在DDSM数据集中使用视觉转换模型进行迁移学习比从头开始训练模型更有效。DL模型需要大量的数据进行训练,需要训练的参数也很多,这就导致在训练数据集较小的情况下,比如DDSM数据,模型会出现过拟合的情况。因此,迁移学习提供了更好的结果,因为它使用了在大型数据集(如ImageNet数据集)上预训练的权重,并在训练期间利用这些知识从小型数据集(如DDSM)中学习。

        进一步研究了基于Vision Transformer的迁移学习的有效性,直接将其与基于CNN的迁移学习进行比较,将乳房x光片分类为良性或恶性组织。综上所述,我们观察到基于Vision Transformer的迁移学习在DDSM数据集上优于基于CNN的迁移学习。此外,基于PVT的迁移学习模型的计算成本更低,可以提供与其他模型相同的性能,包括ViTs,用于乳房x线照片分类的计算成本更低。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/749681.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Vue 3.x与TypeScript的PPTIST本地部署与无公网IP远程演示文稿

文章目录 前言1. 本地安装PPTist2. PPTist 使用介绍3. 安装Cpolar内网穿透4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统环境本地部署开源在线演示文稿应用PPTist,并结合cpolar内网穿透工具实现随时随地远程访问与使用该项目。 PPTist …

step7:“模拟量界面”逻辑

文章目录 文章介绍效果图AnalogPage.qml结构图调用 SerialPortHandler.sendData(message); serialporthandler.cpp 文章介绍 之前的6步实现了案例MF的界面设计和串口界面的逻辑设计,本文将实现模拟量界面的逻辑设计 新增功能: 1)弹出提示框 …

腾讯云点播VOD(sprintboot后端+vue前端)

1. 腾讯云点播 官网文档入口: 云点播简介_云点播购买指南_云点播操作指南-腾讯云 2. 业务需求 2.1.上传视频 2.2.浏览视频 2.3.删除视频 3. 腾讯云提供服务器上传和客户端上传。我使用springboot后端实现客户端上传视频。 3.1 后端要求 生成签名,前端拿着签名凭证,才能上…

四川赤橙宏海商务信息咨询有限公司抖音电商领航者

在数字化浪潮席卷全球的今天,电商行业无疑是其中最为活跃、最具潜力的领域之一。而在中国这片广袤的土地上,四川赤橙宏海商务信息咨询有限公司以其独特的视角和前瞻性的战略布局,成为了抖音电商服务领域的佼佼者。今天,就让我们一…

JavaWeb系列三: JavaScript学习 下

文章目录 js数组定义方式数组遍历 js函数函数入门函数使用方式使用方式一使用方式二 函数注意事项函数练习题 定义对象使用object定义使用{}定义 事件onload事件onclick事件失去焦点事件内容发生改变事件表单提交事件静态注册动态注册表单作业 dom对象文档对象模型document对象…

大数据智能风控:模型、平台与业务实践

人行印发的《金融科技(FinTech)发展规划(2022一2025年)》明确指出金融科技成为防范化解金融风险的利器,运用大数据、人工智能等技术建立金融风控模型,有效甄别高风险交易,智能感知异常交易&…

Linux双网卡默认路由的metric设置不正确,导致SSH连接失败问题定位

测试环境 VMware虚拟机 RockyLinux 9 x86_64 双网卡:eth0(访问外网): 10.206.216.92/24; eth1(访问内网) 192.168.1.4/24 问题描述 虚拟机重启后,SSH连接失败,提示"Connection time out",重启之前SSH连接还是正常的…

Android集成高德地图SDK(2)

1.解压下载的压缩包,找到AMap_Android_SDK_All\AMap3DMap_DemoDocs\AMap_Android_API_3DMap_Demo\AMap3DDemo\app\libs,复制libs里的所有文件,将其粘贴到Android工程的libs目录下,如图所示。 2.打开app下的build.gradle&#xff0…

郭子威:未来香港楼市多方拉动稳健前行

今年2月,香港取消了实行14年的楼市“辣招”。“撤辣”之后,香港楼市迎来迅速反弹,3月一手房成交量环比涨逾10倍。 香港“撤辣”的背景是什么?撤辣之后对楼市的长远影响有哪些?未来香港楼市的表现将会如何? …

vite-plugin-mars3d插件最近版本打包问题

最新vite和最新mars3d不能打包会出现报错,一般是版本没有匹配,或者是相关的配置文件没有对, 参考我们开源仓库,修改相关的配置文件, 下载基础项目git clone mars3d-vue-project: 在Vue 3.x技术栈下的Mars3D平台 基础项…

【Redis】

Redis 常见面试题 认识 Redis 什么是 Redis? 我们直接看 Redis 官方是怎么介绍自己的。 Redis 官方的介绍原版是英文的,我翻译成了中文后截图的,所以有些文字读起来会比较拗口,没关系,我会把里面比较重要的特性抽出来…

AI时代的量化金融:ChatGPT在交易中的应用与前景

文章目录 📑前言一、智能量化:开启金融新世界二、作者简介三、本书特色四、适读人群 在数字化、智能化的时代浪潮中,金融领域正经历着一场前所未有的变革。传统的金融分析方法逐渐被高效、精准的量化金融与算法交易所替代,而人工智…

C语言之进程学习

进程打开的文件列表:就是0 1 2 stdin stdout stderro等 类似于任务管理器是动态分ps是静态的 Zombie状态: 在Linux进程的状态中,僵尸进程是非常特殊的一种,它是已经结束了的进程,但是没有从进程表中删除。太多了会导…

Spring Boot 快速入门2 ——SpringBoot运行原理分析

一、SpringBoot运行原理 父依赖 我们再查看 Spring Boot 项目中 pom.xml 可以看出&#xff0c;所有的 Spring Boot 项目 直接或间接的 依赖于一个 父项目 spring-boot-starter-parent &#xff0c;主要是管理项目的资源及其插件。 <parent><groupId>org.sprin…

2024年天津市安全员C证证模拟考试题库及天津市安全员C证理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年天津市安全员C证证模拟考试题库及天津市安全员C证理论考试试题是由安全生产模拟考试一点通提供&#xff0c;天津市安全员C证证模拟考试题库是根据天津市安全员C证最新版教材&#xff0c;天津市安全员C证大纲整理…

vant4的组件气泡弹出框van-popover,在列表中遍历后点击一个全部/显示隐藏,解决办法

环境&#xff1a;vue3 vant-ui4 <div v-for"(info, index) in item.infoListVOs" :key"index"><van-popoverv-model:show"showPopover":actions"actions"overlayplacement"bottom-end"select"onSelect(info…

yaml文件的介绍-K8S

yaml 文件是我们使用K8S管理应用程序常用的部署方式&#xff0c;它主要是通过一系列键值对组成&#xff0c;键和值使用冒号和空格分隔。以下是对yaml的介绍 首先我们可以使用命令生成一个简单的YAML模版文件 Kubectl run nginx-pod –imagenginx:latest –port80 –dry-runcli…

变工况下转子、轴承数据采集及测试

1.固定工况下的数据采集 1.wireshark抓包 通过使用 Wireshark 抓包和 Linux 端口重放技术&#xff0c;可以模拟实际机械设备的运行环境&#xff0c;从而减少实地验证软件和算法的复杂性和麻烦。 打开设备正常运转&#xff0c;当采集器通过网口将数据发送到电脑时&#xff0c…

使用Python和jieba库生成中文词云

使用Python和jieba库生成中文词云 在文本分析和数据可视化的领域中&#xff0c;词云是一种展示文本数据中关键词频率的直观方式。Python作为一种强大的编程语言&#xff0c;提供了多种库来帮助我们生成词云&#xff0c;如wordcloud和jieba。在本文中&#xff0c;我们将通过一个…

sudo: /etc/init.d/ssh: command not found

在 WSL 中尝试启动 SSH 服务时遇到 sudo: /etc/init.d/ssh: command not found 错误 安装 OpenSSH 服务器 更新软件包列表 sudo apt update安装 OpenSSH 服务器 sudo apt install openssh-server启动 SSH 服务 在 WSL 2 上,服务管理与传统 Linux 系统有所不同。你可以手动启动…