基于注意力的MIL

多实例学习是监督学习的一种变体,其中单个类标签被分配给一袋实例。在本文中,作者将MIL问题描述为学习bag标签的伯努利分布,其中bag标签概率通过神经网络完全参数化。此外,提出了一种基于神经网络的置换不变聚合算子,该算子对应于注意力机制。值得注意的是,所提出的基于注意力的算子的应用提供了对每个实例对bag标签的贡献的深入了解。经验表明,在基准MIL数据集上实现了与最佳MIL方法相当的性能(在不牺牲可解释性的情况下)。

来自:Attention-based Deep Multiple Instance Learning, ICML, 2018
工程:https://github.com/AMLab-Amsterdam/AttentionDeepMIL

目录

  • 背景概述
  • 方法
  • 实验设置-适合小型实验

背景概述

在像图像分类这样的典型机器学习问题中,假设图像清楚地表示类别(类)。然而,在许多实际应用中,会观察到多个instance,并且只给出该类别的一般说明。这种情况被称为多实例学习(MIL)或从弱监督数据中学习。弱监督数据的问题在医学图像中尤其明显(例如,计算病理学、CT肺筛查),其中图像通常由单个标签(良性/恶性)描述,或者粗略给出感兴趣区域(ROI)。

MIL处理一组实例,为这些实例分配了一个类标签。因此,MIL的主要目标是学习预测bag标签的模型,例如医学诊断。另一个挑战是发现关键实例,即触发bag标签的实例。在医学领域,由于其在临床实践中的有用性,后者引起了极大的兴趣。为了解决袋分类的主要任务,提出了不同的方法,例如利用袋子之间的相似性,将实例嵌入到紧凑的低维表示中,该表示进一步提供给袋级分类器,以及组合实例级分类器的响应。只有最后一种方法能够提供可解释的结果。然而,研究表明,这种方法的实例级精度较低,并且通常情况下,MIL方法在实例级存在分歧。这些问题使人们对当前MIL模型在解释方面的可用性产生了疑问。

作者提出了一种新的方法,旨在将可解释性纳入MIL方法并增加其灵活性。使用bag标签的伯努利分布来建立MIL模型,并通过优化对数似然函数来训练它。作者证明,对称函数基本定理的应用提供了一个对bag标签概率(袋得分函数)建模的通用过程,该过程由三个步骤组成:

  • (i)实例到低维嵌入的变换
  • (ii)置换不变(对称)聚合函数
  • (iii)bag概率的最终变换

使用神经网络(即卷积层和全连接层的组合)对所有变换进行参数化,这增加了方法的灵活性,并允许通过优化无约束目标函数以端到端的方式训练模型。最后用可训练加权平均来代替广泛使用的置换不变算子,例如最大算子max和平均算子mean,其中权重由一个两层神经网络给出。两层神经网络对应注意力机制,值得注意的是,注意力权重使我们能够找到关键实例,这些实例可以进一步用于突出显示可能的ROI。

方法

在多实例学习中,训练样本是由多个实例组成的包,包是有标记的,但实例本身没有标记,如果一个包中至少包含一个正例,则该包是一个正包,否则即为反包。学习的目的是预测新包的类别:
fig1

  • 来自:Introduction to Multiple Instance Learning

多实例学习的关键是找到instance与包的逻辑关系,因为实例本身是无标签的,而其所属的包是有标签的,所以这是一种若监督学习范式。下面三个公式是近年的主要方法: f ( x i j ∣ j = 1 , . . , n i l − 1 ) = 1 n i ∑ j n i ( H l ( x i j l − 1 ) ) (1) f(x^{l-1}_{ij|j=1,..,n_{i}})=\frac{1}{n_{i}}\sum_{j}^{n_{i}}(H^{l}(x_{ij}^{l-1}))\tag{1} f(xijj=1,..,nil1)=ni1jni(Hl(xijl1))(1) f ( x i j ∣ j = 1 , . . , n i l − 1 ) = m a x j ( H l ( x i j l − 1 ) ) (2) f(x^{l-1}_{ij|j=1,..,n_{i}})=max_{j}(H^{l}(x_{ij}^{l-1}))\tag{2} f(xijj=1,..,nil1)=maxj(Hl(xijl1))(2) f ( x i j ∣ j = 1 , . . , n i l − 2 ) = H l ( W l − 1 ( x i j l − 2 ) ) (3) f(x^{l-2}_{ij|j=1,..,n_{i}})=H^{l}(W^{l-1}(x_{ij}^{l-2}))\tag{3} f(xijj=1,..,nil2)=Hl(Wl1(xijl2))(3)公式(1)所应用的逻辑在多实例领域被称为平均池化,即首先对实例得分(概率空间)进行判别,而后取所有示例得分平均值作为bag的结果。公式(2)所展示的方式称为最大池化,即选择Key Instance,也就是找出得分最高的关键示例来代表其包的结果。而第三种所要讨论的,就是基于注意力机制的方式。

关于注意力机制的实现,首先定义包 H H H h i h_{i} hi表示其中的实例: H = { h 1 , . . . , h K } H=\left\{h_{1},...,h_{K}\right\} H={h1,...,hK},对包 H H H的加权和为: z = ∑ k = 1 K a k h k z=\sum_{k=1}^{K}a_{k}h_{k} z=k=1Kakhk其中,权重 a a a为( w w w V V V为网络参数): a k = e x p ( w T t a n h ( V h k T ) ) ∑ j = 1 K e x p ( w T t a n h ( V h j T ) ) a_{k}=\frac{exp(w^{T}tanh(V h_{k}^{T}))}{\sum_{j=1}^{K}exp(w^{T}tanh(V h_{j}^{T}))} ak=j=1Kexp(wTtanh(VhjT))exp(wTtanh(VhkT))另外,该文章作者提到:tanh激活函数在表达非线性复杂关系是效果不好,作者进一步引入了门控思想构建了Gated Attention,注意这两个版本在不同数据集下各自有优点: a k = e x p ( w T t a n h ( V h k T ) ⊙ s i g m ( U h k T ) ) ∑ j = 1 K e x p ( w T t a n h ( V h j T ) ⊙ s i g m ( U h j T ) ) a_{k}=\frac{exp(w^{T}tanh(V h_{k}^{T})\odot sigm(U h_{k}^{T}))}{\sum_{j=1}^{K}exp(w^{T}tanh(V h_{j}^{T})\odot sigm(U h_{j}^{T}))} ak=j=1Kexp(wTtanh(VhjT)sigm(UhjT))exp(wTtanh(VhkT)sigm(UhkT))

实验设置-适合小型实验

在实验中,旨在评估所提出的方法:一个用神经网络参数化的MIL模型和一个基于(门控)注意力的池化层(“Attention”和“Gated-Attention”)。作者在许多不同的MIL数据集上评估了方法:五个MIL基准数据集(MUSK1、MUSK2、FOX、TIGER、ELEPHANT)、一个基于MNIST的图像数据集(MNIST-BAGS)和两个现实生活中的组织病理学数据集(乳腺癌、结肠癌)。作者想在实验中验证两个问题:

  • (i)方法是否达到了最佳性能或与性能最佳的方法相当
  • (ii)算法是否可以通过使用指示关键实例或ROI的注意力权重来提供可解释的结果

为了获得公平的比较,作者使用了一种常见的评估方法,即10倍交叉验证,每个实验重复5次。在MNIST-BAGS的情况下,固定划分为训练集和测试集。为了创建测试bags,仅对MNIST测试集的图像进行采样。在训练过程中,作者只使用MNIST训练集中的图像。Base模型选择几个方法,比如LeNet。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/706207.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

最实用的AI软件开发工具CodeFlying测评

就在上个月,OpenAI宣布GPT-4o支持免费试用,调用API价格降到5美元/百万token。 谷歌在得到消息后立马将Gemini 1.5 的价格下降到0.35美元/百万token。 Anthropic的API价格,直接干到了0.25美元/百万token。 国外尚且如此,那么国内…

6.13长难句打卡

Hard times may hold you down at what usually seems like the most inopportune time, but you should remember that they won’t last forever. 艰难时刻可能会在你最不顺心的时刻让你低迷,但请相信,它们不会永远持续下去。

数据结构逻辑

一:逻辑关系 1、线性关系 2:树型关系 3:图像关系 二:存储关系 1:顺序存储、数据在存储中会开辟一块连续的空间进行存储。一般使用数组来存储数据 2:链式存储、数据在内存中不需要开辟连续的空间进行存储 3…

冯喜运:6.13美盘外汇黄金原油趋势分析及操作策略

【黄金消息面分析】:美国5月生产者价格指数(PPI)的意外下降,为市场带来了通胀可能见顶的积极信号。与此同时,初请失业金人数的上升,为劳动力市场的现状增添了一层不确定性。美国劳工统计局公布的数据显示&a…

供应链与直播的“低价”探戈

文丨郭梦仪 10个月前,梅姐(化名)开启了人生中第一次直播带货,10年的工作经验在镜头前完全“失灵”,个位数观看量更让她一度怀疑人生。 而今年4月,梅姐面朝西沙群岛的湛蓝海域,对着400万人侃侃而…

Elasticsearch 第二期:倒排索引,分析,映射

前言 正像前面所说,ES真正强大之处在于可以从无规律的数据中找出有意义的信息——从“大数据”到“大信息”。这也是Elasticsearch一开始就将自己定位为搜索引擎,而不是数据存储的一个原因。因此用这一篇文字记录ES搜索的过程。 关于ES搜索计划分两篇或…

细说MCU串口函数及使用printf函数实现串口发送数据的方法

目录 1、硬件及工程 2、串口相关的库函数 (1)串口中断服务函数: (2)串口接收回调函数: (3)串口接收中断配置函数: (4)非中断发送&#xff…

python:faces swap

# encoding: utf-8 # 版权所有 2024 ©涂聚文有限公司 # 许可信息查看: 两个头像图片之间换脸 # 描述: https://stackoverflow.com/questions/902761/saving-a-numpy-array-as-an-image?answertabvotes # Author : geovindu,Geovin Du 涂聚文. #…

低成本,高性能:10 万美元实现Llama2-7B级性能

高性能的语言模型如Llama2-7B已经成为推动自然语言处理技术进步的重要力量。然而,这些模型往往需要昂贵的计算资源和庞大的研发投入,使得许多研究团队和小型企业望而却步。现在,JetMoE架构以其创新的设计和优化策略,不仅成功地在只…

PC微信逆向) 定位微信浏览器打开链接的call

首发地址: https://mp.weixin.qq.com/s/Nik8fBF3hxH5FPMGNx3JFw 前言 最近想写一个免费的微信公众号自动采集的工具,我看公众号文章下载需求还挺多的。搜了下github,免费的工具思路大多都是使用浏览器打开公众号主页获取到需要的请求参数,例…

云化XR什么意思,Cloud XR是否有前景?

云化XR(CloudXR)什么意思? 云化XR(CloudXR)是一种基于云计算技术的扩展现实(XR)应用方式,将XR体验从本地设备转移到云端进行处理和交付。它通过将计算和渲染任务放置在云端服务器上…

Linux基础IO【II】真的很详细

目录 一.文件描述符 1.重新理解文件 1.推论 2.证明 2.理解文件描述符 1.文件描述符的分配规则 3.如何理解文件操作的本质? 4.输入重定向和输出重定向 1.原理 2.代码实现重定向 3.dup函数 ​编辑 4.命令行中实现重定向 二.关于缓冲区 1.现象 …

Modbus转Profinet网关的IP地址怎么设置

在工业自动化领域,Modbus和Profinet是两种常用的通信协议,而网关可以实现不同协议之间的转换,使得不同设备能够互相通信。本文将详细介绍如何设置Modbus转Profinet网关(XD-MDPN100)的IP地址,让您轻松实现设…

vue相关的2个综合案例,网页打字练习

for循环的应用 /* 1. 用for循环控制台打印0到100 */ for (var i 0; i < 100; i) {console.log(i) } /* 2. 用for循环控制台打印100到0 */ for (var i 100; i > 0; i--) {console.log(i) }网页打字练习案例练习 <template><div class"main"><…

洛谷P1305 新二叉树(树的基本遍历)

题目描述 输入一串二叉树&#xff0c;输出其前序遍历。 输入格式 第一行为二叉树的节点数 &#x1d45b;。(1≤&#x1d45b;≤26) 后面 &#x1d45b; 行&#xff0c;每一个字母为节点&#xff0c;后两个字母分别为其左右儿子。特别地&#xff0c;数据保证第一行读入的节点…

IPTCP知识

1. IP&#xff1a; IP地址是一个32位的二进制数&#xff0c;通常被分割为4个“8位二进制数”IP地址分类&#xff1a;A类地址、B类地址、C类地址、D类地址、E类地址 A类地址分配给规模特别大的网络使用&#xff0c;B类地址分配给一般的中型网络&#xff0c;C类地址分配给小型网…

STM32无法烧写程序的故障排除

如果你在使用STM32微控制器时遇到无法烧写程序的问题&#xff0c;可以按以下步骤进行故障排除&#xff1a; 1. 确认硬件连接 检查电源&#xff1a;确保STM32板子正确供电。调试器连接&#xff1a;确认ST-LINK调试器或其他编程工具与STM32开发板的连接无误&#xff0c;尤其是S…

如何基于 Python 快速搭建 QQ 开放平台 QQ 群官方机器人详细教程(更新中)

注册 QQ 开放平台账号 账号注册 QQ 机器人&#xff1a;一个机器人可以被添加到 群聊/频道 内对话&#xff0c;QQ 用户也可以直接跟机器人 单独对话。 开发者账号主体要求 单聊对话&#xff1a;【定向邀请】 群聊场景&#xff1a;仅支持企业主体【个人主体暂不支持】 频道场…

基于uni-app与图鸟UI打造的各领域移动端模板大赏

随着移动互联网的迅猛发展&#xff0c;各类移动端应用层出不穷&#xff0c;为了帮助企业快速搭建高效、美观的移动平台&#xff0c;我们基于强大的uni-app与图鸟UI&#xff0c;精心打造了不下于40套覆盖多个领域的移动端模板。今天&#xff0c;就让我们一起领略这些模板的风采吧…

淘宝镜像地址失效

1. 使用nvm安装node时候报错 报错内容 Get "https://npm.taobao.org/mirrors/node/latest/SHASUMS256.txt": tls: failed to verify certificate: x509: certificate has expired or is not yet valid:报错原因 淘宝镜像地址的证书过期了 解决 找到nvm安装的根目…