谷歌提出「边界注意力」模型,实现超越像素级检测精度!微弱边界也逃不过

有些情况下,当面临分辨率较低的图像时,可能会在进行诸如目标检测和图像分割等任务时遇到一些挑战和阻碍。这是因为低分辨率图像可能丢失了细节信息,使得计算机视觉系统难以准确捕捉和理解图像中的关键特征。在这种背景下,传统的方法可能表现不佳,因为它们通常依赖于高分辨率图像中的细微结构。

然而,谷歌的最新研究工作提出的参数化的交汇空间方法,为解决低分辨率图像中的目标检测和图像分割等任务提供了新的可能性。通过引入交汇空间参数化,该方法克服了低分辨率图像中信息丢失的问题,使计算机视觉系统能够更好地理解图像中的几何结构和特征。

本文主要介绍了一种名为 Boundary Attention 的模型,该模型能够在任何分辨率下找到微弱的边界,能够推断图像中的几何原语,如边缘、角、交叉点和均匀外观区域。此外,作者还详细描述了模型的输出以及如何利用模型进行 RGBD 图像的填充和非照片真实主义风格化。

本文的工作为计算机视觉领域带来了潜在的开创性研究,为目标检测、图像分割、图像修复等具体任务提供了新的思路和方法。

论文题目:
Boundary Attention: Learning to Find Faint Boundaries at Any Resolution

论文链接:
https://arxiv.org/abs/2401.00935


研究背景主要是针对在噪声严重影响下的图像边缘检测问题。作者认为,这个问题完全依赖于对边界的基本拓扑和几何属性的强大模型,即边界是由连接角点或交叉点的局部平滑曲线构成的。

受早期计算机视觉工作的启发,该模型提供了一种可以学习的无光栅边界推断方法,能够从深度学习中受益,同时实现了许多经典自下而上技术的优点(如对噪声的鲁棒性、亚像素精度和信号类型之间的适应性)。

▲图1 在合成数据上进行训练,面对大量噪音仍能生成准确且清晰定义的图像边界

图像表征

如图 2 所示,模型首先采用密集的邻域注意力,使用密集的、步幅为 1 的 token,尽管在图中以非重叠的形式呈现,以更清晰地展示结构。整个模型对离散空间的平移是不变的,这意味着它适用于任何分辨率的图像。每个 token 编码一个自适应大小的几何原语,用于表示像素周围未光栅化的本地边界。通过边界注意力,这些 token 逐渐变得几何一致。模型的输出是一个重叠的原语字段,这直接暗示了对输入图像的边界感知平滑和图像边界的无符号距离映射。

▲图2 模型通过密集邻域注意力的方式处理图像,以实现对图像边界的感知和平滑

边界原语(Boundary Primitives)

这部分主要讨论了如何表示局部区域的几何结构,以及如何在图像处理中利用这些结构。

作者定义了一个更大的分区簇,以包含更多种类的局部边界结构,可以用于描述边缘、角点和交叉点等。此外,还提到了一种将这些局部结构与图像的其他部分相连接的方法,即边界注意力机制。这种机制通过在像素周围密集地应用局部注意力操作,逐步优化与每个像素相关的局部边界变量场。

这个模型可以从输入图像中提取边界信息,并生成一系列可重叠的几何原语,用于生成图像边界的无符号距离函数、边界感知的平滑通道值,以及与每个像素相关的软局部注意力分布。

如图 3 所示,通过沿着光滑的轨迹在几何原语空间中取样,可以得到一系列几何原语的实例。在这些样本中,选择一个进行放大操作,并伴随着对应的距离图在右侧进行可视化展示。

▲图3 在几何原语空间中的样本生成过程

聚集和切片操作

这是一种用于处理图像边界信息的方法,主要应用于上述提到的边界注意力模型。

  • 聚集操作:将相邻像素的信息汇聚到一起,形成一个更高维度的表示,以便网络学习有意义的隐藏状态。

  • 切片操作:将这些高维度表示分割成更小的块,以便进行局部操作和分析。

这两种操作相互配合,有助于网络在不同尺度上捕捉边界信息,从而提高边界定位的精度和鲁棒性。

输出可视化

如图 4 所示为模型的输出结果和可视化。

  • 模型的输出:包括场景的边界感知平滑,图像边界的全局无符号距离函数,以及与每个像素相关的软局部注意力图。

  • 如何可视化输出:全局无符号距离函数可以用来可视化图像边界的全局边界图。

▲图4 可视化模型的输出

此外,作者还展示了如何通过查询像素周围的几何注意力图来生成空间注意力图。如图 4 的底部两行所示,可以将输出字段的任何部分展开到它所包含的重叠区域中。

模型架构

本文提出的网络的参数比大多数边界学习检测器小几个数量级,通过迭代地优化场来逐步细化每个像素周围的局部边界。具体构件包括邻域 MLP 混合器(MLP-Mixer)、边界注意力模块、聚集与切片操作等组件。使用四种全局 loss 函数(针对全局平均场)和两种局部函数(针对每个局部块)来训练。

▲图5 模型架构,所有块都对图像的离散空间偏移是不变的,只有着色的块是可学习的。

如图 5 所示为模型架构,这种名为 "边界注意力" 的机制,通过密集且重复地应用,逐步优化一个变量场,该场包围每个像素的局部边界信息

模型的输出是一系列重叠的几何原语,可以用于多种任务,包括生成图像边界的无符号距离函数、边界感知的通道值平滑以及与邻域相关的每像素软局部注意力映射。

作者分两个阶段训练网络

  1. 首先训练邻域 MLP 混合器与第一个边界注意力块。

  2. 将第二个边界注意力块与初始权重复制添加到网络中,并对整个网络进行端到端的重新训练。

在第一阶段的训练中,他们将 loss 应用于网络的第 3 轮和第 4 轮迭代,而在端到端的优化阶段,他们将 loss 应用于第7轮和第8轮迭代。为了鼓励网络分配足够的容量以产生高质量的输出,他们将最终 loss 的权重设定为上一 loss 的三倍,这样梯度信息可以在网络中共享。

实验结果

对噪声水平的性能

▲图6 在不同噪声水平下的 ODS F-Score

如图 6 和表 1 所示,在较低噪音水平下,本文方法优于所有 baseline 方法,并且在较高噪音水平下与 Junction 领域相媲美,同时速度快了数个数量级。

▲表1 不同方法在两个分辨率下的运行时间

亚像素精度

亚像素精度:在图像或视觉任务中能够超越像素级别的精确度。当一个算法或模型能够对目标或边界的位置进行更精细的定位,超过图像的原始像素边界时,就称之为亚像素精度。

为了测量亚像素精度,作者使用了包含重叠的圆和三角形对的高分辨率图像,获得了精确的二进制边界图。随后,他们对这些图像进行下采样至较低分辨率(125 × 125),并添加了不同程度的高斯噪声,作为模型的输入。为了评估模型的预测效果,将输出上采样回原始高分辨率(500 × 500)。相较于传统方法,本文使用了一种直观的参数形式,通过增加补丁步幅和相应地调整补丁大小,实现了保持模型输出在上采样时边界准确性。整体而言,实验结果表现出模型对于亚像素精度的处理能力,即在高分辨率图像中能够提供更为精确的目标位置定位

▲图8 从低分辨率到高分辨率,都有着干净的边界

此外,还评估了模型在原始的 500×500 二进制图上的上采样输出,通过变化评估度量的最小距离阈值来衡量预测与真实结果的接近程度。图 7 的结果表明,即使输入图像包含加性高斯噪声,模型的 F-score 在所有匹配阈值上仍然保持较高水平。

▲图7 合成图像的 ODS F-score 和 PSNR

连接空间的线性插值

该实验观察到网络在隐藏状态中学到了一个空间平滑的连接流形。图 9 的可视化结果显示了这个学习的连接空间的一些特性。结果表明,嵌入空间呈现平滑的特性,有趣的是,它学会将零与近乎相等的角度和接近补丁中心的顶点关联起来。

▲图9 该嵌入学会了平滑且直观的零

随时间推移的输出演化

实验结果显示在细化过程中距离图的演变。图 10 的可视化结果表明,早期迭代是探索性和无结构的,而后续迭代逐渐趋于一致,呈现出更加有序和一致的区域边界。这突显了网络在细化过程中逐渐完善和协调局部边界信息的能力。

▲图10 迭代过程中边界的演变

在真实图像上的结果

图 1 和 11 展示了在真实图像上的结果。尽管在合成数据上进行训练,本文的方法可以在 ELD 中存在的多个真实传感器噪声水平上胜过现有的 SOTA 方法,在高噪声水平下产生清晰且定义良好的边界

▲图11 模型对真实图像具有很好的泛化能力,在自然图像中能够找到准确的边界

总结

谷歌新发布的这项工作,引入了边界注意力模型,一个能够学习的专门用于推断未经栅格化图像边界的方法。

在实验中,作者验证了该模型在极大噪音污染的图像中找到边界的效果,并展示了其在处理真实传感器噪声的优越性。与现有方法相比,模型在较低噪音水平下表现更优,且在高噪音水平下与其他方法相媲美,同时运行速度更快。

本文的研究不仅推动了图像边界推断的技术边界,尤其是在不同分辨率的图像中,还为理解和利用几何原语在图像中的表达提供了新的思路。期待作者能够进一步优化和扩展这一模型,以更好地满足计算机视觉实际场景中目标检测、图像分割、图像修复等任务对图像边界处理的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/304180.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CTF-PWN-沙箱逃脱-【seccomp和prtcl-1】

文章目录 啥是seccomp#ifndef #define #endif使用使用格式 seccomp无参数条件禁用系统调用有参数条件禁用系统调用 prctl实例 seccomp_export_bpf 啥是seccomp 就是可以禁用掉某些系统调用,然后只能允许某些系统调用 #ifndef #define #endif使用 #ifndef #defin…

Java可视化大屏智慧工地云平台源码(SaaS模式)

智慧工地是一种崭新的工程现场一体化管理模式,是互联网与传统建筑行业的深度融合。它充分利用移动互联、物联网、云计算、大数据等新一代信息技术,围绕人、机、料、法、环等各方面关键因素,彻底改变传统建筑施工现场参建各方现场管理的交互方…

鸿蒙开发已解决The module to import is incompatible with the current project

文章目录 项目场景:问题描述原因分析:解决方案:心得体会:知识点OpenHarmony:HarmonyOS:项目场景: 报错: The module to import is incompatible with the current project 问题描述 希望通过 import module 将该模块引入到我的项目。 导入后出现错误,因为项目和模

从事涉密测绘业务的人员应当具有中华人民共和国国籍,签订保密责任书,接受保密教育。

从事涉密测绘业务的人员应当具有中华人民共和国国籍,签订保密责任书,接受保密教育。 1、从事涉密测绘业务并签署保密责任书的人员清单(包括:姓名、身份证号码、工作岗位、责任书签署日期) 2、近三年内(或…

【Java 设计模式】设计原则

文章目录 ✨单一职责原则(SRP)✨开放/封闭原则(OCP)✨里氏替换原则(LSP)✨依赖倒置原则(DIP)✨接口隔离原则(ISP)✨合成/聚合复用原则(CARP&#…

项目管理:放权并非推卸责任,项目经理如何做好授权管理

项目经理作为项目的管理者,肩负着对项目整体结果的重大责任。然而,项目的成功并非项目经理一人之力所能完成,因此,恰当地授权给团队成员显得尤为重要。 但是,项目经理的能力和精力有限,只有通过授权&…

【推文】企业级AI问答知识库训练营,火热开营中!

简介:阿里云人工智能平台PAI【企业AI成长营】系列课程上线!第一弹:企业AI问答知识库训练营,手把手带你从入门到实操快速完成知识库搭建,助力企业AI应用落地。 📚 企业AI问答知识库训练营:点击报…

性能分析与调优: Linux 内存观测工具

目录 一、实验 1.环境 2.vmstat 3.PSI 4.swapon 5.sar 6.slabtop 7.numstat 8.ps 9.top 10.pmap 11.perf 12.bpftrace 二、问题 1.接口读写报错 2.slabtop如何安装 3.numactl如何安装 4.numad启动服务与关闭NUMA 5. perf如何安装 6. kernel-lt-doc与kern…

Java Stream介绍和实战

目录 1. 引言 2. Stream 的基本特性 3. 创建 Stream 4. Stream 的中间操作 5. Stream 的终端操作 6. Stream 的性能优化 7. 实例演示 8. 注意事项 9. 结语 1. 引言 Java 中的 Stream 是 Java 8 引入的一种用于对集合进行操作的工具,为开发者提供了一种更便…

苹果在美国被禁售有望反转!

都说开门大吉,可2024年似乎对苹果公司并不友好,一会儿是Apple Watch系列在美国被禁售,一会儿又是分析师唱衰iPhone 16,总之各种风声杂糅,给人一种苹果正遭遇重大危机的感觉。 此前美国国际贸易委员会(ITC)下达了对苹果旗下部分智能手表的进口禁令,Apple Watch Series9和…

优思学院|为什么医疗行业供应商需要六西格玛管理?

什么是六西格玛管理? 六西格玛管理是一种旨在提高产品和服务质量的方法论。它通过减少过程中的错误和变异性,来提高效率和性能。自20世纪80年代由摩托罗拉公司首创以来,六西格玛已经在各行各业得到广泛应用。 医疗行业的特点 医疗行业是一…

C#.Net学习笔记——设计模式六大原则

***************基础介绍*************** 1、单一职责原则 2、里氏替换原则 3、依赖倒置原则 4、接口隔离原则 5、迪米特法原则 6、开闭原则 一、单一职责原则 举例:类T负责两个不同的职责:职责P1,职责P2。当由于职责P1需求发生改变而需要修…

【leetcode】力扣热门之回文链表【简单难度】

题目描述 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 用例 输入:head [1,2,2,1] 输出:true 输入:head [1,2] 输出:f…

TikTok电商年度洞察:出海到底“卖什么”?各国多类目爆款洞察,迅速掌握市场领先优势

很多卖家在尝试出海时,常面临两大核心痛点:一是“卖什么”,即选择何种商品进行销售;二是“怎么卖”,即如何通过有效的营销策略将商品销售出去。TikTok主打的内容电商模式,通过短视频和直播等形式&#xff0…

LeetCode-1822/1502/896/13

1.数组元素积的符号(1822) 题目描述: 已知函数 signFunc(x) 将会根据 x 的正负返回特定值: 如果 x 是正数,返回 1 。 如果 x 是负数,返回 -1 。 如果 x 是等于 0 ,返回 0 。 给你一个整数数组…

2.SPSS数据文件的建立和管理

文章目录 数据文件的特点建立SPSS数据文件步骤 数据文件的结构变量的规则 数据的录入和保存录入数据保存文件 数据的编辑数据定位 数据文件的特点 SPSS数据库文件包括文件结构和数据两部分 SPSS数据文件中的一列数据称为一个变量。每个变量都应有一个名称,即&…

如何搭建WampServer并结合cpolar内网穿透实现公网访问本地服务

文章目录 推荐前言1.WampServer下载安装2.WampServer启动3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3.4 创建公网地址 4.固定公网地址访问 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默&am…

视图与索引连表查询内/外联和子查询

1.视图 先介绍一下视图: 从SQL的角度来看,视图和表是相同的,两者的区别在于表中存储的是实际的数据,而视图中保存的是SELECT语句(视图本身并不存储数据)。 使用视图可以轻松完成跨多表查询数据等复杂操作…

案例分享:当前高端低延迟视频类产品方案分享(内窥镜、记录仪、车载记录仪、车载环拼、车载后视镜等产品)

若该文为原创文章,转载请注明出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/135439369 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬结…

Qt QWidget窗口基类

文章目录 1 QWidget介绍2 如何显示 QWidget窗口2.1 新建基于QWidget的窗口类2.2 再添加一个QWidget窗口类2.3 显示新添加的 QWidget窗口 3 常用的属性和方法3.1 窗口位置3.2 窗口大小3.3 窗口标题3.4 窗口图标3.5 资源文件 4 实例 1 QWidget介绍 Qt 中的常用控件,比…