【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(7 月 3 日论文合集)

文章目录

  • 一、分割|语义相关(4篇)
    • 1.1 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
    • 1.2 Achieving RGB-D level Segmentation Performance from a Single ToF Camera
    • 1.3 Topological Data Analysis Guided Segment Anything Model Prompt Optimization for Zero-Shot Segmentation in Biological Imaging
    • 1.4 ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

一、分割|语义相关(4篇)

1.1 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs

SPEA:用于冷冻LLMS多模式生成的语义金字塔自动编码器

论文地址:

https://arxiv.org/abs/2306.17842

在这里插入图片描述
在这项工作中,我们介绍语义金字塔自动编码器(SPAE),使冻结的LLM执行理解和生成任务涉及非语言形式,如图像或视频。SPAE在原始像素和从LLM的词汇表中提取的可解释词汇标记(或词)之间进行转换。由此产生的令牌捕获视觉重建所需的语义含义和细粒度的细节,有效地将视觉内容翻译成LLM可理解的语言,并使其能够执行广泛的多模态任务。我们的方法是验证通过上下文学习实验冻结PaLM 2和GPT 3.5对一组不同的图像理解和生成任务。我们的方法标志着第一次成功的尝试,使冻结的LLM生成图像内容,同时超越最先进的性能,在图像理解任务,在相同的设置下,超过25%。

1.2 Achieving RGB-D level Segmentation Performance from a Single ToF Camera

在一台TOF摄像机上实现RGB-D级分割性能

论文地址:

https://arxiv.org/abs/2306.17636

在这里插入图片描述
深度是计算机视觉中非常重要的模态,通常用作RGB的补充信息,由RGB-D相机提供。在这项工作中,我们表明,它是可能的,以获得相同水平的准确性RGB-D相机的语义分割任务,使用红外(IR)和深度图像从一个单一的飞行时间(ToF)相机。为了融合ToF相机的IR和深度模态,我们引入了一种在多任务学习框架中利用深度特定卷积的方法。在我们对车内分割数据集的评估中,我们证明了我们的方法与成本更高的RGB-D方法的竞争力。

1.3 Topological Data Analysis Guided Segment Anything Model Prompt Optimization for Zero-Shot Segmentation in Biological Imaging

拓扑数据分析引导下的分割任意模型生物成像中Zero-Shot分割的即时优化

论文地址:

https://arxiv.org/abs/2306.17400

在这里插入图片描述
机器学习中新兴的基础模型是在大量数据上训练的模型,这些数据已被证明可以很好地推广到新任务。通常,这些模型可以通过多模态输入来提示,这些输入范围从图像上的自然语言描述到点云。在本文中,我们提出了拓扑数据分析(TDA)引导的即时优化分段任何模型(SAM),并显示了初步的结果,在生物图像分割域。我们的方法取代了标准的网格搜索方法,在原来的实现中使用,并发现点的位置,基于它们的拓扑意义。我们的研究结果表明,TDA优化的点云更适合于寻找小对象,并大规模降低了计算复杂性,尽管需要许多分割的场景中的额外步骤。

1.4 ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

REMAX:放松以获得更好的有效全景分割训练

论文地址:

https://arxiv.org/abs/2306.17319

在这里插入图片描述
本文提出了一种新的机制,以促进有效的全景分割,民主化其部署的掩模Transformers的培训。我们观察到,由于其高复杂性,全景分割的训练目标将不可避免地导致更高的假阳性惩罚。这种不平衡损耗使得基于端到端掩模变压器的架构的训练过程变得困难,特别是对于高效模型。在本文中,我们提出了ReMaX,它在全景分割的训练过程中为掩模预测和类预测添加了松弛。我们证明,通过这些简单的放松技术在训练过程中,我们的模型可以不断提高一个明确的保证金\textbf{没有}任何额外的计算成本的推断。通过将我们的方法与MobileNetV 3-Small等高效骨干相结合,我们的方法在COCO,ADE 20 K和Cityscapes上实现了高效的全景分割的最新结果。代码和预先训练的检查点将在\url{https://github.com/google-research/deeplab2}上提供。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/35930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

双非本大二上岸大厂——念念不忘,必有回响

⭐️前言⭐️ 博主就读于一所普通的学校(双非本),在大二下学期3月份开始网上投递简历,历时近百余天,投递简历500,面试近40余场,最终在6月份学期末,斩获了两个大厂offer(北…

开发框架前后端分离的好处是什么

关于将前端和后端保持在一起或分开,存在广泛的意见分歧。唯一重要的是,这两个组件对于开发成熟的应用程序都是必需的。 考虑:紧密耦合的前端和后端 许多人认为后端和前端的分离是一个坏主意,这两个角色之间没有太大区别。 以下…

MySQL-SQL存储过程/触发器详解(下)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

计算机体系结构基础知识介绍之缓存性能的十大进阶优化之编译器优化和硬件预取(六)

优化七:编译器优化,降低miss率 处理器和主内存之间不断扩大的性能差距促使编译器编写者仔细检查内存层次结构,看看编译时优化是否可以提高性能。再次,研究分为指令缺失的改进和数据缺失的改进。接下来介绍的优化可以在许多现代编…

【图像识别】openCV基础知识

图像处理基础 一、使用OpenCV前要准备的工作1.先导入需要用到的库2.自定义,图片展示函数 二、开始学习常用函数1.生成随机整数①. 函数说明②.代码a. 二维灰度图b. 三维彩色图 ③.代码现象a. 二维灰度图b. 三维彩色图 2.通道的分离与合并①先导入一张图片② 将其RGB…

Python获取指定路径下所有文件的绝对路径

import osdef get_file_path_by_name(file_dir, format.JPG):获取指定路径下所有文件的绝对路径:param file_dir::return:L []for root, dirs, files in os.walk(file_dir): # 获取所有文件for file in files: # 遍历所有文件名if os.path.splitext(file)[1] format: L.ap…

typeScript(持续吐血版)

typeScript-02-进阶(TSVue3) 结合vue3来使用TypeScript 使用vite来创建vue3TS的项目 使用vite创建项目,并选择带ts的版本 npm create vitelatest my-vue-ts-app – --template vue-ts 参考链接:https://vuejs.org/guide/typescript/composition-api…

深度学习基础

1 机器学习、深度学习、人工智能 1.1 机器学习 机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。 基本步骤:获取数据、数据预处理、特征提取、特征选择…

FFmpeg5.0源码阅读—— avcodec_send_packetavcodec_receive_frame

摘要:本文主要描述了FFmpeg中用于解码的接口的具体调用流程,详细描述了该接口被调用时所作的具体工作。   关键字:ffmpeg、avcodec_send_packet、avcodec_receive_frame   读者须知:读者需要了解FFmpeg的基本使用流程&#xf…

MySQL 主从复制[异步 同步 半同步复制] 读写分离 优化 (非常重要)

MySQL 主从复制 1、什么是读写分离? 读写分离,基本的原理是让主数据库处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库处理SELECT查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据…

计算机网络概述(三)

常见的计算机网络体系结构 OSI体系结构: 物理层→数据链路层→网络层→运输层→会话层→表示层→应用层 TCP/IP体系结构: 网络接口层→网际层→运输层→应用层 一般用户的设备都有TCP/IP协议用于连接因特网,TCP/IP的网络接口层并没有规定使用…

【Redis】秒杀业务设计、悲观锁与乐观锁

1 全局ID生成器 一些情境下,使用数据库的ID自增将会产生一些问题。 一方面,自增ID规律性明显,可能被猜测出来并产生一些漏洞另一方面,当数据量很大很大很大时,单表数据量可能会受到限制,需要分表&#xf…

网络编程5——TCP协议的五大效率机制:滑动窗口+流量控制+拥塞控制+延时应答+捎带应答

文章目录 前言一、TCP协议段与机制TCP协议的特点TCP报头结构TCP协议的机制与特性 二、TCP协议的 滑动窗口机制 三、TCP协议的 流量控制机制 四、TCP协议的 拥塞控制机制 五、TCP协议的 延时应答机制 六、TCP协议的 捎带应答机制 总结 前言 本人是一个普通程序猿!分享一点自己的…

RabbitMQ在SpringBoot中的高级应用(2)

过期时间 1.单独的设置队列的存活时间,队列中的所有消息的过期时间一样 Bean//创建交换机public DirectExchange ttlQueueExchange(){// 交换机名称 是否持久化 是否自动删除return new DirectExchange("ttl_queue_log",true,false);}Bean//创建队列publ…

吴恩达ChatGPT《LangChain for LLM Application Development》笔记

基于 LangChain 的 LLM 应用开发 1. 介绍 现在,使用 Prompt 可以快速开发一个应用程序,但是一个应用程序可能需要多次写Prompt,并对 LLM 的输出结果进行解析。因此,需要编写很多胶水代码。 Harrison Chase 创建的 LangChain 框…

需求分析引言:架构漫谈(五)架构师成长之路

我研发领域也从事了一些年,期间也做过一些架构设计工作,包括C#单体转型为Java微服务、Python单体转型为Java微服务等, 也尝试着从自己的经验角度,来汇总一些知识点,同时描述一下如何成长为一个合格的软件架构师&#x…

基于SpringBoot+Vue+微信小程序的电影平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、项目背景介绍: 研究背景:…

Docker 中的 .NET 异常了怎么抓 Dump (转载)

一、背景 1. 讲故事 有很多朋友跟我说,在 Windows 上看过你文章知道了怎么抓 Crash, CPU爆高,内存暴涨 等各种Dump,为什么你没有写在 Docker 中如何抓的相关文章呢?瞧不上吗? 哈哈,在DUMP的分析旅程中&a…

提升工作效率:推荐几款实用的Mac项目管理工具!

在当今软件和技术高度发达的时代,项目管理依然是一项非常重要的任务。现在,有越来越多的人喜欢使用mac电脑进行项目管理,因为mac众所周知的稳定性和使用便捷性。但问题是,mac系统自带的项目管理工具并不是非常完美,因此…

Linux——进程信号详解

目录 一.进程信号的理解 1.1定义: 1.2举例: 1.3总结: 二.进程信号地使用: 2.1信号种类: 2.2而操作系统向进程发送信号地方式有四种: 2.2.1以键盘的方式向进程发送信号 接下来介绍一个系统调用函数sign…