每日学术速递5.26

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields

标题:Text2NeRF:具有神经辐射场的文本驱动 3D 场景生成

作者:Jingbo Zhang, Xiaoyu Li, Ziyu Wan, Can Wang, Jing Liao

文章链接:https://arxiv.org/abs/2305.11588

项目代码:https://eckertzhang.github.io/Text2NeRF.github.io/

摘要:

        文本驱动的 3D 场景生成广泛适用于对 3D 场景有大量需求的视频游戏、电影行业和元宇宙应用。然而,现有的文本到 3D 生成方法仅限于生成具有简单几何形状和缺乏真实感的梦幻风格的 3D 对象。在这项工作中,我们展示了 Text2NeRF,它能够纯粹从文本提示生成具有复杂几何结构和高保真纹理的各种 3D 场景。为此,我们采用 NeRF 作为 3D 表示,并利用预训练的文本到图像扩散模型来约束 NeRF 的 3D 重建以反映场景描述。具体来说,我们采用扩散模型将与文本相关的图像推断为先验内容,并使用单目深度估计方法提供几何先验。内容和几何先验都用于更新 NeRF 模型。为了保证不同视图之间的纹理和几何一致性,我们引入了一种渐进式场景修复和更新策略,用于场景的新视图合成。我们的方法不需要额外的训练数据,只需要场景的自然语言描述作为输入。大量实验表明,我们的 Text2NeRF 在根据各种自然语言提示生成逼真、多视图一致和多样化的 3D 场景方面优于现有方法。

2.Segment Any Anomaly without Training via Hybrid Prompt Regularization

标题:通过混合提示正则化无需训练即可分割任何异常

作者:Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Zongwei Du, Liang Gao, Weiming Shen

文章链接:https://arxiv.org/abs/2305.10724

项目代码:https://github.com/caoyunkang/Segment-Any-Anomaly

摘要:

        我们提出了一个新的框架,即 Segment Any Anomaly + (SAA+),用于零样本异常分割和混合提示正则化,以提高现代基础模型的适应性。现有的异常分割模型通常依赖于特定领域的微调,限制了它们在无数异常模式中的泛化。在这项工作中,受到 Segment Anything 等基础模型强大的零样本泛化能力的启发,我们首先探索它们的组装,以利用各种多模态先验知识进行异常定位。对于非参数基础模型适应异常分割,我们进一步引入从领域专家知识和目标图像上下文派生的混合提示作为正则化。我们提出的 SAA+ 模型在零样本设置中在多个异常分割基准(包括 VisA、MVTec-AD、MTD 和 KSDD2)上实现了最先进的性能。

3.VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks

标题:VisionLLM:大型语言模型也是用于以视觉为中心的任务的开放式解码器

作者:Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai

文章链接:https://arxiv.org/abs/2305.11175

项目代码:https://github.com/OpenGVLab/VisionLLM

摘要:

        大型语言模型 (LLM) 显着加快了通用人工智能 (AGI) 的进展,其针对用户定制任务的零样本能力令人印象深刻,赋予它们在一系列应用程序中的巨大潜力。然而,在计算机视觉领域,尽管有众多强大的视觉基础模型(VFM)可用,但它们仍然局限于预定义形式的任务,难以匹配 LLM 的开放式任务能力。在这项工作中,我们为以视觉为中心的任务提出了一个基于 LLM 的框架,称为 VisionLLM。该框架通过将图像视为外语并将以视觉为中心的任务与可以使用语言指令灵活定义和管理的语言任务对齐,为视觉和语言任务提供了统一的视角。然后,基于 LLM 的解码器可以根据这些指令为开放式任务做出适当的预测。大量实验表明,所提出的 VisionLLM 可以通过语言指令实现不同级别的任务定制,从细粒度的对象级到粗粒度的任务级定制,都取得了良好的效果。值得注意的是,使用基于通用 LLM 的框架,我们的模型可以在 COCO 上实现超过 60% 的 mAP,与检测特定模型相当。我们希望这个模型可以为通用视觉和语言模型设置一个新的基线。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/26037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python程序设计基础:标识符、变量与赋值、输入输出

文章目录 一、标识符二、变量与赋值三、输入输出 一、标识符 Python对每个标识符的命名存在要求: 1、每个标识符必须以字母或下划线“_”开头,后跟字母、数字或下划线的任意序列。根据这个规则,以下都是Python中的合法名称:a&…

史上最全测试开发工具推荐(含自动化、性能、稳定性、抓包)

目录 一、UI自动化测试工具 1. uiautomator2 2. Appium 3. ATX-Test 4. Airtest 5. ATXServer2 6. STF 7. Appetizer 二、APP稳定性测试工具 8. UICrawler 9. Maxim 10. AppCrawler 三、APP性能测试工具 11. SoloPi 12. GT 四、抓包工具 13. AnyProxy 14. mi…

【滤波】设计卡尔曼滤波器

本文主要翻译自rlabbe/Kalman-and-Bayesian-Filters-in-Python的第8章节08-Designing-Kalman-Filters(设计卡尔曼滤波器)。 %matplotlib inline#format the book import book_format book_format.set_style()简介 在上一章节中,我们讨论了教…

【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)

ChatGLM-6B模型结构代码解析(单机版) ​ 本文介绍ChatGLM-6B的模型结构,代码来自https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py。 相关博客 【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版) 【自然语言处理】【大模型】BL…

枚举_源码_分析

枚举源码分析 前言 这是所有Java语言枚举类型的公共基类。关于枚举的更多信息,包括编译器合成的隐式声明方法的描述,可以在Java的第8.9节中找到™ 语言规范。 请注意,当使用枚举类型作为集合的类型或映射中键的类型时,可以使用专…

斩获阿里offer,这份258页面试宝典也太顶了....

测试三年有余,很多新学到的技术不能再项目中得到实践,同时薪资的涨幅很低,于是萌生了跳槽大厂的想法 但大厂不是那么容易进的,前面惨败字节,为此我辛苦准备了两个月,又从小公司开始面试了半个月有余&#…

最系统的网络安全自学笔记+学习路线(超详细)

01 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面…

虚拟机类加载机制

目录 1、概述 2、类加载的过程 1、过程总览 2、加载 3、链接-验证 4、链接-准备 5、链接-解析 6、初始化 7、总结 3、类加载的时机 4、类加载器 1、概述 2、类与类加载器 3、三层类加载器 4、双亲委派模型 5、其他加载策略 1、概述 一个Java类会被编译成一个Cl…

游戏封包加密方案解析

当下游戏市场已全面回暖,暑期档临近更将迎来大量新游上线,如此关键节点,游戏厂商应当更加注重游戏安全。 FairGuard发现近期游戏黑灰产攻击角度愈发刁钻,除了常见的内存修改外挂、注入挂,针对游戏封包破解的「脱机挂」…

chatgpt赋能python:Python图片处理教程

Python 图片处理教程 Python 是一种功能强大的编程语言,广泛应用于大量不同的行业和领域。其中之一是图像处理和分析。Python 提供了一个庞大的图像库,其拥有大量的工具和函数。Python 图像库具有高度的可扩展性,可以很容易地将其与其他库集…

Async 使用详解

Spring Boot异步调用Async 在实际开发中,有时候为了及时处理请求和进行响应,我们可能会多任务同时执行,或者先处理主任务,也就是异步调用,异步调用的实现有很多,例如多线程、定时任务、消息队列等&#xf…

【大数据分析】Hbase的基本原理

目录 Hbase 架构ClientZooKeeperMasterRegionServerHRegionStoreMemStoreStoreFileHFileHLog Hbase数据模型关于数据模型的其他概念Name SpaceTableRowColumnTime StampCell Hbase 架构 Client (1).META.表,记录了用户所有表拆分出来的 Regi…

Redis数据类型之(哈希Hash和集合Set)

Redis数据类型之(哈希Hash和集合Set) 一定注意看红色注意项。 哈希(Hash): Redis hash 是一个 string 类型的 field(字段) 和 value(值) 的映射表,hash 特别适合用于存…

龙芯2K1000实战开发-USB/PCIe/HDMI外设开发

文章目录 概要整体架构流程技术名词解释技术细节小结概要 提示:这里可以添加技术概要 本文主要针对2k1000的PCIE和USB外设的国产化设计 整体架构流程 提示:这里可以添加技术整体架构 使用2k1000自带的以太网pcie控制器,USB控制器。 考虑到龙芯没有HDMI接口,选用龙讯半…

springboot启动过程原理分析

前言 现在绝大多数java项目都上了Springboot框架, 因此深入理解Springboot框架的运行原理,能帮助我们更好的在Springboot框架下进行业务开发,同时能学习框架中优秀的设计思想, 本文主要是通过对Springboot源码的分析, 来理解整个springboot项目的启动流程. 因为Springboot不同…

AdaIN

AdaIN的全名是Adaptive Instance Normalization,源自风格迁移的论文Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization 假设原图和风格图经过VGG进行特征提取后得到shape分别为CxHxW和CxH‘xW’的特征图c和s,AdaIN的计算如…

JDBC查询数据库——普通、流式、游标

问题 通过JDBC对MySQL进行数据查询时,有个很容易踩的坑,以下面代码为例: public static void selectNormal() throws SQLException{Connection connection DriverManager.getConnection("jdbc:mysql://localhost:3306/test", &qu…

被迫在小公司熬了2年,现在我终于进了腾讯测试岗...

其实两年前校招的时候就往腾讯投了一次简历,结果很明显凉了,随后这个理想就被暂时放下了,但是这个种子一直埋在心里,想着总有一天会再次挑战的。 其实这两年除了工作以外,其余时间基本上都在学习,打磨自己…

Burp模块

Target模块 记录流量 1.Target按主机或域名分类记录 2.HTTP History 按时间顺序记录且会记录很多次 3.Target模块的作用 (1)把握网站的整体情况 (2)对一次工作的域进行分析 (3)分析网站存在的攻击面 …

从C语言到C++_14(vector的常用函数+相关选择题和OJ题)

目录 1. vector的常用函数 1.1 vector 的介绍 1.2 vector 的初始化 1.3 vector 的操作和遍历 1.4 vector 的容量和增删查改 2. vector 相关笔试题 3. vector 相关OJ题 136. 只出现一次的数字 - 力扣(LeetCode) 解析代码: 118. 杨辉…