任你五花八门预训练方法,我自监督学习依然能打!

长时间没看论文,外面已经发展成这样了?

以下都是新paper,挑了几个感兴趣的,一起粗略看看吧~

Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

在这里插入图片描述

GitHub | https://github.com/hsouri/Battle-of-the-Backbones

arXiv | https://arxiv.org/abs/2310.19909

基于神经网络的计算机视觉框架通常主要由骨干(Backbones)构成,即一个经过预训练或随机初始化的特征提取器。几年前,首选项基本是在ImageNet上训练的卷积神经网络

然而,最近出现了很多采用各种算法和数据集进行预训练的骨干网络。虽然这些操作提高了部分网络的性能,但对于从业者来说,很难做出关于选择哪个骨干的决定

Battle of the Backbones (BoB) 通过对一系列经过预训练的模型进行基准测试,包括视觉语言模型、通过自监督学习训练的模型以及Stable Diffusion骨干,在从分类到目标检测再到OOD泛化等多样的计算机视觉任务中,使这个选择变得更加容易

此外,通过对1500多次训练的全面分析,揭示了现有方法的优势和劣势,为学界指明了推进计算机视觉的有希望的方向

虽然vision transformers(ViTs)和自监督学习(SSL)越来越受欢迎,但他们发现在大型训练集上以监督方式预训练的卷积神经网络在大多数任务中仍然表现最佳

此外,在相同架构和相似大小的预训练数据集上的同类比较中,作者发现自监督学习的Backbone仍然具有很强的竞争力,这表明未来的研究应该使用先进的架构和更大的预训练数据集进行自监督学习预训练

MM-VID: Advancing Video Understanding with GPT-4V(ision)

在这里插入图片描述

arXiv | https://arxiv.org/abs/2310.19773

MM-VID充分发挥了GPT-4V的能力,并结合了在视觉、音频和语音领域的专业工具,以促进对视频的高级理解

旨在解决长视频和复杂任务(如对长达一小时的内容进行推理以及理解跨多个剧集的情节)带来的挑战。利用GPT-4V进行视频到脚本的生成,将多模态元素转录成一个长文本脚本

生成的脚本详细描述了角色的移动、动作、表情和对话,为大型语言模型(LLMs)实现视频理解提供了数据。使得音频描述、角色识别和多模态高级理解成为可能

实验结果展示了处理不同视频流派和各种视频长度方面的有效性。此外,还展示了在交互环境中应用MM-VID的潜力,例如视频游戏和图形用户界面

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing

在这里插入图片描述

GitHub | https://github.com/LLaVA-VL/LLaVA-Interactive-Demo

arXiv | https://arxiv.org/abs/2311.00571

LLaVA-Interactive是一个用于多模态人机交互的研究原型。该系统能够通过获取多模态用户输入并生成多模态响应,与用户进行多轮对话

值得注意的是,LLaVA-Interactive不仅限于语言提示,还支持视觉提示,以对齐交互中人类的意图。该系统结合了LLaVA的视觉聊天、SEEM的图像分割以及GLIGEN的图像生成和编辑等三种预建AI模型的多模态技能,无需额外的模型训练

为了展示LLaVA-Interactive的潜力并激发未来多模式交互系统的研究,论文中演示了多种应用场景

ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

在这里插入图片描述

GitHub | http://kylesargent.github.io/zeronvs/

arXiv | https://arxiv.org/abs/2310.17994

飞飞团队~,这篇论文介绍了一种3D感知扩散模型,ZeroNVS,用于野外场景的单图像新视角合成。虽然现有方法用于带有遮罩背景的单个对象,但本文提出了新的技术来解决野外多对象场景和复杂背景引入的挑战

具体而言,在捕获以对象为中心的室内和室外场景的混合数据源上训练生成先验。为了解决由深度尺度模糊等数据混合引入的问题,提出了一种新颖的相机调节参数化和归一化方案

此外,观察到在对360°场景进行蒸馏期间,Score Distillation Sampling(SDS)往往会截断复杂背景的分布,因此提出了SDS anchoring以提高合成新视角的多样性

zero-shot settin下,提出的模型在DTU数据集上在LPIPS方面取得了新的最先进结果,甚至超过了专门在DTU上训练的方法

他们进一步将具有挑战性的Mip-NeRF 360数据集作为单图像新视角合成的新baseline,并在这一设置中展示了强大的性能

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

arXiv | https://arxiv.org/abs/2310.19512

视频生成在学术界和工业界越来越受到关注。尽管商业工具可以生成合理的视频,但对于研究人员和工程师来说,可用的开源模型数量有限。在这项工作中,作者介绍了两个用于高质量视频生成的扩散模型,即文本到视频(T2V)模型和图像到视频(I2V)模型

T2V模型根据给定的文本输入合成视频,而I2V模型则包含额外的图像输入。所提出的T2V模型可以生成分辨率为1024*576的电影画质视频,其在质量方面优于其他开源T2V模型。I2V模型旨在生成严格遵循所提供参考图像内容的视频,保持其内容、结构和风格的完整性

该模型是第一个能够将给定图像转换为视频剪辑并保持内容约束的开源I2V基础模型。作者相信这些开源视频生成模型将为社区内的技术进步做出重要贡献

以上就是本期全部内容,期待点赞在看,我是啥都生,下次再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/161733.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux基本指令总结--文件和目录

前言: 想要学好Linux操作系统,理解并熟悉一些基本的指令是必要的,下面我将整理出关于文件和目录操作的一些基本指令和用法,我的linux环境部署在服务器端,使用xshell软件进行远程操作。 本章指令整合: ls查…

十个一手app拉新地推拉新推广接单平台,放单/接任务渠道

做过地推拉新的朋友一定都非常清楚,app拉新推广一手接单平台,和非一手接任务平台之间的收益差,可以用天壤之别来形容。那么一手app拉新渠道应该怎么找?下面这十个常见的地推拉新app接单平台,一定要收藏。 1. 聚量推客…

学习c#的第十四天

目录 C# 接口(Interface) 接口的特点 定义接口 接口继承 接口和抽象类的区别 C# 命名空间(Namespace) using 关键字 定义命名空间 嵌套命名空间 C# 接口(Interface) 接口定义了所有类继承接口时应…

036、目标检测-锚框

之——对边缘框的简化 目录 之——对边缘框的简化 杂谈 正文 1.锚框操作 2.IoU交并比 3.锚框标号 4.非极大值抑制 5.实现 拓展 杂谈 边缘框这样一个指定roi区域的操作对卷积神经网络实际上是很不友好的,这可能会对网络感受野提出一些特定的要求&#xff0…

HUAWEI华为笔记本MateBook X 2021款i5集显(EULD-WFH9,WXX9)原装出厂Windows11系统工厂模式包

下载链接:https://pan.baidu.com/s/1gQ_O203SSm83Nc-zDk1iNA?pwd4exz 提取码:4exz 系统带F10一键智能还原功能隐藏恢复分区、所有驱动、Office办公软件、华为电脑管家等预装程序 所需要工具:32G或以上的U盘 文件格式:zip …

智慧工地APP全套源码,智慧工地云平台

智慧工地平台 ,智慧工地源码,智慧工地APP全套源码 智慧工地以施工现场风险预知和联动预控为目标,将智能AI、传感技术、人像识别、监控、虚拟现实、物联网、5G、大数据、互联网等新一代科技信息技术植入到建筑、机械、人员穿戴设施、场地进出关…

Linux下查看pytorch运行时真正调用的cuda版本

一般情况我们会安装使用多个cuda版本。而且pytorch在安装时也会自动安装一个对应的版本。 正确查看方式: 想要查看 Pytorch 实际使用的运行时的 cuda 目录,可以直接输出 cpp_extension.py 中的 CUDA_HOME 变量。 import torch import torch.utils imp…

Nginx反向代理和负载均衡

1.反向代理 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一…

springboot+vue+element简单实现教学课程申报管理系统

目录 一、项目预览 二、项目效果图及说明 1.项目说明 1.登录 2.欢迎页 3.教师管理 4.课程申报 ​5.管理员管理 三、代码实现 1.后端项目结构图 2.数据库表脚本 3.路由配置 四、总结 一、项目预览 在线预览:点击访问其他项目访问:点击访问后端实…

Java学习之路 —— Java高级

文章目录 前言1. 单元测试2. 反射2.1 获取Class对象的三种方式2.2 获取类的构造器的方法2.3 获取类的成员变量2.4 获取类的成员方法2.5 反射的作用 3. 注解3.1 自定义注解3.2 注解的原理3.3 元注解3.4 注解的解析 4. 动态代理5. 总结 前言 终于走到新手村的末端了,…

青少年CTF-WEB-Flag在哪里?

题目环境:F12查看源代码得到flag:qsnctf{1167716c-54f0-47da-baed-49e3b08dfaeb} 此题主要考察F12查看源代码的使用

java.net.UnknownHostException: eureka

java.net.UnknownHostException: eureka 哦。HOST漏了 #linux /etc/hosts #windows C:\Windows\System32\drivers\etc\hosts 127.0.0.1 eureka7000 127.0.0.1 eureka7001 127.0.0.1 eureka7002

MATLAB画图分辨率、图像大小研究

MATLAB画图分辨率、图像大小研究 Figure属性中 InnerPosition Position OuterPosition区别画图与打印的分辨率和图像大小研究首先明确两个概念:MATLAB实操画图 Figure属性中 InnerPosition Position OuterPosition区别 在画图的时候,我们经常需要设置Fi…

Leetcode—142.环形链表II【中等】

2023每日刷题(三十三) Leetcode—142.环形链表II 实现代码 /*** Definition for singly-linked list.* struct ListNode {* int val;* struct ListNode *next;* };*/ struct ListNode *detectCycle(struct ListNode *head) {struct ListNode* …

python中sklearn库在数据预处理中的详细用法,及5个常用的Scikit-learn(通常简称为 sklearn)程序代码示例

文章目录 前言1. 数据清洗:使用 sklearn.preprocessing 中的 StandardScaler 和 MinMaxScaler 进行数据规范化。2. 缺失值处理:使用 sklearn.impute 中的 SimpleImputer 来填充缺失值。3. 数据编码:使用 sklearn.preprocessing 中的 OneHotEn…

【左程云算法全讲13】暴力递归

系列综述: 💞目的:本系列是个人整理为了秋招面试的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于左程云算法课程进行的,每个知识点的修正和深入主要参考…

Springboot集成JDBC

1&#xff0c;pom.xml配置jar包 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-jdbc</artifactId> </dependency> 2&#xff0c;配置数据源信息 server:port: 8088spring:datasource:dr…

AI智剪:批量剪辑实战,技巧与实例

随着人工智能技术的不断发展&#xff0c;越来越多的领域开始应用AI技术提升工作效率和质量。其中&#xff0c;AI智剪技术在视频剪辑领域的应用也越来越广泛。AI智剪是一种基于人工智能技术的视频剪辑方法&#xff0c;通过机器学习算法对视频进行自动分析和处理&#xff0c;实现…

AIGC创作系统ChatGPT源码,AI绘画源码,支持最新GPT-4-Turbo模型,支持DALL-E3文生图

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统&#xff0c;支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美&#xff0c;可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…