CV计算机视觉每日开源代码Paper with code速览-2023.11.14

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】Aggregate, Decompose, and Fine-Tune: A Simple Yet Effective Factor-Tuning Method for Vision Transformer

  • 论文地址:https://arxiv.org//pdf/2311.06749

  • 开源代码(即将开源):https://github.com/Dongping-Chen/EFFT-EFfective-Factor-Tuning

2.【缺陷检测】Self-supervised Context Learning for Visual Inspection of Industrial Defects

  • 论文地址:https://arxiv.org//pdf/2311.06504

  • 开源代码(即将开源):https://github.com/wangpeng000/VisualInspection

3.【目标检测、分割】CD-COCO: A Versatile Complex Distorted COCO Database for Scene-Context-Aware Computer Vision

  • 论文地址:https://arxiv.org//pdf/2311.06976

  • 开源代码:https://github.com/Aymanbegh/CD-COCO

4.【视频分割】Sketch-based Video Object Segmentation: Benchmark and Analysis

  • 论文地址:https://arxiv.org//pdf/2311.07261

  • 开源代码(即将开源):https://github.com/YRlin-12/Sketch-VOS-datasets

5.【多模态】SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

  • 论文地址:https://arxiv.org//pdf/2311.07575

  • 开源代码:https://github.com/Alpha-VLLM/LLaMA2-Accessory

6.【多模态】To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

  • 论文地址:https://arxiv.org//pdf/2311.07574

  • 开源代码(即将开源):https://github.com/X2FD/LVIS-INSTRUCT4V

7.【多模态】GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

  • 论文地址:https://arxiv.org//pdf/2311.07562

  • 开源代码(即将开源):https://github.com/zzxslp/MM-Navigator

8.【多模态】GPT-4V(ision) as A Social Media Analysis Engine

  • 论文地址:https://arxiv.org//pdf/2311.07547

  • 开源代码(即将开源):https://github.com/VIStA-H/GPT-4V_Social_Media

9.【多模态】InfMLLM: A Unified Framework for Visual-Language Tasks

  • 论文地址:https://arxiv.org//pdf/2311.06791

  • 开源代码:https://github.com/mightyzau/InfMLLM

10.【多模态】Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

  • 论文地址:https://arxiv.org//pdf/2311.06783

  • 工程主页:Q-Instruct | [IQA, Low-level Vision, MLLM] Low-level visual instruction tuning, with a 200K dataset and a model zoo for fine-tuned checkpoints.

  • 开源代码:https://github.com/Q-Future/Q-Instruct/

11.【多模态】ChatAnything: Facetime Chat with LLM-Enhanced Personas

  • 论文地址:https://arxiv.org//pdf/2311.06772

  • 工程主页:ChatAnything

  • 开源代码:https://github.com/zhoudaquan/ChatAnything

12.【多模态】Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

  • 论文地址:https://arxiv.org//pdf/2311.06607

  • 开源代码(即将开源):https://github.com/Yuliang-Liu/Monkey

13.【多模态】An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

  • 论文地址:https://arxiv.org//pdf/2311.07397

  • 开源代码(即将开源):https://github.com/junyangwang0410/AMBER

14.【多模态】Volcano: Mitigating Multimodal Hallucination through Self-Feedback Guided Revision

  • 论文地址:https://arxiv.org//pdf/2311.07362

  • 开源代码(即将开源):https://github.com/kaistAI/Volcano

15.【多模态】ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models

  • 论文地址:https://arxiv.org//pdf/2311.07022

  • 工程主页:ViLMA - Video Language Model Assessment

  • 开源代码:https://github.com/ilkerkesen/ViLMA

16.【数字人】(WACV2024)CVTHead: One-shot Controllable Head Avatar with Vertex-feature Transformer

  • 论文地址:https://arxiv.org//pdf/2311.06443

  • 开源代码(即将开源):https://github.com/HowieMa/CVTHead

17.【深度估计】MonoDiffusion: Self-Supervised Monocular Depth Estimation Using Diffusion Model

  • 论文地址:https://arxiv.org//pdf/2311.07198

  • 开源代码(即将开源):https://github.com/ShuweiShao/MonoDiffusion

18.【深度估计】(ICCV2023)NDDepth: Normal-Distance Assisted Monocular Depth Estimation and Completion

  • 论文地址:https://arxiv.org//pdf/2311.07166

  • 开源代码(即将开源):https://github.com/ShuweiShao/NDDepth

19.【自动驾驶:BEV】Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection

  • 论文地址:https://arxiv.org//pdf/2311.07152

  • 开源代码:https://github.com/HuangJunJie2017/BEVDet

20.【自动驾驶:BEV】Deep Perspective Transformation Based Vehicle Localization on Bird's Eye View

  • 论文地址:https://arxiv.org//pdf/2311.06796

  • 开源代码(即将开源):https://github.com/IPM-HPC/Perspective-BEV-Transformer

21.【Diffusion】Sampler Scheduler for Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2311.06845

  • 开源代码:https://github.com/Carzit/sd-webui-samplers-scheduler

22.【NeRF】-Sampler: An Model Guided Volume Sampling for NeRF

  • 论文地址:https://arxiv.org//pdf/2311.07044

  • 工程主页:L0-Sampler: An L0 Model Guided Volume Sampling for NeRF

  • 开源代码:https://github.com/USTC3DV/L0-Sampler-code

23.【Visual Question Answering】Analyzing Modular Approaches for Visual Question Decomposition

  • 论文地址:https://arxiv.org//pdf/2311.06411

  • 开源代码:https://github.com/brown-palm/visual-question-decomposition

论文已打包,下载链接​​​​​​​

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

​​​​​​​CV计算机视觉每日开源代码Paper with code速览-2023.11.13

CV计算机视觉每日开源代码Paper with code速览-2023.11.10

CV计算机视觉每日开源代码Paper with code速览-2023.11.9

CV计算机视觉每日开源代码Paper with code速览-2023.11.8

CV计算机视觉每日开源代码Paper with code速览-2023.11.7

CV计算机视觉每日开源代码Paper with code速览-2023.11.6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/161273.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

场景交互与场景漫游-路径漫游(7)

路径漫游 按照指定的路径进行漫游对一个演示是非常重要的。在osgViewer中,当第一次按下小写字母“z”时,开始记录动画路径;待动画录制完毕,按下大写字母“Z”,保存动画路径文件;使用osgViewer读取该动画路径文件时,会回…

招聘小程序源码 人才招聘网源码

招聘小程序源码 人才招聘网源码 求职招聘小程序源码系统是一种基于微信小程序的招聘平台,它可以帮助企业和求职者快速、方便地进行招聘和求职操作。 该系统通常包括以下功能模块: 用户注册和登录:用户可以通过微信小程序注册和登录&#…

世微 降压恒流驱动IC 景观亮化洗墙灯舞台灯汽车灯LED照明 AP5199S

1. 特性 支持高辉调光,调光比 平均电流工作模式 高效率:最高可达 95% 输出电流可调范围 60mA~12A 最大工作频率 1MHz 恒流精度≤3% 支持 PWM 封装:SOP8 2. 应用领域 景观亮化洗墙灯 舞台调光效果灯 汽车照明 3. 说明 AP5199S…

安全框架springSecurity+Jwt+Vue-1(vue环境搭建、动态路由、动态标签页)

一、安装vue环境,并新建Vue项目 ①:安装node.js 官网(https://nodejs.org/zh-cn/) 2.安装完成之后检查下版本信息: ②:创建vue项目 1.接下来,我们安装vue的环境 # 安装淘宝npm npm install -g cnpm --registryhttps:/…

Mybatis学习笔记-映射文件,标签,插件

目录 概述 mybatis做了什么 原生JDBC存在什么问题 MyBatis组成部分 Mybatis工作原理 mybatis和hibernate区别 使用mybatis(springboot) mybatis核心-sql映射文件 基础标签说明 1.namespace,命名空间 2.select,insert&a…

TensorFlow:GPU的使用

**引言** TensorFlow 是一个由 Google 开发的开源机器学习框架,它提供了丰富的工具和库,支持开发者构建和训练各种深度学习模型。而 GPU 作为一种高性能并行计算设备,能够显著提升训练深度学习模型的速度,从而加快模型迭代和优化…

CorelDRAW2024最新版本的图形设计软件

CorelDRAW2024是Corel公司推出的最新版本的图形设计软件。CorelDRAW是一款功能强大的矢量图形编辑工具,被广泛用于图形设计、插图、页面布局、照片编辑和网页设计等领域。 1. 新增的设计工具:CorelDRAW 2024引入了一些全新的设计工具,使用户能…

Web(5)Burpsuite之文件上传漏洞

1.搭建网站:为网站设置没有用过的端口号 2.中国蚁剑软件的使用 通过一句话木马获得权限 3.形象的比喻(风筝) 4.实验操作 参考文章: 文件上传之黑名单绕过_文件上传黑名单绕过_pigzlfa的博客-CSDN博客 后端验证特性 与 Window…

再也不用担心忘记密码了!如何在Windows 10或11中重置被遗忘的密码

​如果你忘记了Windows电脑的密码,不要惊慌。Windows 10和Windows 11都允许你重置忘记的密码,无论你使用的是Microsoft帐户还是本地帐户。你所要做的就是回答你的安全问题以重置密码。另一种选择是创建一个密码重置盘,你可以在任何U盘上进行。 除了使用密码之外,你还应该启…

【MySQL】索引与事务

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《MySQL》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&a…

前端Vue拖拽功能

文章目录 安装使用 直接复制粘贴即可页面使用 直接复制粘贴即可小结(带有效果图) 安装 提示:首先您需要安装它,命令如下: npm install awe-dnd --save使用 直接复制粘贴即可 在mian.js文件中引入 //main.jsimport V…

【数据库】数据库连接池导致系统吞吐量上不去-复盘

在实际的开发中,我们会使用数据库连接池,但是如果不能很好的理解其中的含义,那么就可以出现生产事故。 HikariPool-1 - Connection is not available, request timed out after 30001ms.当系统的调用量上去,就出现大量这样的连接…

市级奖项+1,持安获「创业北京」创业创新大赛优秀奖!

2274个创业项目参赛 历经五个多月的激烈角逐 第六届“创业北京”创业创新大赛 终于圆满落下帷幕 持安科技在北京市总决赛中再创佳绩! 荣获制造业赛道优秀奖 本次大赛由北京市人力资源和社会保障局、北京市发展和改革委员会等11家单位联合主办,以“创…

代码示例:基于JAX-WS和JAXB,其中http请求和响应的报文体都是xml数据

说明 基于JAX-WS编写了RESTful的web服务端点。 http请求和响应的报文体都是xml数据,服务端分别对应了用JAXB注解的请求和响应类。 只实现了服务端的代码示例 客户端使用了Postman 示例 要实现的目标:http请求和响应报文体的xml数据 http请求报文体的…

c语言免杀火绒

文章目录 前记c加载器补充知识 前记 pyinstaller pyinstaller目前已经被杀疯了,简单打包一个hello a"hello" print(a)#pyinstaller -F -w b.py -n HipsMain.exe考虑Nuitka pip uninstall nuitka pip install nuitka pip install nuitka1.8.5 这里最新…

【2】SM2验签工具和RSA验签工具

0X01 前言 最近看了好多验签工具,感觉不是很好用,就自己造了个。 0x02 工具功能介绍 对SM2算法进行验签和RSA算分进行验签,签名值可以是base64,也可以是十六进制。 兼容各种输入。 0x03 工具使用 RSA 验签 SM2 验签 0x04 工具…

架构师篇 DDD领域驱动设计篇

一 DDD领域驱动设计 1.1 领域驱动设计 领域驱动设计(英文:Domain-Driven Design,缩写DDD)是一种模型驱动设计的方法,领域驱动设计常以战略设计与战术设计来将整个领域展现的淋漓尽致,其作用范围既面向业务也面向技术。从战略角度…

『GitHub项目圈选02』一款可实现视频自动翻译配音为其他语言的开源项目

🔥🔥🔥本周GitHub项目圈选****: 主要包含视频翻译、正则填字游戏、敏感词检测、聊天机器人框架、AI 换脸、分布式数据集成平台等热点项目。 1、pyvideotrans pyvideotrans 是一个视频翻译工具,可将一种语言的视频翻译为另一种语…

完整版解答!2023年数维杯国际大学生数学建模挑战赛B题

B题完整版全部5问,问题解答、代码,完整论文、模型的建立和求解、各种图表代码已更新! 大家好,目前已完成2023数维杯国际赛B题全部5问的代码和完整论文已更新,部分展示如下: 部分解答图表 问题分析 B题前三…

打不开github网页解决方法

问题: 1、composer更新包总是失败 2、github打不开,访问不了 解决方法:下载一个Watt Toolkit工具,勾选上,一键加速就可以打开了。 下载步骤: 1、打开网址: Watt Toolkit 2、点击【下载wind…