CV计算机视觉每日开源代码Paper with code速览-2023.11.7

精华置顶

墙裂推荐!小白如何1个月系统学习CV核心知识:链接

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构】Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination

  • 论文地址:https://arxiv.org//pdf/2311.02960

  • 开源代码(即将开源):GitHub - Heimine/PNC_DLN

2.【图像分类】(ICLR2023)Cross-Level Distillation and Feature Denoising for Cross-Domain Few-Shot Classification

  • 论文地址:https://arxiv.org//pdf/2311.02392

  • 开源代码:GitHub - jarucezh/cldfd: Code implementation of ICLR paper entitled "Cross-Level Distillation and Feature Denoising for Cross-Domain Few-Shot Classification"

3.【开放世界目标检测】Proposal-Level Unsupervised Domain Adaptation for Open World Unbiased Detector

  • 论文地址:https://arxiv.org//pdf/2311.02342

  • 开源代码:https://github.com/lxycopper/PLU

4.【异常检测】Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V) Takes the Lead

  • 论文地址:https://arxiv.org//pdf/2311.02782

  • 开源代码(即将开源):https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

5.【异常检测】Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection

  • 论文地址:https://arxiv.org//pdf/2311.02612

  • 开源代码(即将开源):https://github.com/zhangzjn/GPT-4V-AD

6.【图像分割】Rethinking Evaluation Metrics of Open-Vocabulary Segmentaion

  • 论文地址:https://arxiv.org//pdf/2311.03352

  • 开源代码:https://github.com/qqlu/Entity/tree/main

7.【实例分割】ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation and Re-Identification

  • 论文地址:https://arxiv.org//pdf/2311.02734

  • 工程主页:ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation and Re-Identification

  • 开源代码:GitHub - nicogorlo/isar: Open-Vocabulary *I*nstance *S*egmentation *a*nd *R*e-identification

8.【人脸识别】(NeurIPS2023)UniTSFace: Unified Threshold Integrated Sample-to-Sample Loss for Face Recognition

  • 论文地址:https://arxiv.org//pdf/2311.02523

  • 开源代码:GitHub - CVI-SZU/UniTSFace

9.【人脸识别】Towards Machine Unlearning Benchmarks: Forgetting the Personal Identities in Facial Recognition Systems

  • 论文地址:https://arxiv.org//pdf/2311.02240

  • 开源代码:https://github.com/ndb796/MachineUnlearning

10.【医学图像分割】(NeurIPS2023)Uncertainty Estimation for Safety-critical Scene Segmentation via Fine-grained Reward Maximization

  • 论文地址:https://arxiv.org//pdf/2311.02719

  • 开源代码:https://github.com/med-air/FGRM

11.【医学图像分割】SSL-DG: Rethinking and Fusing Semi-supervised Learning and Domain Generalization in Medical Image Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.02583

  • 开源代码:https://github.com/yezanting/SSL-DG

12.【图像增强】Zero-Shot Enhancement of Low-Light Image Based on Retinex Decomposition

  • 论文地址:https://arxiv.org//pdf/2311.02995

  • 开源代码(即将开源):GitHub - liwenchao0615/ZERRINNet: Low light image enhancement

13.【动作识别】(ACM MM 2023)Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding

  • 论文地址:https://arxiv.org//pdf/2311.03106

  • 开源代码:GitHub - HuiGuanLab/UmURL: This is a repository contains the implementation of our ACM MM 2023 paper Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding.

14.【领域泛化】Robust Fine-Tuning of Vision-Language Models for Domain Generalization

  • 论文地址:https://arxiv.org//pdf/2311.02236

  • 开源代码:GitHub - mit-ll/robust-vision-language-finetuning: This repository contains code for the IEEE 2023 paper Robust Fine-Tuning of Vision-Language Models for Domain Generalization, by Kevin Vogt-Lowell, Noah Lee, Theodoros Tsiligkaridis, and Marc Vaillant.

15.【多模态】GLaMM: Pixel Grounding Large Multimodal Model

  • 论文地址:https://arxiv.org//pdf/2311.03356

  • 工程主页:GLaMM

  • 开源代码(即将开源):GitHub - mbzuai-oryx/groundingLMM: Grounding Large Multimodal Model (GLaMM), the first-of-its-kind model capable of generating natural language responses that are seamlessly integrated with object segmentation masks.

16.【多模态】SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis

  • 论文地址:https://arxiv.org//pdf/2311.03355

  • 工程主页:SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis

  • 开源代码(即将开源):GitHub - prismformore/seggen: SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis. https://seggenerator.github.io/

17.【多模态】CogVLM: Visual Expert for Pretrained Language Models

  • 论文地址:https://arxiv.org//pdf/2311.03079

  • 开源代码:https://github.com/THUDM/CogVLM

18.【多模态】AnyText: Multilingual Visual Text Generation And Editing

  • 论文地址:https://arxiv.org//pdf/2311.03054

  • 开源代码(即将开源):https://github.com/tyxsspa/AnyText

19.【多模态】ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models

  • 论文地址:https://arxiv.org//pdf/2311.02692

  • 工程主页:LAMM

  • 开源代码:GitHub - OpenGVLab/LAMM: [NeurIPS 2023 Datasets and Benchmarks Track] LAMM: Multi-Modal Large Language Models and Applications as AI Agents

20.【多模态】(WACV2024)Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models

  • 论文地址:https://arxiv.org//pdf/2311.02536

  • 开源代码:https://github.com/amzn/augment-the-pairs-wacv2024

21.【多模态】PILL: Plug Into LLM with Adapter Expert and Attention Gate

  • 论文地址:https://arxiv.org//pdf/2311.02126

  • 开源代码:GitHub - DsaltYfish/PILL

22.【深度估计】(WACV2024)Continual Learning of Unsupervised Monocular Depth from Videos

  • 论文地址:https://arxiv.org//pdf/2311.02393

  • 开源代码(即将开源):GitHub - NeurAI-Lab/CUDE-MonoDepthCL: Code for WACV'24 paper Continual Learning of Unsupervised Monocular Depth from Videos

23.【自动驾驶】MapSeg: Segmentation guided structured model for online HD map construction

  • 论文地址:https://arxiv.org//pdf/2311.02503

  • 开源代码:https://github.com/FlyEgle/CVPR_hdmap

24.【轨迹预测】JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds

  • 论文地址:https://arxiv.org//pdf/2311.02736

  • 开源代码(即将开源):GitHub - vita-epfl/JRDB-Traj: JRDB dataset: trajectory prediction baselines and data preprocessing

25.【人体姿态估计】(NeurIPS2023)A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation

  • 论文地址:https://arxiv.org//pdf/2311.03312

  • 工程主页:A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation

  • 开源代码:https://github.com/QitaoZhao/ContextAware-PoseFormer

26.【人体姿态估计】(ICCV Workshop 2023)Efficient, Self-Supervised Human Pose Estimation with Inductive Prior Tuning

  • 论文地址:https://arxiv.org//pdf/2311.02815

  • 开源代码:GitHub - princetonvisualai/hpe-inductive-prior-tuning

27.【NeRF】Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

  • 论文地址:https://arxiv.org//pdf/2311.02848

  • 工程主页:Project Page

  • 开源代码(即将开源):GitHub - yanqinJiang/Consistent4D: Official Implementation of Consistent4D: Consistent 360° Dynamic Object Generation from Monocular Video

28.【NeRF】VR-NeRF: High-Fidelity Virtualized Walkable Spaces

  • 论文地址:https://arxiv.org//pdf/2311.02542

  • 工程主页:VR-NeRF: High-Fidelity Virtualized Walkable Spaces

29.【人体重建】Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images

  • 论文地址:https://arxiv.org//pdf/2311.02892

  • 开源代码(即将开源):GitHub - yztang4/HaP

 论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.11.6

CV计算机视觉每日开源代码Paper with code速览-2023.11.3

CV计算机视觉每日开源代码Paper with code速览-2023.11.2

CV计算机视觉每日开源代码Paper with code速览-2023.11.1

CV计算机视觉每日开源代码Paper with code速览-2023.10.31

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/128276.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

护眼台灯横评|书客、明基、松下品牌大测评告诉你谁才是最亮的星!

护眼台灯哪个牌子好?随着护眼台灯普及率的日渐提高,护眼台灯市场也是十分火爆,但很多商家为了盈利,总是把重心放在宣传和营销手段上,从而导致护眼台灯的产品质量不过关,在使用过后不仅没有起到缓解眼睛疲劳…

k8s、数据存储

数据存储的概念 容器磁盘上的文件的生命周期是短暂的,这就使得在容器中运行重要应用时会出现一些问题。首先,当容器崩溃时,kubelet 会重启它,但是容器中的文件将丢失——容器以干净的状态(镜像最初的状态)…

易货:一种绿色、高效的商业模式

随着社会经济的发展和人民生活水平的提高,人们手中闲置的物品越来越多,如何将这些物品盘活,成为了一个亟待解决的问题。易货商业模式应运而生,它不仅可以将闲置物品变成财富,还可以为企业和个人带来更多的商机和资源。…

屏幕提词软件Presentation Prompter mac中文版使用方法

Presentation Prompter for mac是一款屏幕提词器软件,它可以将您的Mac电脑快速变成提词器,支持编写或导入,可以在一个或多个屏幕上平滑地滚动,Presentation Prompter 下载是为适用于现场表演者,新闻广播员,…

msvcp140_CODECVT_IDS.dll丢失怎么办?msvcp140_CODECVT_IDS.dll丢失5个解决办法详解

首先,我要讲述一下我是如何遇到这个问题的。那时候,我正在打开一个电脑的应用程序,使用软件(ps)进行编程。在打开软件时候,突然发现程序无法正常启动,弹出了一个错误提示框,显示msvc…

软件测试|MySQL BETWEEN AND:范围查询详解

简介 在MySQL数据库中,使用BETWEEN AND操作符可以进行范围查询,即根据某个字段的值在指定范围内进行检索数据。这个操作符非常有用,因为它可以让我们轻松地筛选出位于两个特定值之间的数据,而不需要使用复杂的条件语句。 BETWEE…

云表|低代码开发是否真的靠谱?一试便知

最近,“低代码”这个概念在技术圈里火了起来,引发了广泛的讨论。一些人对其赞不绝口,认为它具有诸多优点,如减少开发周期,提高系统开发效率,降低开发成本,学习成本低等。他们甚至预测&#xff0…

Libra R-CNN: Towards Balanced Learning for Object Detection(2019.4)

文章目录 AbstractIntroduction引入问题1) Sample level imbalance2) Feature level imbalance3) Objective level imbalance进行解决贡献 Related Work(他人的work,捎带与我们的对比)Model architectures for object detection&a…

基于SSM的学生二手书籍交易平台的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

Nmap-NSE

一.Nmap的脚本引擎类别 参数说明ALL允许所有的脚本Auth认证Default默认的脚本引擎,-sC:equivalent to --script default 或 --script default ,执行一些脚本的脚本扫描Discovery发现,获取目标的深度信息External扩展&#xff0c…

说说你在使用React 过程中遇到的常见问题?如何解决?

一、前言 在使用react开发项目过程中,每个人或多或少都会遇到一些"奇怪"的问题,本质上都是我们对其理解的不够透彻 react 系列,33个工作日,33次凌晨还在亮起的台灯,到今天就圆满画上句号了,比心…

OpenAI开发者大会大模型圈开卷AI Agent? 实在智能布局前瞻已下“先手棋”

“平地起惊雷,至今有余音。” 去年的11月,OpenAI发布ChatGPT给科技圈劈下了一道惊雷,引爆了全世界的AI大模型热潮,全球科技巨头公司争先恐后地推出通用大模型,探索产业应用的可能。 短短一年后,北京时间1…

docker可视化

什么是portainer? portainer就是docker图形化界面的管理工具,提供一个后台面板供我们操作 目前先用portainer(先用这个),以后还会用到Rancher(CI/CD在用) 1.下载portainer 9000是内网端口,8088是外网访问端口 docker run…

C#时间类的使用方法

在C#编程中,日期和时间的处理是常见的任务之一。C#提供了多个类来处理日期、时间和时区的操作,包括DateTime、TimeSpan和DateTimeOffset。 目录 1. DateTime类1.1 创建DateTime对象1.2 获取日期和时间信息1.3 格式化日期和时间1.4 比较日期和时间 2. Tim…

中国集成电路设计业2023年会演讲预告 | 龙智Perforce专家解析半导体设计中的数字资产管理

2023年11月10-11日(周五-周六),龙智即将亮相于广州举行的中国集成电路设计业2023年会(ICCAD 2023),呈现集成了Perforce与Atlassian产品的芯片开发解决方案,帮助企业实现数智化转型,革…

Vue3 + Naive-ui Data Table 分页页码显示不全

当使用naive-ui 表格并且使用分页组件的时候 需要增加 remote

包教包会:Mysql主从复制搭建

笑小枫的专属目录 一、无聊的理论知识1. 主从复制原理2. 主从复制的工作过程3. MySQL四种同步方式 二、docker下安装、启动mysql1. 安装主库2. 安装从库 三、配置Master(主)四、配置Slave(从)五、链接Master(主)和Slave(从)六、主从复制排错1. 错误:error connectin…

软文推广优化技巧:如何写出有创意的文案

今天媒介盒子要给大家分享的干货内容就是:如何写出有创意的文案。 时代背景会改变,大众的趣味焦点也会转移,同样再好的文案也会失效,但文案背后的触发机制不会变。下面是能够使广告文案起作用的关键因素: 一、 研究产…

【Android】TabLayout设置使用自定义的样式的图片显示问题

序言 TabLayout我们经常使用,用来和ViewPager2进行组合使用,做多Fragment切换页面效果。 TabLayout我们经常看到的的显示效果是上面文字,下面一个线段,在各大浏览器/新闻类APP可以看到,这个效果也是对TabLayout配置参…