【AI视野·今日CV 计算机视觉论文速览 第294】Mon, 22 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 22 Jan 2024
Totally 64 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data
Authors Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
这项工作提出了 Depth Anything,这是一种用于鲁棒单目深度估计的高度实用的解决方案。在不追求新颖的技术模块的情况下,我们的目标是建立一个简单而强大的基础模型,处理任何情况下的任何图像。为此,我们通过设计数据引擎来收集并自动注释大规模未标记数据 62M 来扩展数据集,这显着扩大了数据覆盖范围,从而能够减少泛化误差。我们研究了两种简单而有效的策略,使数据扩展前景光明。首先,利用数据增强工具创建更具挑战性的优化目标。它迫使模型主动寻求额外的视觉知识并获得稳健的表示。其次,开发了辅助监督来强制模型从预先训练的编码器继承丰富的语义先验。我们广泛评估了其零拍摄能力,包括六个公共数据集和随机捕获的照片。它表现出了令人印象深刻的泛化能力。此外,通过使用 NYUv2 和 KITTI 的度量深度信息对其进行微调,设置了新的 SOTA。我们更好的深度模型也会产生更好的深度调节 ControlNet。

Event detection from novel data sources: Leveraging satellite imagery alongside GPS traces
Authors Ekin Ugurel, Steffen Coenen, Minda Zhou Chen, Cynthia Chen
快速识别和应对突发事件,特别是那些对人类生命构成威胁的事件,例如自然灾害或冲突,至关重要。移动设备的流行和网络连接的普遍存在产生了大量的时间和空间标记数据。许多研究都使用移动数据来得出各种应用的个体人类移动模式。同样,轨道卫星数量的增加使得收集高分辨率图像变得更加容易,这些图像以次日时间频率捕捉地理区域的快照。我们提出了一种新颖的数据融合方法,将卫星图像与隐私增强的移动数据相结合,以增强事件推理任务,无论是实时的还是历史的。在地面上没有靴子的情况下,移动数据能够大致了解人类的流动性、彼此的接近程度以及建筑环境。另一方面,卫星图像可以提供有关建筑和自然环境物理变化的视觉信息。我们的方法的预期用例包括小规模灾害检测,即农村地区的龙卷风、野火和洪水,增强偏远荒野地区失踪徒步旅行者的搜救行动,以及识别活跃冲突地区和饱受战争蹂躏的国家的人口流离失所。

Synthesizing Moving People with 3D Control
Authors Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
在本文中,我们提出了一种基于扩散模型的框架,用于针对给定的目标 3D 运动序列从单个图像中制作人物动画。我们的方法有两个核心组成部分:a 学习关于人体和衣服的不可见部分的先验知识;b 用适当的衣服和纹理渲染新颖的身体姿势。对于第一部分,我们学习一个填充扩散模型,以在给定单个图像的情况下产生人看不见的部分的幻觉。我们在纹理贴图空间上训练这个模型,这使得它的样本效率更高,因为它对于姿势和视点来说是不变的。其次,我们开发了一个基于扩散的渲染管道,它由 3D 人体姿势控制。这会产生人物新颖姿势的逼真渲染,包括衣服、头发,以及对看不见的区域的合理填充。这种解开的方法使我们的方法能够生成一系列图像,这些图像忠实于 3D 姿势中的目标运动,并且在视觉相似性方面忠实于输入图像。除此之外,3D 控制还允许使用各种合成摄像机轨迹来渲染人物。我们的实验表明,与之前的方法相比,我们的方法在生成长时间运动以及各种具有挑战性和复杂的姿势方面具有弹性。

SCENES: Subpixel Correspondence Estimation With Epipolar Supervision
Authors Dominik A. Kloepfer, Jo o F. Henriques, Dylan Campbell
从场景的两个或多个视图中提取点对应关系是一个基本的计算机视觉问题,对于相对相机姿态估计和运动结构特别重要。现有的局部特征匹配方法通过大规模数据集上的对应监督进行训练,可以在测试集上获得高度准确的匹配。然而,与经典特征提取器不同,它们不能很好地泛化到与训练数据集具有不同特征的新数据集。相反,它们需要微调,假设地面实况对应或地面实况相机姿势和 3D 结构可用。我们通过消除 3D 结构(例如深度图或点云)的要求来放宽这一假设,并且只需要相机姿态信息,该信息可以从里程计获得。我们通过用极线损失替换对应损失来实现这一点,这鼓励假定的匹配位于相关的极线上。虽然弱于对应监督,但我们观察到这一线索足以根据新数据微调现有模型。然后,我们通过在新颖的引导方法中使用姿势估计来进一步放宽已知相机姿势的假设。

Motion Consistency Loss for Monocular Visual Odometry with Attention-Based Deep Learning
Authors Andr O. Fran ani, Marcos R. O. A. Maximo
深度学习算法推动了许多复杂任务的表达进步。损失函数是深度学习技术的核心组成部分,指导神经网络的学习过程。本文通过基于深度学习的方法引入视觉里程计的一致性损失来做出贡献。运动一致性损失探索连续重叠视频剪辑中出现的重复运动。

Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation
Authors Prakhar Kaushik, Aayush Mishra, Adam Kortylewski, Alan Yuille
我们考虑仅从 RGB 图像到目标域的无源无监督类别级别姿态估计问题,在适应过程中无需访问源域数据或 3D 注释。收集和注释现实世界的 3D 数据和相应的图像是费力、昂贵但不可避免的过程,因为即使是 3D 姿态域自适应方法也需要目标域中的 3D 数据。我们引入 3DUDA,这是一种无需 3D 或深度数据即可适应充满麻烦的目标域的方法。我们的关键见解源于对特定对象子部分在域外 OOD 场景中保持稳定的观察,从而能够战略性地利用这些不变的子组件来进行有效的模型更新。我们将对象类别表示为简单的长方体网格,并利用在使用差分渲染学习的每个网格顶点建模的神经特征激活生成模型。我们专注于各个局部鲁棒的网格顶点特征,并根据它们与目标域中相应特征的接近程度迭代更新它们,即使全局姿态不正确也是如此。然后我们的模型以 EM 方式进行训练,交替更新顶点特征和特征提取器。我们表明,我们的方法在温和的假设下模拟了全局伪标记数据集的微调,该数据集渐近地收敛到目标域。

Understanding Video Transformers via Universal Concept Discovery
Authors Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov
本文研究了视频变压器表示的基于概念的可解释性问题。具体来说,我们试图根据自动发现的高级时空概念来解释视频转换器的决策过程。先前基于概念的可解释性的研究仅集中在图像级任务上。相比之下,视频模型处理增加的时间维度,增加了复杂性,并对随着时间的推移识别动态概念提出了挑战。在这项工作中,我们通过引入第一个 Video Transformer Concept Discovery VTCD 算法来系统地解决这些挑战。为此,我们提出了一种有效的方法来无监督地识别视频变换器表示概念的单元,并对其对模型输出的重要性进行排序。由此产生的概念具有高度可解释性,揭示了非结构化视频模型中的时空推理机制和以对象为中心的表示。通过对一组不同的监督和自监督表示联合执行此分析,我们发现其中一些机制在视频转换器中是通用的。

ActAnywhere: Subject-Aware Video Background Generation
Authors Boxiao Pan, Zhan Xu, Chun Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang
生成适合前景主体运动的视频背景是电影行业和视觉效果社区的一个重要问题。此任务涉及合成与前景主体的运动和外观一致的背景,同时也符合艺术家的创作意图。我们引入了 ActAnywhere,这是一种生成模型,可以自动化这个传统上需要繁琐的手动工作的过程。我们的模型利用了大规模视频扩散模型的强大功能,并且是专门针对此任务量身定制的。 ActAnywhere 将一系列前景主体分割作为输入,并将描述所需场景的图像作为条件,以生成具有真实前景背景交互的连贯视频,同时遵循条件框架。我们在人类场景交互视频的大规模数据集上训练我们的模型。广泛的评估证明了我们模型的卓越性能,显着优于基线。此外,我们还表明 ActAnywhere 可以推广到不同的分布样本,包括非人类受试者。

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision
Authors Fernando P rez Garc a, Harshita Sharma, Sam Bond Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, Stephanie L. Hyland, Javier Alvarez Valle, Ozan Oktay
语言监督预训练已被证明是从图像中提取语义上有意义的特征的一种有价值的方法,可作为计算机视觉和医学成像领域内多模态系统的基础元素。然而,所得到的特征受到文本中包含的信息的限制。这在医学成像中尤其成问题,因为放射科医生的书面发现集中于特定的观察结果,由于担心个人健康信息泄露,配对成像文本数据的稀缺加剧了这一挑战。在这项工作中,我们从根本上挑战了学习通用生物医学成像编码器时普遍依赖语言监督的现象。我们推出了 RAD DINO,这是一种仅针对单峰生物医学成像数据进行预训练的生物医学图像编码器,它在各种基准上获得了与最先进的生物医学语言监督模型相似或更好的性能。具体来说,学习表示的质量是根据标准成像任务分类和语义分割以及从图像生成视觉语言对齐任务文本报告来评估的。为了进一步证明语言监督的缺点,我们表明 RAD DINO 的特征与其他医疗记录(例如性别或年龄)的相关性比语言监督模型更好,而放射学报告中通常没有提到这些特征。最后,我们进行了一系列消融,显着确定了 RAD DINO 性能的因素,我们观察到 RAD DINO 的下游性能与训练数据的数量和多样性很好地扩展,这表明仅图像监督是训练基础模型的可扩展方法。

Learning to Visually Connect Actions and their Effects
Authors Eric Peh, Paritosh Parmar, Basura Fernando
在这项工作中,我们介绍了视频理解中视觉连接动作及其效果 CATE 的新颖概念。 CATE 可应用于任务规划和演示学习等领域。我们提出了不同的基于 CATE 的任务公式,例如动作选择和动作规范,其中视频理解模型在语义和细粒度级别连接动作和效果。我们观察到不同的公式产生捕获直观动作属性的表示。我们还设计了用于动作选择和动作规范的各种基线模型。尽管这项任务具有直观性,但我们观察到模型很挣扎,而人类的表现却远远超过了它们。

Measuring the Impact of Scene Level Objects on Object Detection: Towards Quantitative Explanations of Detection Decisions
Authors Lynn Vonder Haar, Timothy Elvira, Luke Newcomb, Omar Ochoa
尽管准确性和其他常见指标可以提供了解对象检测模型性能的有用窗口,但它们缺乏对模型决策过程的更深入了解。无论训练数据和过程的质量如何,都无法保证目标检测模型学习到的特征。模型可以学习某些背景上下文(即场景级对象)与标记类的存在之间的关系。此外,标准性能验证和指标无法识别这种现象。本文提出了一种新的黑盒可解释性方法,通过发现场景级对象对图像内对象识别的影响,对对象检测模型进行额外验证。通过比较模型在具有和不具有某些场景级对象的测试数据上的准确性,这些对象对模型性能的贡献变得更加清晰。这里介绍的实验将通过微调的 YOLOv8 模型评估图像环境中的建筑物和人员对紧急道路车辆检测的影响。场景级对象存在时准确度的大幅提高将表明模型依赖该对象进行检测。

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion
Authors Zuoyue Li, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, Martin R. Oswald
直接从卫星图像生成场景为集成到游戏和地图服务等应用程序中提供了令人兴奋的可能性。然而,显着的视图变化和场景规模带来了挑战。之前的工作主要集中在图像或视频生成上,缺乏对场景生成对任意视图的适应性的探索。现有的 3D 生成工作要么在对象级别运行,要么难以利用从卫星图像获得的几何形状。为了克服这些限制,我们通过将扩散模型引入 3D 稀疏表示并将其与神经渲染技术相结合,提出了一种用于直接 3D 场景生成的新颖架构。具体来说,我们的方法首先使用 3D 扩散模型在给定几何体的点级别生成纹理颜色,然后以前馈方式将其转换为场景表示。该表示可用于渲染任意视图,这在单帧质量和帧间一致性方面都表现出色。

Determination of efficiency indicators of the stand for intelligent control of manual operations in industrial production
Authors Anton Sergeev, Victor Minchenkov, Aleksei Soldatov
如今,工业生产中手动操作的智能控制系统正在许多行业中实施。此类系统使用高分辨率摄像头和计算机视觉算法来自动跟踪操作员的操作并防止装配过程中出现技术错误。同时监控工作场所安全法规的遵守情况。因此,减少了制造产品的缺陷率以及任何设备的手动组装过程中的事故数量。在将智能控制系统应用于实际生产之前,有必要计算其效率。为了做到这一点,在手动操作控制系统的支架上进行了实验。本文提出了效率指标的计算方法。这种数学方法基于装配阶段之间的实际时间间隔和预测时间间隔的 IoU 计算。

HiCD: Change Detection in Quality-Varied Images via Hierarchical Correlation Distillation
Authors Chao Pang, Xingxing Weng, Jiang Wu, Qiang Wang, Gui Song Xia
先进的变化检测技术主要针对相同且高质量的图像对。然而,成像条件和平台的变化经常导致具有不同质量的图像对,其中一个图像是高质量的,而另一个图像是低质量的。图像质量的这些差异给从语义上理解图像对和提取变化特征带来了重大挑战,最终导致性能显着下降。为了应对这一挑战,我们引入了一种基于知识蒸馏的创新培训策略。核心思想围绕利用从高质量图像对获取的任务知识来指导模型在处理表现出质量差异的图像对时的学习过程。此外,我们开发了一种涉及自相关、互相关和全局相关的分层相关蒸馏方法。这种方法迫使学生模型复制教师模型中固有的相关性,而不是仅仅关注个体特征。

Character Recognition in Byzantine Seals with Deep Neural Networks
Authors Th ophile Rageau, Laurence Likforman Sulem, Attilio Fiandrotti, Victoria Eyharabide, B atrice Caseau, Jean Claude Cheynet
印章是硬币形状的小工艺品,大多由铅制成,用绳子固定以密封字母。这项工作首次尝试自动阅读拜占庭印章图像上的文字。拜占庭印章的正面通常装饰有图像,反面则装饰有希腊文字。文本可能包括发送者的姓名、拜占庭贵族的地位以及祈祷的元素。文本和图像都是宝贵的文学资源,有待以电子方式利用,因此开发用于解释印章图像的计算机化系统至关重要。因此,这项工作的贡献是一个用于抄写拜占庭印章图像的深度、两阶段的字符读取管道。第一个深度卷积神经网络CNN检测篆书字符定位中的字符。第二个卷积网络读取本地化字符字符分类。最后,通过对两个网络输出进行后处理来提供印章的外交转录。我们对每个单独的 CNN 以及两个 CNN 的组合进行了实验评估。所有性能均通过交叉验证进行评估。字符定位的平均精度 mAP 0.5 大于 0.9。从真实边界框裁剪出的字符分类达到了大于 0.92 的 Top 1 精度。

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion
Authors Tianyi Zhao, Maoxun Yuan, Xingxing Wei
近年来,可见光RGB和红外IR图像中的物体检测得到了广泛的应用。利用 RGB 和 IR 图像的互补特性,物体检测器可从白天到夜间提供可靠且稳健的物体定位。现有的融合策略直接将RGB和IR图像注入卷积神经网络,导致检测性能较差。由于 RGB 和 IR 特征具有模态特定噪声,因此这些策略会随着传播而恶化融合特征。受人脑处理多模态信息机制的启发,这项工作引入了一种新的从粗到细的视角来纯化和融合两种模态特征。具体来说,按照这个观点,我们设计了一个冗余频谱去除模块来粗略地去除每种模态中的干扰信息,并设计了一个动态特征选择模块来精细地选择特征融合所需的特征。为了验证从粗到精融合策略的有效性,我们构建了一个名为 Removal and Selection Detector RSDet 的新对象检测器。

Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning
Authors Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua Michael Xuan, Zhengxin Li, Lin Ma, Shenghua Gao
最近,大型语言模型法学硕士在自然语言理解和生成任务中的惊人表现引发了人们对使用它们作为中央控制器来构建代理系统的大量探索。多项研究侧重于将法学硕士与外部工具联系起来以扩展应用场景。然而,目前的LLM感知工具使用能力仅限于单个文本查询,这可能会导致理解用户真实意图的模糊性。法学硕士有望通过感知视觉或听觉基础指令信息来消除这种情况。因此,在本文中,我们提出了Tool LMM,一个结合了开源LLM和多模态编码器的系统,以便学习的LLM能够意识到多模态输入指令,然后正确选择功能匹配的工具。为了便于评估模型的能力,我们收集了一个由 HuggingFace 的多模态输入工具组成的数据集。我们数据集的另一个重要特征是,由于相同函数和同义函数的存在,我们的数据集还包含同一指令的多个潜在选择,这为同一查询提供了更多潜在的解决方案。实验表明,我们的 LMM 能够为多模态指令推荐合适的工具。

Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge
Authors Haibi Wang, Weifeng Ge
随着多模态大语言模型的突破,回答需要高级推理能力和世界知识的复杂视觉问题已成为开发人工智能模型比以往任何时候都更加重要的测试平台。然而,由于人类的认知模式尚未被系统地理解,为人工智能模型配备强大的跨模态推理能力仍然具有挑战性。在本文中,我们相信,如果我们能够尽可能多地收集给定图像中的视觉线索,我们将更准确地识别图像,更好地理解问题,更容易地回忆相关知识,并最终推理出答案。我们通过挖掘图像中的问题答案对并将其作为提示发送到多模态大语言模型中来发现这些丰富的视觉线索。我们将所提出的方法称为“QA 提示”。具体来说,我们首先使用训练集中的图像答案对和相应的问题作为输入和输出来训练视觉问题生成模型。然后,我们使用图像标签模型来识别各种实例,并将打包的图像标签对发送到视觉问题生成模型中,以生成相关问题,并以提取的图像标签作为答案。最后,我们使用视觉感知提示模块将这些生成的问题答案对编码为提示,并将它们发送到预先训练的多模态大语言模型中以推理出最终答案。

Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering
Authors Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge
视频问答 VideoQA 旨在根据视频中观察到的信息回答自然语言问题。尽管大型多模态模型 LMM 最近在图像语言理解和推理方面取得了成功,但它们仅通过简单地将均匀采样的帧作为视觉输入来处理 VideoQA ,而忽略了与问题相关的视觉线索。此外,现有 VideoQA 数据集中没有针对问题关键时间戳的人工注释。有鉴于此,我们提出了一种新颖的弱监督框架,以强制 LMM 以问题关键时刻作为视觉输入来推理出答案。具体来说,我们将问题和答案对融合为事件描述,以找到多个关键帧作为目标时刻,这将是伪标签。利用这些伪标签作为额外的弱监督,我们设计了一个轻量级的基于高斯的对比接地 GCG 模块。 GCG 学习多个高斯函数来表征视频的时间结构,并将问题关键帧采样为正时刻,作为 LMM 的视觉输入。

MixNet: Towards Effective and Efficient UHD Low-Light Image Enhancement
Authors Chen Wu, Zhuoran Zheng, Xiuyi Jia, Wenqi Ren
随着影像设备的不断进步,超高清UHD图像的普及率不断上升。尽管许多图像恢复方法取得了可喜的结果,但由于超高清图像固有的高计算复杂性,它们不能直接适用于计算资源有限的设备上的超高清图像。在本文中,我们专注于低光图像增强 LLIE 的任务,并提出了一种称为 MixNet 的新型 LLIE 方法,该方法是专门为超高清图像设计的。为了捕获特征的长距离依赖性而不引入过多的计算复杂性,我们提出了全局特征调制层 GFML 。 GFML 通过排列特征映射来关联来自不同视图的特征,从而实现长范围依赖性的高效建模。此外,我们还设计了局部特征调制层 LFML 和前馈层 FFL 来捕获局部特征并将特征转换为紧凑的表示。通过这种方式,我们的 MixNet 以较少的模型参数和较低的计算复杂度实现了有效的 LLIE。我们对合成数据集和现实世界数据集进行了广泛的实验,综合结果表明我们提出的方法超越了当前最先进方法的性能。

BadODD: Bangladeshi Autonomous Driving Object Detection Dataset
Authors Mirza Nihal Baig, Rony Hajong, Mahdi Murshed Patwary, Mohammad Shahidur Rahman, Husne Ara Chowdhury
我们提出了一个全面的数据集,用于孟加拉国 9 个地区不同驾驶环境中的物体检测。该数据集专门从智能手机摄像头收集,提供了现实世界场景的真实表现,包括白天和夜间条件。大多数现有数据集缺乏适合孟加拉国道路自主导航的类别,这使得研究人员难以开发能够处理复杂道路场景的模型。为了解决这个问题,作者提出了一组基于特征而不是本地车辆名称的新类。该数据集旨在鼓励开发能够应对孟加拉国道路场景的独特挑战的模型,以有效部署自动驾驶汽车。该数据集不包含任何模拟自动驾驶汽车面临的现实世界条件的在线图像。车辆分类具有挑战性,因为孟加拉国道路上的车辆种类繁多,其中包括世界其他地方没有的车辆。

A Comprehensive Survey on Deep-Learning-based Vehicle Re-Identification: Models, Data Sets and Challenges
Authors Ali Amiri, Aydin Kaya, Ali Seydi Keceli
车辆重新识别 ReID 致力于关联从跨越不同交通环境的分布式摄像机网络收集的车辆图像。这项任务在以车辆为中心的技术范围内至关重要,在部署智能交通系统 ITS 和推进智慧城市计划方面发挥着关键作用。近年来,深度学习的快速进步极大地推动了车辆 ReID 技术的发展。因此,对以深度学习为中心的车辆重新识别方法进行全面调查已势在必行。本文广泛探讨了应用于车辆 ReID 的深度学习技术。它概述了这些方法的分类,包括监督和无监督方法,深入研究了这些类别中的现有研究,介绍了数据集和评估标准,并描绘了即将到来的挑战和潜在的研究方向。这项综合评估审视了车辆再识别中深度学习的前景,并为未来的工作奠定了基础和起点。

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
Authors Hongyi Wang, Xiuju Du, Jing Liu, Shuyi Ouyang, Yen Wei Chen, Lanfen Lin
空间转录组学 ST 的进步促进了基于组织病理学图像的基因表达的空间感知分析。尽管 ST 数据为肿瘤微环境提供了有价值的见解,但其获取成本仍然昂贵。因此,需要直接从数字病理图像预测 ST 表达。当前的方法通常采用现有的回归主干来完成此任务,而忽略了数字病理图像固有的多尺度分层数据结构。为了解决这个限制,我们提出了 M2ORT,一种多对一的回归 Transformer,它可以通过解耦的多尺度特征提取器来适应病理图像的层次结构。与使用一对一图像标签对训练的传统模型不同,M2ORT 一次接受多个不同放大倍数的病理图像,共同预测其对应公共 ST 点的基因表达,旨在通过训练学习多对一关系。我们在三个公共 ST 数据集上测试了 M2ORT,实验结果表明,M2ORT 可以用更少的参数和浮点运算 FLOP 实现最先进的性能。

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval
Authors Xiangpeng Yang, Linchao Zhu, Xiaohan Wang, Yi Yang
文本视频检索是一项关键的多模式任务,旨在找到与文本查询最相关的视频。尽管像 CLIP 这样的预训练模型在这一领域表现出了令人印象深刻的潜力,但由于模型尺寸的增加,完全微调这些模型的成本不断上升,这仍然是一个问题。为了应对这一挑战,即时调整作为一种替代方案应运而生。然而,现有的工作在将预训练的图像文本模型应用于下游视频文本任务时仍然面临两个问题1视觉编码器只能编码帧级特征,无法提取全局级通用视频信息。 2 为视觉和文本编码器配备单独的提示未能缩小视觉文本模态差距。为此,我们提出了 DGL,一种具有全局局部视频注意力的跨模态动态提示调整方法。与之前的提示调整方法相比,我们利用共享潜在空间来生成鼓励跨模式交互的本地级别文本和框架提示。此外,我们提出在全局局部注意机制中对视频进行建模,以从提示调整的角度捕获全局视频信息。大量实验表明,当仅调整 0.67 个参数时,我们的跨模态提示调整策略 DGL 优于或相当于 MSR VTT、VATEX、LSMDC 和 ActivityNet 数据集上的完全微调方法。

3D Shape Completion on Unseen Categories:A Weakly-supervised Approach
Authors Lintai Wu, Junhui Hou, Linqi Song, Yong Xu
由于遮挡,扫描设备捕获的 3D 形状通常不完整。人们已经探索了 3D 形状完成方法来解决这一限制。然而,大多数这些方法仅在类别的子集上进行训练和测试,导致对未见过的类别的泛化能力较差。在本文中,我们引入了一种新颖的弱监督框架,可以从看不见的类别中重建完整的形状。我们首先提出了一个端到端的先验辅助形状学习网络,该网络利用所见类别的数据来推断粗略形状。具体来说,我们构建了一个由所见类别中的代表性形状组成的先前库。然后,我们设计了一个多尺度模式相关模块,通过分析输入内的局部模式与不同尺度的先验之间的相关性来学习输入的完整形状。此外,我们提出了一种自监督形状细化模型来进一步细化粗略形状。考虑到跨类别 3D 对象的形状变异性,我们构建了一个特定于类别的先验库以促进形状细化。然后,我们设计了一种基于体素的部分匹配损失,并利用部分扫描来驱动细化过程。

Dream360: Diverse and Immersive Outdoor Virtual Scene Creation via Transformer-Based 360 Image Outpainting
Authors Hao Ai, Zidong Cao, Haonan Lu, Chen Chen, Jian Ma, Pengyuan Zhou, Tae Kyun Kim, Pan Hui, Lin Wang
视场角为 180x360 的 360 度图像为新兴的虚拟现实 VR 应用提供身临其境的逼真环境,例如虚拟旅游,用户希望通过便携式设备从某个视点拍摄的窄视场照片创建多样化的全景场景。这就给我们带来了一个技术挑战:如何让用户从指定视口的窄视场图像中自由地创建多样化、沉浸式的虚拟场景。为此,我们提出了一种基于 Transformer 的 360 度图像绘制框架,称为 Dream360,它可以生成多样化的 360 度图像绘制框架。考虑到 360 度图像的球面特性,从用户选择的视口中生成高保真度和高分辨率的全景图。与现有方法(例如 3)相比,主要关注具有矩形掩模和中心位置的输入,同时忽略 360 度图像的球形属性,我们的 Dream360 基于球形表示提供了更高的绘制灵活性和保真度。 Dream360 包括两个关键学习阶段:I 通过 Spherical VQGAN S VQGAN 基于密码本的全景绘制,以及 II 具有新颖的频率感知一致性损失的频率感知细化。具体来说,S VQGAN 从球谐 SH 值中学习球体特定的码本,为场景建模提供更好的球面数据分布表示。频率感知细化与分辨率相匹配,并进一步提高了生成结果的语义一致性和视觉保真度。与现有方法相比,我们的 Dream360 实现了显着更低的 Frechet Inception Distance FID 分数和更好的视觉保真度。

360ORB-SLAM: A Visual SLAM System for Panoramic Images with Depth Completion Network
Authors Yichen Chen, Yiqi Pan, Ruyu Liu, Haoyu Zhang, Guodao Zhang, Bo Sun, Jianhua Zhang
为了增强 AR VR 应用以及视觉辅助和检查系统的性能和效果,视觉同步定位和建图 vSLAM 是计算机视觉和机器人技术中的一项基本任务。然而,传统的vSLAM系统受到相机视场较窄的限制,导致特征分布稀疏、缺乏密集的深度信息等挑战。为了克服这些限制,本文提出了一种与深度补全网络相结合的全景图像 360ORB SLAM 系统。该系统从全景图像中提取特征点,利用全景三角测量模块生成稀疏深度信息,并利用深度补全网络获得密集的全景深度图。基于 Carla 构建的新型全景数据集的实验结果表明,与现有的单目 SLAM 方法相比,所提出的方法具有更高的尺度精度,并有效解决了特征关联和尺度模糊的挑战。

Symbol as Points: Panoptic Symbol Spotting via Point-based Representation
Authors Wenlong Liu, Tianyu Yang, Yuhan Wang, Qizhi Yu, Lei Zhang
这项工作研究了全景符号识别问题,即从计算机辅助设计 CAD 图纸中识别和解析可数对象实例窗户、门、桌子等和不可数物体墙、栏杆等。现有方法通常涉及将矢量图形光栅化为图像并使用基于图像的方法进行符号识别,或者直接构建图并使用图神经网络进行符号识别。在本文中,我们采用不同的方法,将图形基元视为一组局部连接的二维点,并使用点云分割方法来处理它。具体来说,我们利用点变换器来提取原始特征,并附加一个类似 mask2former 的点样头来预测最终输出。为了更好地利用图元的局部连接信息并增强其可辨别性,我们进一步提出了连接模块 ACM 和对比连接学习方案 CCL 的注意力机制。最后,我们为点样头的掩模注意模块提出了一种 KNN 插值机制,以更好地处理原始掩模下采样,与图像的像素级相比,原始掩模下采样是原始级的。我们的方法名为 SymPoint,简单而有效,在 FloorPlanCAD 数据集上比最新最先进的方法 GAT CADNet 绝对提高了 9.6 PQ 和 10.4 RQ。

Learning Position-Aware Implicit Neural Network for Real-World Face Inpainting
Authors Bo Zhao, Huan Yang, Jianlong Fu
面部修复需要模型对面部位置结构有精确的全局理解。受益于深度学习骨干网的强大能力,最近的人脸修复作品在理想的 512px 设置正方形中取得了不错的表现。然而,当直接应用于现实世界场景中的任意形状的图像时,现有方法通常会产生视觉上令人不愉快的结果,特别是在位置敏感的细节(例如眼睛和鼻子)中。视觉上不愉快的位置敏感细节表明了现有方法在位置信息处理能力方面的缺点。在本文中,我们提出了一种textbf I mplicit textbf N eural textbf Inpainting textbf Network IN 2,通过位置信息的显式建模来处理现实场景中的任意形状的人脸图像。具体来说,提出了一种下采样处理编码器来减少信息损失,同时获得全局语义特征。提出了具有混合注意机制的邻居混合注意块,以在不限制输入形状的情况下提高模型的面部理解能力。最后,引入隐式神经金字塔解码器来显式建模位置信息并弥合低分辨率特征和高分辨率输出之间的差距。

NWPU-MOC: A Benchmark for Fine-grained Multi-category Object Counting in Aerial Images
Authors Junyu Gao, Liangliang Zhao, Xuelong Li
对象计数是计算机视觉中的一个热门话题,其目的是估计给定图像中对象的数量。然而,大多数方法仅对图像中的单个类别的物体进行计数,这不能应用于需要同时对多个类别的物体进行计数的场景,尤其是在航拍场景中。为此,本文引入了多类别对象计数 MOC 任务来估计航拍图像中汽车、建筑物、船舶等不同对象的数量。考虑到该任务缺乏数据集,我们收集了一个大规模数据集 NWPU MOC,由 3,416 个场景组成,分辨率为 1024 乘以 1024 像素,并使用 14 个细粒度对象类别进行了良好注释。此外,每个场景都包含RGB和近红外NIR图像,其中NIR光谱与仅RGB光谱相比可以提供更丰富的表征信息。基于NWPU MOC,本文提出了一种多光谱、多类别对象计数框架,该框架采用双重注意模块来融合RGB和NIR的特征,并随后回归与每个对象类别对应的多通道密度图。此外,为了对密度图中不同通道与每个对象类别之间的依赖性进行建模,设计了空间对比度损失作为同一空间位置处重叠预测的惩罚。实验结果表明,与一些主流计数算法相比,所提出的方法实现了最先进的性能。

Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences
Authors Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang
多模态大语言模型 MLLM 已表现出处理各种视觉语言任务的能力。然而,当前的 MLLM 基准主要设计用于评估基于单个图像的静态信息的推理,而现代 MLLM 从图像序列推断的能力(这对于理解我们不断变化的世界至关重要)的研究较少。为了应对这一挑战,本文引入了 Mementos,这是一种旨在评估 MLLM 序列图像推理能力的新基准。 Mementos 具有 4,761 个不同长度的不同图像序列。我们还采用 GPT 4 辅助方法来评估 MLLM 推理性能。通过对 Mementos 上最近的 9 个 MLLM(包括 GPT 4V 和 Gemini)的仔细评估,我们发现它们很难准确描述给定图像序列的动态信息,通常会导致对物体及其相应行为的幻觉、错误表征。我们的定量分析和案例研究确定了影响 MLLM 序列图像推理的三个关键因素:物体和行为幻觉之间的相关性、同时发生的行为的影响以及行为幻觉的复合影响。

On mitigating stability-plasticity dilemma in CLIP-guided image morphing via geodesic distillation loss
Authors Yeongtak Oh, Saehyung Lee, Uiwon Hwang, Sungroh Yoon
大规模语言视觉预训练模型(例如 CLIP)通过利用几种无条件生成模型,取得了显着的文本引导图像变形结果。然而,现有的 CLIP 引导图像变形方法在变形真实感图像时遇到困难。具体而言,现有指南未能提供图像内变形区域的详细解释,从而导致误导。在本文中,我们观察到,只需使用适当的正则化损失就可以有效地减轻这种误导。我们的方法包括两个关键组成部分:1 测地余弦相似性损失,最大限度地减少模态间特征,即 CLIP 空间投影子空间上的图像和文本;2 潜在正则化损失,最大限度地减少内部模态特征,即图像流形上的图像和图像。

Focaler-IoU: More Focused Intersection over Union Loss
Authors Hao Zhang, Shuaijie Zhang
边界框回归在目标检测领域起着至关重要的作用,目标检测的定位精度很大程度上取决于边界框回归的损失函数。现有研究利用边界框之间的几何关系来提高回归性能,而忽略了难易样本分布对边界框回归的影响。在本文中,我们分析了难易样本分布对回归结果的影响,然后提出了Focaler IoU,它可以通过关注不同的回归样本来提高检测器在不同检测任务中的性能。

Exploring Color Invariance through Image-Level Ensemble Learning
Authors Yunpeng Gong, Jiaquan Li, Lifei Chen, Min Jiang
在计算机视觉领域,由于现实世界照明和相机条件的波动而导致的颜色偏差持续存在,对模型的稳健性提出了重大挑战。这个问题在复杂的广域监控场景中尤其明显,例如人员重新识别和工业灰尘分割,在这些场景中,由于环境变化的存在,模型在训练过程中经常会因颜色信息的过度拟合而导致性能下降。因此,需要有效地调整模型以应对相机条件的复杂性。为了应对这一挑战,本研究引入了一种名为“随机颜色擦除”的学习策略,该策略从集成学习中汲取灵感。该策略选择性地擦除训练数据中的部分或全部颜色信息,而不破坏原始图像结构,从而实现神经网络内颜色特征和其他特征的平衡权重。这种方法减轻了过度拟合的风险,并增强了模型处理颜色变化的能力,从而提高了其整体稳健性。我们提出的方法作为一种集成学习策略,其特点是具有强大的可解释性。本文对该方法进行了全面分析。在人员重新识别和语义分割等各种任务中,我们的方法不断改进强大的基线方法。值得注意的是,与优先考虑颜色鲁棒性的现有方法相比,我们的策略显着提高了跨域场景中的性能。

GMC-IQA: Exploiting Global-correlation and Mean-opinion Consistency for No-reference Image Quality Assessment
Authors Zewen Chen, Juan Wang, Bing Li, Chunfeng Yuan, Weiming Hu, Junxian Liu, Peng Li, Yan Wang, Youqun Zhang, Congxuan Zhang
由于图像质量评估 IQA 的主观性质,评估图像序列中哪个图像具有更好的质量比为图像分配绝对平均意见分数更可靠。因此,IQA 模型是通过全局相关一致性 GCC 指标(如 PLCC 和 SROCC)来评估的,而不是通过平均意见一致性 MOC 指标(如 MAE 和 MSE)来评估的。然而,由于训练过程中 GCC 指标的计算不可行,大多数现有方法采用 MOC 指标来定义其损失函数。在这项工作中,我们构建了一种新颖的损失函数和网络来利用全局相关性和平均意见一致性,形成 GMC IQA 框架。具体来说,我们提出了一种新颖的 GCC 损失,通过定义基于成对偏好的排名估计来解决 SROCC 的不可微问题,并引入队列机制来保留先前的数据以近似整个数据的全局结果。此外,我们提出了平均意见网络,它集成了不同的意见特征,以减轻权重学习的随机性并增强模型的鲁棒性。实验表明,我们的方法在多个真实数据集上优于 SOTA 方法,具有更高的准确性和泛化性。

Enhancing medical vision-language contrastive learning via inter-matching relation modelling
Authors Mingjian Li, Mingyuan Meng, Michael Fulham, David Dagan Feng, Lei Bi, Jinman Kim
医学图像表示可以通过医学视觉语言对比学习 mVLCL 来学习,其中医学成像报告通过图像文本对齐用作弱监督。这些学习到的图像表示可以转移到并有益于各种下游医学视觉任务,例如疾病分类和分割。最近的 mVLCL 方法尝试将图像子区域和报告关键字对齐为局部匹配。然而,这些方法通过简单的池化操作聚合所有本地匹配,而忽略了它们之间的内在关系。因此,这些方法无法在语义相关的局部匹配(例如,对应于疾病词和位置词语义关系的局部匹配)之间进行推理,并且也无法区分这种临床上重要的局部匹配与对应于不太有意义的词的其他局部匹配,例如,连词重要性关系。因此,我们提出了一种 mVLCL 方法,通过关系增强对比学习框架 RECLF 来模拟局部匹配之间的相互匹配关系。在 RECLF 中,我们引入了语义关系推理模块 SRM 和重要性关系推理模块 IRM,以便为图像表示学习提供更细粒度的报告监督。我们使用四个公共基准数据集对四个下游任务(包括分割、零样本分类、监督分类和跨模式检索)评估了我们的方法。我们的结果证明了我们的 RECLF 相对于最先进的 mVLCL 方法的优越性,在单模态和跨模态任务上都有一致的改进。

CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios
Authors Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma
在大规模图像文本数据集上预训练的视觉语言模型在图像检索等下游任务中表现出了卓越的性能。大多数预训练的图像都以开放域常识视觉元素的形式呈现。不同的是,短视频搜索场景中的视频封面呈现为用户原创内容,提供重要的视频视觉摘要。此外,部分视频封面还配有手动设计的封面文本,提供语义补充。为了填补短视频封面数据的空白,我们建立了第一个针对中国短视频搜索场景的大规模封面文本基准。具体来说,我们发布了两个大规模数据集CBVS 5M 10M来提供短视频封面,以及手动精细标记数据集CBVS 20K来提供真实用户查询,作为中文短视频搜索领域的图像文本基准测试。为了在模态缺失的情况下整合封面文本的语义,我们提出了 UniCLIP,其中封面文本在训练期间发挥指导作用,但不依赖于推理。对 CBVS 20K 的广泛评估证明了我们的方案的出色性能。 UniCLIP已部署至腾讯在线视频搜索系统,访问量达数亿,并取得显着收益。

Learning to Robustly Reconstruct Low-light Dynamic Scenes from Spike Streams
Authors Liwen Hu, Ziluo Ding, Mianzhi Liu, Lei Ma, Tiejun Huang
作为具有高时间分辨率的神经形态传感器,尖峰相机可以生成连续的二进制尖峰流来捕获每个像素的光强度。我们可以使用重建方法来恢复高速场景下的场景细节。然而,由于尖峰流中的信息有限,低光场景很难有效地重建。在本文中,我们提出了一种基于双向循环的重建框架,包括轻鲁棒表示 LR Rep 和融合模块,以更好地处理这种极端条件。 LR Rep 旨在聚合尖峰流中的时间信息,并利用融合模块来提取时间特征。此外,我们还开发了针对高速低光场景的重建基准。场景中的光源与现实世界的条件仔细对齐。实验结果证明了我们的方法的优越性,该方法也可以很好地推广到真实的尖峰流。

Path Choice Matters for Clear Attribution in Path Methods
Authors Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu
严谨性和清晰度对于 DNN 的解释以建立人类信任至关重要。路径方法通常用于生成满足三个公理的严格归因。然而,由于不同的路径选择,归因的含义仍然不明确。为了解决这种歧义,我们引入了textbf集中原则,该原则将高归因集中分配给不可或缺的特征,从而赋予美感和稀疏性。然后,我们提出了 textbf SAMP ,一个与模型无关的解释器,它可以从一组预定义的操作路径中有效地搜索接近最优的路径。此外,我们提出了无穷小约束IC和动量策略MS来提高严格性和最优性。可视化结果表明,SAMP 可以通过精确定位显着图像像素来精确揭示 DNN。我们还进行了定量实验,并观察到我们的方法明显优于同行。

DataViz3D: An Novel Method Leveraging Online Holographic Modeling for Extensive Dataset Preprocessing and Visualization
Authors Jinli Duan
DataViz3D 是一款创新的在线软件,可使用全息技术将复杂的数据集转换为交互式 3D 空间模型。该工具使用户能够在 3D 空间内生成散点图,准确映射到数据集的 XYZ 坐标,从而提供对数据固有的空间关系的生动直观的理解。

Inflation with Diffusion: Efficient Temporal Adaptation for Text-to-Video Super-Resolution
Authors Xin Yuan, Jinoo Baek, Keyang Xu, Omer Tov, Hongliang Fei
我们提出了一种基于扩散的高效文本到视频超分辨率 SR 调整方法,该方法利用像素级图像扩散模型易于学习的能力来捕获用于视频生成的空间信息。为了实现这一目标,我们通过将文本到图像 SR 模型的权重扩展到我们的视频生成框架中,设计了一个高效的架构。此外,我们还采用了时间适配器来确保视频帧之间的时间一致性。我们根据膨胀的架构研究了不同的调整方法,并报告了计算成本和超分辨率质量之间的权衡。对 Shutterstock 视频数据集的定量和定性实证评估表明,我们的方法能够以良好的视觉质量和时间一致性执行文本到视频 SR 生成。

Reconstructing the Invisible: Video Frame Restoration through Siamese Masked Conditional Variational Autoencoder
Authors Yongchen Zhou, Richard Jiang
在计算机视觉领域,恢复视频帧中丢失的信息是一个严峻的挑战,特别是在自动驾驶和监控系统等应用中。本文介绍了 Siamese Masked 条件变分自编码器 SiamMCVAE,利用基于视觉 Transformer 的双编码器的 Siamese 架构。这种创新设计通过捕获配对帧之间的内在相似性来增强模型理解丢失内容的能力。 SiamMCVAE 能够熟练地重建蒙版帧中丢失的元素,通过变分推理有效解决相机故障引起的问题。实验结果有力地证明了该模型在恢复丢失信息方面的有效性,从而增强了计算机视觉系统的弹性。

Analyzing and Mitigating Bias for Vulnerable Classes: Towards Balanced Representation in Dataset
Authors Dewant Katare, David Solans Noguero, Souneil Park, Nicolas Kourtellis, Marijn Janssen, Aaron Yi Ding
自动驾驶中感知系统的准确性和公平性至关重要,特别是对于弱势道路使用者而言。主流研究已经着眼于提高分类准确性的性能指标。然而,人工智能模型中的偏见继承、数据集中的类别不平衡和差异等隐藏特征常常被忽视。在此背景下,我们的研究通过重点关注类别分布分析、绩效评估和偏见影响评估来研究弱势道路使用者的类别不平衡。我们发现了类表示不平衡的问题,导致检测准确性的潜在偏差。利用流行的 CNN 模型和 Vision Transformers ViT 以及 nuScenes 数据集,我们的性能评估揭示了代表性不足的类别的检测差异。我们提出了一种模型优化和偏差缓解的方法,其中包括数据增强、重采样和特定于度量的学习。使用所提出的缓解方法,我们看到 CNN 模型的 IoU 和 NDS 指标分别从 71.3 提高到 75.6,从 80.6 提高到 83.7。同样,对于 ViT,我们观察到 IoU 和 NDS 指标分别从 74.9 提高到 79.2,从 83.8 提高到 87.1。

Agricultural Object Detection with You Look Only Once (YOLO) Algorithm: A Bibliometric and Systematic Literature Review
Authors Chetan M Badgujar, Alwin Poulose, Hao Gan
视觉是农业中使用的多种数字技术和工具的主要组成部分。物体探测器 You Look Only Once YOLO 由于其最先进的性能而在相对较短的时间内在农业领域广受欢迎。 YOLO 提供高精度的实时检测,并应用于各种农业任务,包括监测、监视、传感、自动化和机器人技术。 YOLO在农业中的研究和应用正在迅速加速,但分散且跨学科。此外,目标检测器的性能特征(即精度、速度、计算)影响农业技术的实施和采用率。因此,本研究旨在收集大量文献来记录和批判性评估 YOLO 在农业物体识别方面的进展和应用。首先,我们对 257 篇文章进行了文献计量回顾,以了解 YOLO 在农业领域的学术景观。其次,我们对 30 篇文章进行了系统回顾,以确定 YOLO 针对特定农业任务的当前知识、差距和修改。该研究批判性地评估和总结了 YOLO 端到端学习方法的信息,包括数据采集、处理、网络修改、集成和部署。我们还讨论了特定于任务的 YOLO 算法修改和集成,以满足农业对象或环境特定的挑战。总体而言,YOLO 集成数字工具和技术显示了实时、自动监控、监视和对象处理的潜力,可减少劳动力、生产成本和环境影响,同时最大限度地提高资源效率。

ELRT: Efficient Low-Rank Training for Compact Convolutional Neural Networks
Authors Yang Sui, Miao Yin, Yu Gong, Jinqi Xiao, Huy Phan, Bo Yuan
低秩压缩是一种流行的模型压缩技术,可生成具有低秩的紧凑卷积神经网络 CNN,已在文献中得到充分研究。另一方面,低秩训练作为从头开始训练低秩 CNN 的另一种方法,目前还没有被充分利用。与低秩压缩不同,低秩训练不需要预先训练的全秩模型,整个训练阶段始终在低秩结构上进行,为实际应用带来了诱人的好处。然而,现有的低秩训练解决方案仍然面临一些挑战,例如准确率大幅下降和/或仍然需要在训练期间更新全尺寸模型。在本文中,我们对低阶 CNN 训练进行了系统研究。通过确定适当的低秩格式和性能改进策略,我们提出了 ELRT,这是一种针对高精度、高紧凑性、低秩 CNN 模型的高效低秩训练解决方案。

Multi-Source Collaborative Gradient Discrepancy Minimization for Federated Domain Generalization
Authors Yikang Wei, Yahong Han
联合域泛化旨在从多个分散的源域中学习域不变模型,以便部署在不可见的目标域上。由于隐私问题,来自不同源域的数据保持隔离,这给弥合域差距带来了挑战。为了解决这个问题,我们提出了一种用于联合域泛化的多源协作梯度差异最小化 MCGDM 方法。具体来说,我们提出原始图像和增强图像之间的域内梯度匹配,以避免过度拟合孤立域内的域特定信息。此外,我们提出与其他域协作的域间梯度匹配,这可以进一步减少分散域之间的域转移。结合域内和域间梯度匹配,我们的方法使学习的模型能够很好地泛化到未见过的域。此外,我们的方法可以通过在伪标记目标域上微调目标模型来扩展到联合域适应任务。

Null Space Properties of Neural Networks with Applications to Image Steganography
Authors Xiang Li, Kevin M. Short
本文探讨了神经网络的零空间特性。我们将零空间定义从线性映射扩展到非线性映射,并讨论神经网络中零空间的存在。给定神经网络的零空间可以告诉我们输入数据中对最终预测没有贡献的部分,以便我们可以用它来欺骗神经网络。这揭示了神经网络中可被利用的固有弱点。这里描述的一个应用导致了一种图像隐写术的方法。通过对 MNIST 等图像数据集的实验,我们表明我们可以使用零空间分量来强制神经网络选择选定的隐藏图像类,即使整个图像看起来像完全不同的图像。

Active headrest combined with a depth camera-based ear-positioning system
Authors Yuteng Liu, Haowen Li, Haishan Zou, Jing Lu, Zhibin Lin
主动头枕可以基于主动噪声控制 ANC 系统来减少耳朵周围的低频噪声。当头部处于原始位置时,使用固定控制滤波器的控制系统和基于远程麦克风的自适应控制系统都提供良好的降噪性能。然而,当头部运动时,它们的性能会显着下降。本文提出了一种基于深度相机的人耳定位系统来解决这个问题。该系统使用RTMpose模型来估计耳朵在彩色帧中的二维2D位置,然后通过深度相机导出深度帧中相应的三维3D坐标。

Beyond the Frame: Single and mutilple video summarization method with user-defined length
Authors Vahid Ahmadi Kalkhorani, Qingquan Zhang, Guanqun Song, Ting Zhu
视频精简是减少视频时间的重要方法,可以减少观看长视频的时间。随着发布的视频数量每天都在增加,这种方法变得更加重要。可以使用从多模态视听技术到自然语言处理方法的各种技术将单个或多个视频概括为相对较短的视频。视听技术可用于识别重要的视觉事件并挑选最重要的部分,而 NLP 技术可用于评估音频转录并从原始视频中提取主要句子时间戳和相应的视频帧。另一种方法是利用两个领域的优点。这意味着我们可以使用视听线索和视频脚本来提取和总结视频。在本文中,我们将各种 NLP 技术(提取和基于内容的摘要器)与视频处理技术相结合,将长视频转换为单个相对较短的视频。我们设计此收费的方式是用户可以指定摘要视频的相对长度。我们还探索了将多个视频总结和连接成单个短视频的方法,这将有助于在单个短视频中包含同一主题的最重要概念。

A Beam-Segmenting Polar Format Algorithm Based on Double PCS for Video SAR Persistent Imaging
Authors Jiawei Jiang, Yinwei Li, Shaowen Luo, Ping Li, Yiming Zhu
视频合成孔径雷达SAR由于其高分辨率、高帧率和连续观测的优势,近年来受到越来越多的关注。一般来说,极坐标格式算法PFA是聚光模式视频SAR的有效算法。然而,在PFA过程中,波前曲率误差WCE限制了成像场景尺寸,并且二维插值影响了效率。针对上述问题,提出了一种基于线性调频缩放PCS原理的波束分段PFA,称为BS PCS PFA,用于视频SAR成像,具有对不同载频视频SAR进行持续成像的能力。首先,提出了一种适用于视频SAR PFA的改进PCS来代替2D插值,并获得了地面输出坐标系GOCS中的粗图像。针对粗图像中存在的畸变或离焦问题,提出一种基于光束分割快速滤波的子块成像方法,将图像分割为多个子光束数据,当子块尺寸相当时,其畸变和离焦可以忽略不计。小于畸变可忽略区域。通过对子光束数据的处理和重聚焦子图像的镶嵌,获得了GOCS中无畸变和散焦的完整图像。此外,算法还采用了三步MoCo方法,以适应实际的不规则轨迹。该方法能够显着扩大PFA的有效场景尺寸,更好的运行效率使其更适合视频SAR成像。

Resolution Chromatography of Diffusion Models
Authors Juno Hwang, Yong Hyun Park, Junghyo Jo
扩散模型通过迭代随机过程生成高分辨率图像。特别是,去噪方法是最流行的方法之一,它可以预测样本中的噪声并在每个时间步对其进行去噪。人们普遍观察到,生成的样本的分辨率会随着时间的推移而变化,开始时模糊、粗糙,然后变得更清晰、更精细。在本文中,我们引入了分辨率色谱,它指示每个分辨率的信号生成速率,这是非常有用的概念,可以从数学上解释生成过程中从粗到细的行为,了解噪声表的作用,并设计时间相关的调制。使用分辨率色谱法,我们确定在特定时间步长哪个分辨率水平占主导地位,并用文本到图像扩散模型通过实验验证我们的理论。我们还提出了一些直接应用,利用将预训练模型升级到更高分辨率和时间相关提示合成的概念。

The Cadaver in the Machine: The Social Practices of Measurement and Validation in Motion Capture Technology
Authors Emma Harvey, Hauke Sandhaus, Abigail Z. Jacobs, Emanuel Moss, Mona Sloane
跨领域使用的动作捕捉系统通过技术流程使身体表征变得具体。我们认为,身体的测量和运动捕捉系统测量的验证可以理解为社会实践。通过从社会实践理论的角度分析系统文献综述 N 278 的结果,我们展示了这些实践及其对错误的不同关注如何随着时间的推移在动作捕捉设计和创新中根深蒂固。此外,我们还展示了当代动作捕捉系统如何延续对人体及其动作的假设。

NN-VVC: Versatile Video Coding boosted by self-supervisedly learned image coding for machines
Authors Jukka I. Ahonen, Nam Le, Honglei Zhang, Antti Hallapuro, Francesco Cricri, Hamed Rezazadegan Tavakoli, Miska M. Hannuksela, Esa Rahtu
人工智能的最新进展导致机器分析算法(主要是神经网络)对图像和视频的使用不断增加。尽管如此,媒体的压缩、存储和传输传统上都是将人类作为内容的观看者来设计的。用于机器分析的图像和视频编码的最新研究主要在两个几乎正交的方向上取得进展。第一个是端到端的端到端学习编解码器,虽然在图像编码方面提供了高性能,但仍无法与最先进的传统视频编解码器相提并论,并且缺乏互操作性。第二个方向考虑使用通用视频编码 VVC 标准或任何其他传统视频编解码器 CVC 以及针对机器分析的预处理和后处理操作。虽然基于 CVC 的方法受益于互操作性和广泛的硬件和软件支持,但机器任务性能通常低于所需水平,特别是在低比特率下。本文提出了一种称为 NN VVC 的机器混合编解码器,它结合了端到端学习图像编解码器和 CVC 的优点,以实现机器图像和视频编码的高性能。我们的实验表明,在多个不同的数据集和机器视觉任务上进行评估时,所提出的系统在图像和视频数据上分别比 VVC 实现了高达 43.20 和 26.8 Bj ntegaard Delta 速率降低。

Bridging the gap between image coding for machines and humans
Authors Nam Le, Honglei Zhang, Francesco Cricri, Ramin G. Youvalari, Hamed Rezazadegan Tavakoli, Emre Aksu, Miska M. Hannuksela, Esa Rahtu
机器图像编码 ICM 旨在降低表示图像所需的比特率,同时最大限度地减少机器视觉分析精度的下降。在许多用例中,例如监控,视觉质量不会因压缩过程而急剧恶化也很重要。最近使用基于神经网络 NN 的 ICM 编解码器的工作已经显示出相对于传统方法的显着编码增益,然而,解压缩的图像,特别是在低比特率下,通常包含棋盘伪影。我们提出了一种基于对抗性训练的有效解码器微调方案,以显着提高 ICM 编解码器的视觉质量,同时保持机器分析准确性,而无需在推理阶段添加额外的比特成本或参数。结果显示,任务性能得分相对变化 1.6 的成本可以忽略不计,完全消除了棋盘伪影。

Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue
Authors Guido Caccianiga, Julian Nubert, Marco Hutter, Katherine J. Kuchenbecker
新的传感技术和更先进的处理算法正在改变计算机集成手术。虽然研究人员正在积极研究用于基于视觉的手术辅助的深度传感和 3D 重建,但在微创手术中实现腹腔的实时、准确和稳健的 3D 表示仍然很困难。因此,这项工作使用对新鲜离体猪组织的定量测试来彻底表征基于 3D 激光的飞行时间传感器激光雷达执行解剖表面重建的质量。使用商用激光扫描仪捕获地面真实表面形状,并使用严格的统计工具分析所得的带符号误差场。与基于内窥镜图像的现代学习立体匹配相比,飞行时间传感表现出更高的精度、更低的处理延迟、更高的帧速率以及针对传感器距离和不良照明的卓越鲁棒性。此外,我们报告了近红外光穿透对不同组织样本的激光雷达测量精度的潜在负面影响,确定了肌肉与脂肪和肝脏相比的显着测量深度偏移。

Towards Universal Unsupervised Anomaly Detection in Medical Imaging
Authors Cosmin I. Bercea, Benedikt Wiestler, Daniel Rueckert, Julia A. Schnabel
医学成像数据日益复杂,强调需要先进的异常检测方法来自动识别不同的病理。目前的方法在捕获广泛的异常情况方面面临挑战,通常将它们的使用限制在脑部扫描中的特定病变类型。为了应对这一挑战,我们引入了一种新颖的无监督方法,称为 textit Reversed Auto Encoders RA ,旨在创建逼真的伪健康重建,从而能够检测更广泛的病理。我们评估了各种成像方式所提出的方法,包括脑部磁共振成像 MRI、儿科腕部 X 射线和胸部 X 射线,并证明了与现有最​​先进方法相比在检测异常方面的卓越性能。我们的无监督异常检测方法可以通过识别更广泛的未知病理来提高医学成像的诊断准确性。

Polytopic Autoencoders with Smooth Clustering for Reduced-order Modelling of Flows
Authors Jan Heiland, Yongho Kim
随着神经网络的进步,有关自动编码器在降阶模型中的应用的研究出版物在数量和种类上都有显着增加。我们提出了一种多面自动编码器架构,其中包括轻量级非线性编码器、凸组合解码器和平滑聚类网络。在多个证明的支持下,模型架构确保所有重建状态都位于多胞体内,并附有指示所构造多胞体质量的度量,称为多胞体误差。此外,与适当的正交分解 POD 相比,它为多面线性参数变化系统提供了最少数量的凸坐标,同时实现了可接受的重建误差。为了验证我们提出的模型,我们使用不可压缩纳维斯托克斯方程进行了涉及两种流动场景的模拟。

MAEDiff: Masked Autoencoder-enhanced Diffusion Models for Unsupervised Anomaly Detection in Brain Images
Authors Rui Xu, Yunke Wang, Bo Du
无监督异常检测由于其能够减轻昂贵的像素级注释而在医学成像领域获得了极大的关注。为了实现这一目标,现代方法通常利用生成模型来生成患病图像的健康参考,然后通过比较健康参考和原始患病图像来识别异常。最近,扩散模型因其良好的模式覆盖率和高样本质量而在医学图像中的无监督异常检测方面展现出了巨大的潜力。然而,医学图像的内在特征,例如人体的低对比度和复杂的解剖结构使得重建具有挑战性。此外,医学图像的全局信息通常仍未得到充分利用。为了解决这两个问题,我们提出了一种新颖的掩蔽自动编码器增强扩散模型 MAEDiff,用于大脑图像中的无监督异常检测。 MAEDiff 涉及分层补丁分区。它通过重叠上层补丁生成健康图像,并实现基于对子级别补丁进行操作的屏蔽自动编码器的机制,以增强无噪声区域的条件。

I-SplitEE: Image classification in Split Computing DNNs with Early Exits
Authors Divya Jyoti Bajpai, Aastha Jaiswal, Manjesh Kumar Hanawal
深度神经网络 DNN 的最新进展源于其在各个领域的卓越性能。然而,它们固有的大尺寸阻碍了在边缘、移动和物联网平台等资源有限的设备上部署这些网络。从部分云计算卸载拆分计算到将早期退出集成到 DNN 层中,各种策略已经出现。我们的工作提出了一种创新的统一方法,融合了早期退出和分割计算。我们确定分割层、边缘设备计算的 DNN 中的最佳深度,以及考虑准确性、计算效率和通信成本是在边缘设备上进行推理还是卸载到云端进行推理。此外,图像分类面临着各种环境扭曲,受一天中的时间、照明和天气等因素的影响。为了适应这些扭曲,我们引入了 I SplitEE,这是一种在线无监督算法,非常适合缺乏基本事实和序列数据的场景。

LDReg: Local Dimensionality Regularized Self-Supervised Learning
Authors Hanxun Huang, Ricardo J. G. B. Campello, Sarah Monazam Erfani, Xingjun Ma, Michael E. Houle, James Bailey
通过自监督学习 SSL 学习的表示可能容易受到维度崩溃的影响,其中学习的表示子空间的维度极低,因此无法表示完整的数据分布和模式。维度崩溃也称为填充不足现象,是下游任务性能下降的主要原因之一。之前的工作已经在全球范围内研究了 SSL 的维度崩溃问题。在本文中,我们证明了表示可以全局跨越高维空间,但局部崩溃。为了解决这个问题,我们提出了一种称为 textit 局部维度正则化 LDReg 的方法。我们的公式基于 Fisher Rao 度量的推导,以比较和优化每个数据点渐近小半径处的局部距离分布。通过增加局部内在维度,我们通过一系列实验证明 LDReg 提高了 SSL 的表示质量。

M3BUNet: Mobile Mean Max UNet for Pancreas Segmentation on CT-Scans
Authors Juwita juwita, Ghulam Mubashar Hassan, Naveed Akhtar, Amitava Datta
CT扫描图像中的器官分割是多个下游医学图像分析任务的必要过程。目前,放射科医生手动 CT 扫描分割很普遍,特别是对于胰腺等器官,由于器官尺寸小、闭塞和形状各异等因素,需要高水平的领域专业知识才能进行可靠的分割。当采用自动胰腺分割时,这些因素转化为有限的可靠标记数据来训练有效的分割模型。因此,当代胰腺分割模型的性能仍然不在可接受的范围内。为了改进这一点,我们提出了 M3BUNet,它是 MobileNet 和 U Net 神经网络的融合,配备了新颖的 Mean Max MM 注意力机制,分两个阶段运行,通过掩模引导逐步将胰腺 CT 图像从粗到细分割以进行对象检测。这种方法使网络能够超越类似网络架构所实现的分割性能,并实现与复杂的最先进方法相当的结果,同时保持较低的参数数量。此外,我们引入外部轮廓分割作为粗略阶段的预处理步骤,以通过图像标准化协助分割过程。对于精细分割阶段,我们发现应用小波分解滤波器创建多输入图像可以增强胰腺分割性能。我们在众所周知的 NIH 胰腺数据集和 MSD 胰腺数据集上广泛评估了我们的方法。

Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation
Authors Vandan Gorade, Sparsh Mittal, Debesh Jha, Rekha Singhal, Ulas Bagci
深度学习在医学图像分割方面取得了令人瞩目的成就。然而,由于类内差异(同一类在不同样本中出现不同)和类间独立性,流行的深度学习模型泛化能力较差,导致难以捕获不同对象之间的复杂关系,从而导致较高的假阴性情况。本文提出了一种协同空间和光谱表示来增强域广义医学图像分割的新方法。我们引入了创新的谱相关系数目标,以提高模型捕获中阶特征和上下文长程依赖性的能力。该物镜通过结合有价值的光谱信息补充了传统的空间物镜。大量实验表明,使用 UNet 和 TransUNet 等现有架构优化这一目标可以显着增强泛化性、可解释性和噪声鲁棒性,从而产生更可信的预测。例如,在心脏分割中,我们观察到 DSC 相对于 UNet 和 TransUNet 分别提高了 0.81 pp 和 1.63 pp 个百分点。我们的可解释性研究表明,在大多数任务中,通过引入全局上下文信息和局部细节,使用 UNet 优化的目标甚至优于 TransUNet。

An attempt to generate new bridge types from latent space of generative flow
Authors Hongjun Zhang
通过不同分布之间的坐标和概率变换的例子,简单明了地介绍了归一化流的基本原理。从随机变量函数分布的角度解释了概率变换的本质,并引入了概率变换的缩放因子雅可比行列式。将数据集视为总体中的样本,获得归一化流本质上是通过抽样调查统计推断总体的数值特征,然后利用最大似然估计方法建立损失函数。本文介绍归一化流如何巧妙解决高维矩阵行列式计算和神经网络可逆变换两大应用挑战。利用三跨梁桥、拱桥、斜拉桥和悬索桥的对称结构化图像数据集,基于TensorFlow Probability库中的Glow API构建和训练归一流。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391813.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vue3-组合式 API

什么是组合式 API? 组合式 API (Composition API) 是一系列 API 的集合,使我们可以使用函数而不是声明选项的方式书写 Vue 组件。它是一个概括性的术语,涵盖了以下方面的 API: 响应式 API:例如 ref() 和 reactive()&a…

如何在UI自动化测试中加入REST API的操作

1、问题 当我们描述一个“好的自动化测试用例”时,经常出现标准是: 精确 自动化测试用例应该测试一件事,只有一件事。与测试用例无关的应用程序的某个部分中的错误不应导致测试用例失败。 独立 自动化测试用例不应该受测试套件中任何其他…

车载软件架构 —— Adaptive AUTOSAR软件架构中通信管理、诊断管理策略

车载软件架构 —— Adaptive AUTOSAR软件架构中通信管理、诊断管理策略 第四篇 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意…

链表OJ题目合集第一弹:移除元素,反转链表,中间结点,倒数第k个结点,合并有序链表,回文结构,相交链表判断。(C语言版,有详细解析、图示和链接)

目录 前言 1. 移除链表元素 (1)题目及示例 (2)解析 (3)代码 2. 反转链表 (1)题目及示例 (2)题目解析及思路 3.链表的中间结点 (1&#…

最适合初学者的Python入门详细攻略,一文讲清,赶紧收藏!

前言 目前python可以说是一门非常火爆的编程语言,应用范围也非常的广泛,工资也挺高,未来发展也极好。 Python究竟应该怎么学呢,我自己最初也是从零基础开始学习Python的,给大家分享Python的学习思路和方法。一味的买…

2024年【高处安装、维护、拆除】考试总结及高处安装、维护、拆除考试技巧

题库来源:安全生产模拟考试一点通公众号小程序 高处安装、维护、拆除考试总结根据新高处安装、维护、拆除考试大纲要求,安全生产模拟考试一点通将高处安装、维护、拆除模拟考试试题进行汇编,组成一套高处安装、维护、拆除全真模拟考试试题&a…

ArcGIS学习(八)基于GIS平台的控规编制办法

ArcGIS学习(八)基于GIS平台的控规编制办法 上一任务我们学习了”如何进行图片数据的矢量化?" 这一关我们来学习一个比较简单的案例一一”如何在ArcGIS中录入控规指标,绘制控规图纸?" 首先,先来看看这个案例的分析思路以及导入CAD格式的控规图纸。 接着,来看…

VMwareWorkstation17.0虚拟机安装搭建Windows 11虚拟机(完整图文详细步骤教程)

VMwareWorkstation17.0虚拟机安装搭建Windows 11虚拟机(完整图文详细步骤教程) 一、下载Windows11二、配置Windows11虚拟机机器环境三、启动Windows11系统 一、下载Windows11 【点击打开最全面的Windows 11原版系统镜像下载地址】 https://blog.csdn.ne…

FPGA中一些基本概念原理的区分

一、wire型变量与reg变量 在 Verilog 中,wire 和 reg 是两种不同类型的变量,它们有着不同的特性和用途 1.1 wire 变量 wire 变量用于连接模块中的输入、输出以及内部信号线。 它主要用于表示连续赋值的逻辑连接,类似于硬件电路中的导线。 …

春节专题|产业7问:区块链厂商的现在和未来——基础设施厂商

2023转瞬即逝,不同于加密领域沉寂一整年后在年末集中爆发,对于我国的区块链厂商而言,稳中求胜才是关键词,在平稳发展的基调下,产业洗牌也悄无声息的到来。 从产业总体而言,在经过了接近3年的快速发展后&…

第18讲 投票帖子管理实现

后端&#xff1a; /*** 删除指定id的投票信息* param id* return*/ GetMapping("/delete/{id}") Transactional public R delete(PathVariable(value "id")Integer id){voteDetailService.remove(new QueryWrapper<VoteDetail>().eq("vote_id…

【探索Linux】—— 强大的命令行工具 P.22(POSIX信号量)

阅读导航 引言一、POSIX信号量的基本概念二、信号量的相关操作1 . 初始化信号量sem_init ( )&#xff08;1&#xff09;原型&#xff08;2&#xff09;参数&#xff08;3&#xff09;返回值&#xff08;4&#xff09;示例代码 2 . 等待信号量&#xff08;1&#xff09;sem_wait…

Stable Diffusion webui安装详细教程

上一篇文章介绍了sd主流的ui&#xff0c;相信大家已经有所了解&#xff0c;下面为大家介绍sd-webui的安装详细教程 文章目录 一、 安装包说明二、对电脑的要求三、安装文件介绍四、安装步骤五、电脑问题与云主机六、界面简要说明及通用反向提示词 一、 安装包说明 通常我们使…

手把手一起开发SV4E-I3C设备(一)

1、SV4E-I3C设备介绍 SV4E-I3C 是Introspect Technology基于 13C 的设备接口开发、测试和编程的全套解决方案。该设备集三种仪器于一身&#xff0c;可用作协议练习器、协议分析器和通用 I3C 器件编程器&#xff0c;设备实物图片如图所示&#xff1a; SV4E-I3C设备的物理连接如…

给定n个结点m条边的简单无向图,判断该图是否存在鱼形状的子图:有一个环,其中有一个结点有另外两条边,连向不在环内的两个结点。若有,输出子图的连边

题目 思路: #include <bits/stdc++.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn = 1e6 + 5, inf = 1e18 * 3, maxm = 4e4 + 5,…

Junit测试套件(Test Suite)

0. 什么是测试套件 对多个测试类的统一执行 只有一个测试类 点击一下执行就好有 5个测试类 分别打开 挨个点执行有100个测试类 &#xff1f;&#xff1f;分别点开执行 为100个测试类创建一个测试套件&#xff0c;然后再执行一次测试套件 √ 一个测试套件“囊括“三个测试类…

跟着pink老师前端入门教程(JavaScript)-day02

三、变量 &#xff08;一&#xff09;变量概述 1、什么是变量 白话&#xff1a;变量就是一个装东西的盒子 通俗&#xff1a;变量是用于存放数据的容器&#xff0c;通过变量名获取数据&#xff0c;甚至数据可以修改 2、变量在内存中的存储 本质&#xff1a;变量是程序在内存…

作业帮 x TiDB丨多元化海量数据业务的支撑

导读 作业帮是一家成立于 2015 年的在线教育品牌&#xff0c;致力于用科技手段助力教育普惠。经过近十年的积累&#xff0c;作业帮运用人工智能、大数据等技术&#xff0c;为学生、老师、家长提供学习、教育解决方案&#xff0c;智能硬件产品等。随着公司产品和业务场景越来越…

黑马程序员——移动Web——day03

目录&#xff1a; 移动Web基础 谷歌模拟器屏幕分辨率视口二倍图适配方案rem 简介媒体查询rem布局flexible.jsrem移动适配less 注释运算嵌套变量导入导出禁止导出综合案例-极速问诊 准备工作头部布局头部内容banner区域问诊类型布局问诊类型内容 1.移动 Web 基础 谷歌模拟器 …

软件实例分享,家具生产出库管理系统软件教程

软件实例分享&#xff0c;家具生产出库管理系统软件教程 一、前言 以下软件程序教程以 佳易王家具行业生产出库管理系统软件V16.1为例说明 软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 销售管理——产品状态查询变更&#xff0c;可以根据生产进度变更…