多媒体领域顶会ACM MM 2023 获奖论文一览

ACM 国际多媒体会议是计算机科学领域中多媒体领域的顶级会议，属于CCF A类。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华举行。

ACM MM会议专注于推动多媒体研究和应用，其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。该会议的热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。想发paper的同学们冲起。

我这次帮大家整理了今年ACM MM 2023的获奖论文，并且做了简单的介绍，原文及源码需要的同学看文末

最佳论文奖

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

标题：CATR:面向音视频分割的组合依赖音频查询Transformer

作者：Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

简述：音视频分割（AVVS）旨在生成图像帧内产生声音的对象的像素级映射，并确保该映射准确地遵循给定的音频。现有方法存在两个限制：1）它们分别处理视频时间特征和音视频交互特征，忽略了组合音频和视频的内在时空依赖性；2）它们在解码阶段不充分引入音频约束和对象级信息，导致分割结果不符合音频指令。为了解决这些问题，本文提出了一种解耦的音视频转换器，从各自的时间和空间维度中结合音频和视频特征，捕捉它们的组合依赖性。

最佳学生论文奖

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

标题：Cal-SFDA:基于可微期望校准误差的无源域自适应语义分割

作者：Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

简述：本文提出了一种名为Cal-SFDA的新型标定引导的无源领域自适应语义分割框架。该框架的核心思想是估计分割预测的期望校准误差（ECE），作为模型对未标记目标领域的泛化能力的强指示器。反过来，估计的ECE分数有助于模型训练和公平选择源训练和目标适应阶段。在源域上的模型预训练期间，作者通过利用LogSumExp技巧并使用ECE分数来选择最好的源检查点来进行适应，确保了ECE目标的可微性。

荣誉提名奖

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

标题：refinetad：用于时间动作检测的无学习建议细化

作者：Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

简述：本文提出了一种无提议细化方法RefineTAD，用于时间动作检测任务中精细边界定位。该方法通过提出多级细化模块和偏移聚焦策略来逐步改进预测结果，从而在三个具有挑战性的数据集上显著提高了最先进的时间动作检测方法的性能。

创新创意奖

Semantics2Hands: Transferring Hand Motion Semantics between Avatars

标题：Semantics2Hands：在化身之间传递手部动作语义

作者：Zijie Ye, Jia Jia, Junliang Xing

简述：本文提出了一种名为Anatomy-based Semantic Matrix (ASM)的新颖方法，用于在多个化身之间传输手势语义。该方法通过将手势语义编码到ASM中，并使用基于解剖学的语义重构网络（ASRN）来获得源ASM到目标手关节旋转的映射函数，从而实现精确的手势重定向。作者在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练了ASRN，并在域内和跨领域的手势重定向任务中进行了评估。

开源奖

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

标题：情感识别工具包（ERTK）：标准化情感识别研究的工具

作者：Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

简述：本文介绍了一种Python库：情感识别工具包（ERTK），用于情感识别。ERTK包括处理情感数据集的脚本、特征提取器的标准接口以及使用声明性配置文件定义实验的框架。ERTK是模块化和可扩展的，可以轻松地集成其他模型和处理器。当前版本的ERTK主要关注情感语音，但可以轻松扩展到其他模态，这是未来的计划。

最佳演示奖

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

标题：Open-RoadAtlas：利用VLMs进行道路状况调查和实时移动审计

作者：Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

简述：道路测量对于地方政府有效管理道路网络至关重要，但目前的方法存在成本高、耗时且不准确的问题。本文提出了一种自动测量平台，支持杂草、缺陷和资产监控，并利用视觉语言模型提高灵活性。对于特定领域的类别，如路面裂缝和坑洞，该平台通过训练检测器并使用VLMs来减少误报。该系统通过移动应用程序使管理人员直接参与，实现捕捉、上传、实时监控和开放词汇检测等功能。