多媒体领域顶会ACM MM 2023 获奖论文一览

ACM 国际多媒体会议是计算机科学领域中多媒体领域的顶级会议,属于CCF A类。今年的ACM MM 2023 已于2023年10月29日至11月2日在加拿大渥太华举行。

ACM MM会议专注于推动多媒体研究和应用,其研究领域广泛涉及触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等多个新兴领域。该会议的热门研究方向包括大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。想发paper的同学们冲起。

我这次帮大家整理了今年ACM MM 2023的获奖论文,并且做了简单的介绍,原文及源码需要的同学看文末

最佳论文奖

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation

标题:CATR:面向音视频分割的组合依赖音频查询Transformer

作者:Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xiao

简述:音视频分割(AVVS)旨在生成图像帧内产生声音的对象的像素级映射,并确保该映射准确地遵循给定的音频。现有方法存在两个限制:1)它们分别处理视频时间特征和音视频交互特征,忽略了组合音频和视频的内在时空依赖性;2)它们在解码阶段不充分引入音频约束和对象级信息,导致分割结果不符合音频指令。为了解决这些问题,本文提出了一种解耦的音视频转换器,从各自的时间和空间维度中结合音频和视频特征,捕捉它们的组合依赖性。

最佳学生论文奖

Cal-SFDA: Source-Free Domain-adaptive Semantic Segmentation with Differentiable Expected Calibration Error

标题:Cal-SFDA:基于可微期望校准误差的无源域自适应语义分割

作者:Zixin Wang, Yadan Luo, Zhi Chen, Sen Wang, Zi Huang

简述:本文提出了一种名为Cal-SFDA的新型标定引导的无源领域自适应语义分割框架。该框架的核心思想是估计分割预测的期望校准误差(ECE),作为模型对未标记目标领域的泛化能力的强指示器。反过来,估计的ECE分数有助于模型训练和公平选择源训练和目标适应阶段。在源域上的模型预训练期间,作者通过利用LogSumExp技巧并使用ECE分数来选择最好的源检查点来进行适应,确保了ECE目标的可微性。

荣誉提名奖

RefineTAD: Learning Proposal-free Refinement for Temporal Action Detection

标题:refinetad:用于时间动作检测的无学习建议细化

作者:Yue Feng, Zhengye Zhang, Rong Quan, Limin Wang, Jie Qin

简述:本文提出了一种无提议细化方法RefineTAD,用于时间动作检测任务中精细边界定位。该方法通过提出多级细化模块和偏移聚焦策略来逐步改进预测结果,从而在三个具有挑战性的数据集上显著提高了最先进的时间动作检测方法的性能。

创新创意奖

Semantics2Hands: Transferring Hand Motion Semantics between Avatars

标题:Semantics2Hands:在化身之间传递手部动作语义

作者:Zijie Ye, Jia Jia, Junliang Xing

简述:本文提出了一种名为Anatomy-based Semantic Matrix (ASM)的新颖方法,用于在多个化身之间传输手势语义。该方法通过将手势语义编码到ASM中,并使用基于解剖学的语义重构网络(ASRN)来获得源ASM到目标手关节旋转的映射函数,从而实现精确的手势重定向。作者在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练了ASRN,并在域内和跨领域的手势重定向任务中进行了评估。

开源奖

Emotion Recognition ToolKit (ERTK): Standardising Tools For Emotion Recognition Research

标题:情感识别工具包(ERTK):标准化情感识别研究的工具

作者:Aaron Keesing, Yun Sing Koh, Vithya Yogarajan,Michael Witbrock

简述:本文介绍了一种Python库:情感识别工具包(ERTK),用于情感识别。ERTK包括处理情感数据集的脚本、特征提取器的标准接口以及使用声明性配置文件定义实验的框架。ERTK是模块化和可扩展的,可以轻松地集成其他模型和处理器。当前版本的ERTK主要关注情感语音,但可以轻松扩展到其他模态,这是未来的计划。

最佳演示奖

Open-RoadAtlas: Leveraging VLMs for Road Condition Survey with Real-Time Mobile Auditing

标题:Open-RoadAtlas:利用VLMs进行道路状况调查和实时移动审计

作者:Djamahl Etchegaray, Yadan Luo, Zachary FitzChance,Anthony Southon, Jinjiang Zhong

简述:道路测量对于地方政府有效管理道路网络至关重要,但目前的方法存在成本高、耗时且不准确的问题。本文提出了一种自动测量平台,支持杂草、缺陷和资产监控,并利用视觉语言模型提高灵活性。对于特定领域的类别,如路面裂缝和坑洞,该平台通过训练检测器并使用VLMs来减少误报。该系统通过移动应用程序使管理人员直接参与,实现捕捉、上传、实时监控和开放词汇检测等功能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“ACMMM”领取全部获奖论文及源码

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/157820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity 场景烘培 ——LensFlare镜头光晕(三)

提示:文章有错误的地方,还望诸位大神指出! 文章目录 前言一、镜头光晕 (Lens Flares)是什么?二、使用Lens Flares组件总结 前言 一般情况下都会忽略的东西,镜头光晕。理论上不加镜头光晕,也不会有什么影响…

Linux---(七)Makefile写进度条(三个版本)

文章目录 一、前提引入🎗️下面的代码什么现象?🎗️下面的代码什么现象? 二、缓冲区三、回车换行🎗️注意🎗️图解🎗️老式回车键造型(意思是充当两个动作)🎗…

洛谷 P3131 [USACO16JAN] Subsequences Summing to Sevens S

被普及-卡的没思路真是蒟蒻啊233 优化思路 每次都在枚举(a[r]-a[l-1])%70,所以可以认为数组大小对最终答案没有影响,考虑对前缀和数组取模,那么如果有a[r]的值等于a[l-1]的值相等(即余数相等),那么两者相减…

C++实现KNN和K-Means

学校机器学习课程的实验课要求实现KNN和K-Means: (平时没听课)临时去查了一下KNN和K-Means是啥,然后自己用C写了小例子,想着写都写了那就把代码贴出来吧。 顺便再聊聊自己对于这俩算法的理解。 下面是文心一言的回答…

如何快速下载mysql的不同版本并启动mysql服务?

如何快速下载mysql的不同版本并启动mysql服务? 下载mysql的安装版本 首先我们要使用到迅雷去下载,因为迅雷下载是很快的。在迅雷里面搜索下面的Mysql Installer安装窗口,如下图: 连接:https://dev.mysql.com/downlo…

如何避免被他人“背刺”?

请公主们、王子们,花点时间看一下,谢谢。 在人与人相处中,难免不会碰上与人合作交往,虽然大多数时候我们是选择熟悉一点的朋友,但是也不能掉以轻心,现实生活中也不是不存在被亲戚朋友“背刺”,…

MySQL主从同步

文章目录 MySQL主从同步概述MySQL主从同步原理MySQL主从同步结构模式MySQL主从同步搭建搭建步骤一主一从实验环境master主机slave1主机验证主从同步 一主多从master主机slave2主机验证主从同步 链式复制(主从从)slave1主机slave2主机验证链式复制 MySQL主…

SpringBoot2—基础篇

目录 快速上手SpringBoot • SpringBoot入门程序开发 基于Idea创建SpringBoot工程(一) 基于官网创建SpringBoot工程(二) 基于阿里云创建SpringBoot工程(三) 手工创建Maven工程修改为SpringBoot工程&…

GPT-4V新玩法登顶GitHub热榜,随手一画就能生成网页!web开发者:感受到了威胁

西风 发自 凹非寺 量子位 | 公众号 QbitAI 随手一画就能生成网页!GPT-4V新玩法登顶GitHub热榜,狂揽3000🌟: 现在只要简单画一画,框一框,点击执行: “啪”地一下,一个带有各种“按钮…

Apriori算法

Apriori算法由R. Agrawal和R. Srikant于1994年在数据集中寻找布尔关联规则的频繁项集。该算法的名称是Apriori,因为它使用了频繁项集属性的先验知识。我们应用迭代方法或逐层搜索,其中k-频繁项集用于找到k1个项集。 为了提高频繁项集逐层生成的效率&…

oracle21c安装报错【[INS-32014] 指定的 Oracle 基目录位置XXX无效】

一.问题 [INS-32014] 指定的 Oracle 基目录位置XXX无效 二.解决办法 安装包的文件放置不可以在中文字文件夹下面,改为英文【soft】,就可以成功安装完成了!

米尔AM62x核心板,高配价低,AM335x升级首选

AM335x是TI经典的工业MPU,它引领了一个时代,即工业市场从MCU向MPU演进,帮助产业界从Arm9迅速迁移至高性能Cortex-A8处理器。随着工业4.0的发展,HMI人机交互、工业工控、医疗等领域的应用面临迫切的升级需求,AM62x处理器…

mysql统计整个数据库记录条数

SELECTSUM(TABLE_ROWS) FROM(SELECTTABLE_NAME,TABLE_ROWSFROMINFORMATION_SCHEMA.TABLESWHERETABLE_SCHEMA 数据库名,其他不变) t;效果如下:

[pybind11] debug C++代码

首先要有一个项目,我发布在github上了【传送门】 项目的结构如下: 其中src目录下是C代码,test.py是python测试代码。 然后直接开始演示。 1、把项目下载到本地 git clone --recursive https://github.com/immortalmin/pybind11_debug_eg.g…

4月2日-3日·上海 | 3DCC 第二届3D细胞培养与类器官研发峰会携手CGT Asia 重磅来袭

类器官(Organoids)作为干细胞研究领域最重要的成果之一,在基础医学研究、转化医学及药物研发领域展现出巨大的应用潜力,特别是在精准医疗以及药物安全性和有效性评价等方向凭借其先天优势引起了极大的市场关注,成为各大…

采访仁川市政府:探索《仁川登陆行动》体验及其 NFT 作品集背后的故事!

请简单介绍一下自己 大家好,我是仁川市政府品牌经理崔俊浩,负责《仁川登陆行动》的元宇宙活动。很高兴见到您。 是什么启发了你创作《仁川登陆行动》体验? 《仁川登陆行动》并未得到广泛认可,并且被认为是一项几乎不可能完成的任务…

golang学习笔记——斐波纳契数列

斐波纳契数列 编写一个程序来计算某个数字的斐波纳契数列。 斐波那契数列是一个数字列表,其中每个数字是前两个斐波那契数字之和。 例如,数字 6 的序列是 1,1,2,3,5,8,数字 7 的序列是 1,1,2,3,5,8,13,数字 8 的序列是 1,1,2,3,5…

前端实现页面内容的截图与下载(html2canvas)

今天是一个发文的好日子😀~ 👇👇👇 一个需求,要截取页面中的内容并截图保存,来看一看我是怎么实现的吧: 这里需要使用到插件--html2canvas 1.安装并引入html2canvas npm install html2canv…

创作者焦点:Temple of Dum-Dum(试炼 3)

《Bomkus 博士的试炼》创作的幕后花絮。 《创作者焦点》系列共分为六部分,重点介绍《Bomkus 博士的试炼》的游戏创作过程及其独特的游戏功能。 Temple of Dum-Dum: Temple of Dum-Dum 是 Bomkus 博士试炼中的第三个挑战,该试炼由六项体验组成…

阎良区公益创投之“小飞机大梦想” 航模DIY主题活动

创造是人类探索迈出的第一步,科学是开启奇妙世界的金钥匙。为进一步提升“未来星”对科技知识的兴趣,培养他们的科学创新精神,11月16日,阎良区社会组织公益创投——“未来星”助力乡村留守儿童成长计划项目在阎良区聚宝小学开展“…