[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作

​​​​​​Generation of Complex 3D Human Motion by Temporal and Spatial Composition of Diffusion Models

L Mandelli, S Berretti - arXiv preprint arXiv:2409.11920, 2024

通过时间和空间组合扩散模型生成复杂的3D人物动作

摘要

本文提出了一种新的方法,用于生成在训练阶段从未见过的3D人物动作。该方法利用GPT模型的人类动作知识,将复杂动作分解为在训练中观察到的简单动作。然后,这些简单动作通过扩散模型的特性重新组合成单一、逼真的动画。作者声称,这种分解和简单动作的重新组合可以合成准确表示复杂输入动作的动画。这种方法在推理阶段进行操作,并且可以与任何预训练的扩散模型集成,从而实现训练数据集中不存在的动作类别的合成。

技术背景: 生成3D人物动作是计算机图形学和机器学习领域的一个活跃研究方向。该项技术在视频游戏,电影制作和影视娱乐等领域有广泛的应用。随着深度学习技术的发展,研究者们提出了多种方法来生成更自然、逼真的人物动作。不过,先前的研究主要集中在基于文本的条件生成,但这些方法在生成动作时严重依赖于训练数据集中已有的动作。

发展历史: 早期的方法主要依赖于运动捕捉数据的统计模型。近年来,随着深度学习技术的发展,研究者们开始使用生成对抗网络(GANs)、变分自编码器(VAEs)和扩散模型等方法来生成3D人物动作。最近,采用Diffusion Models技术的方法逐步受到重视,该类方法在生成质量和控制方面均有较好的表现。

技术挑战: 

  • 如何生成训练数据中未出现过的动作类别。
  • 如何有效地将复杂的动作分解为简单的、已知的动作,并在生成过程中重新组合。

具体困难:

  • 现有的生成模型通常需要重新训练以包含新的动作类别。
  • 动作的复杂性和多样性使得分解和重组成为一个挑战。

如何破局?

  • 分解与重组: 使用GPT模型将复杂动作分解为简单动作,然后利用扩散模型的属性将这些简单动作重新组合成复杂的动作。
  • 推理阶段操作: MCD方法在推理阶段操作,可以与任何预训练的扩散模型集成,以合成训练数据中不存在的动作类别。

创新点

  1. 提出了一种在训练阶段后从未见过的动作类别的生成方法。
  2. 提出了一种新的通用方法,用于时间和空间上的人体动作组合,无约束条件。
  3. 通过将已知数据集分割成简单和复杂动作,证明了所提出方法的有效性。
  4. 展示了通过同时使用多个文本注释来实现比传统文本条件生成更好的结果。

算法模型

  • MCD (Motion Composition Diffusion): 一种用于在训练阶段后生成未见过的行动的方法。MCD将文本注释分解成训练集中存在的一个或多个已知子动作,每个子动作都有开始和结束时间。在推理过程中,通过扩散去噪的每一步,分别处理每个子动作,然后根据它们各自的开始和结束时间将它们组合起来。
  • GPT分解模块: 使用GPT模型来将输入动作分解成基本动作。
  • 扩散模型: 在推理过程中,用于生成基于分解子动作的最终动作。

实验效果

  • 数据集: 使用HumanML3D和KitML数据集进行实验。
  • 指标: 使用TMR模型评估生成动作与文本之间的相似度,计算M2M(动作与动作之间的相似度)和M2T(生成动作与文本之间的相似度)。
  • 结果: 在两个数据集上,MCD方法在检索得分、嵌入相似度和FID值方面均优于仅使用文本条件生成的动作。
  • 重要数据:
    • R1, R3, R10: 检索得分显示MCD方法在生成动作的语义对齐方面表现更好。
    • M2M, M2T: 嵌入相似度表明MCD生成的动作与原始动作的分布更接近。
    • FID: 生成动作的分布与原始数据集的分布相似度更高。

重要结论: 

MCD方法能够在不需要重新训练新模型的情况下,在推理阶段生成训练集中未包含的动作类别。通过将数据集分割为基础动作和复杂动作,并与仅使用文本条件生成的动作以及最新的动作组合方法进行比较,证明了MCD方法的有效性。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的方法,用于生成训练阶段未出现过的复杂3D人物动作,这对于动画制作、虚拟现实等领域具有重要意义。
- 实验结果表明,所提出的方法在多个评估指标上均优于现有技术,特别是在处理复杂动作生成任务时。
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/884497.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue 学习

vue 核心语法 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Vue 核心语法测试</title> </head><body&…

Vue项目之Element-UI(Breadcrumb)动态面包屑效果 el-breadcrumb

效果预览 需要导航的页面Vue.js 最笨的方法就是在每个需要面包屑的页面中固定写好 <template><div class="example-container"><el-breadcrumb separator="/"

利用多模态输入的自我中心运动跟踪与理解框架:EgoLM

随着增强现实(AR)和虚拟现实(VR)技术的发展,对自我中心(第一人称视角)运动的精确跟踪和理解变得越来越重要。传统的单一模态方法在处理复杂场景时存在诸多局限性。为了解决这些问题,研究者们提出了一种基于多模态输入的自我中心运动跟踪与理解框架——EgoLM。本文将详细…

物流货运托运发货单二联三联打印软件定制 佳易王物流单管理系统操作教程

一、前言 物流货运托运发货单二联三联打印软件定制 佳易王物流单管理系统操作教程 1、软件为绿色免安装版&#xff0c;解压即可使用&#xff0c;已经内置数据库&#xff0c;不需再安装。 2、软件下载可以到本文章最后点击官网卡片下。 二、软件程序教程 1、如图&#xff0c;…

并发面试合集

1.创建线程的方式 区分线程和线程体的概念&#xff0c;线程体通俗点说就是任务。创建线程体的方式&#xff1a;像实现Runnable、Callable接口、继承Thread类、创建线程池等等&#xff0c;这些方式并没有真正创建出线程&#xff0c;严格来说&#xff0c;Java就只有一种方式可以…

Pygame中Sprite实现逃亡游戏4

在《Pygame中Sprite实现逃亡游戏3》中实现了玩家跳跃飞火的效果&#xff0c;接下来通过精灵类的碰撞检测来判断飞火是否击中玩家、飞火是否击中飞龙以及飞龙是否抓住玩家。 1 飞火是否击中玩家的判断 判断飞火是否击中玩家的代码如图1所示。 图1 判断飞火是否击中玩家的代码 …

【07】纯血鸿蒙HarmonyOS NEXT星河版开发0基础学习笔记-Swiper轮播组件与样式结构重用

序言&#xff1a; 本文详细讲解了关于我们在页面上经常看到的轮播图在鸿蒙开发中如何用Swiper实现&#xff0c;介绍了Swiper的基本用法与属性&#xff0c;及如何面对大段的重复代码进行封装和重用&#xff08;Extend、Styles、Builder&#xff09;&#xff0c;使代码更加简洁易…

Miniforge详细安装教程(macOs和Windows)

(注&#xff1a;主要是解决商业应用anaconda收费问题&#xff0c;这是轻量级的代替&#xff0c;个人完全可以使用anaconda和miniconda) Miniforge 是一个轻量级的包管理器&#xff0c;类似于 Anaconda 和 Miniconda。它主要用于安装基于 conda 的 Python 环境&#xff0c;专注于…

9.26 Buu俩题解

[CISCN2019 华东北赛区]Web2 看wp写完之后写的 知识点 存储型XSS与过滤绕过sql注入 题解 好几个页面&#xff0c;存在登录框可以注册&#xff0c;存在管理员页面(admin.php) ->既然存在管理员页面&#xff0c;且直接访问admin.php提示我们 说明存在身份验证&#xff0…

K8S的Pod IP

pod 的ip 一般是提供给pod1与pod2之间的通信&#xff0c;它有两个特点 1. Pod IP会随着Pod实例 的创新创建&#xff08;重启&#xff09;发生变化&#xff1b; 2. Pod IP只在集群内节点可见&#xff0c;外部无法直接访问

椭圆距离计算的简单方法

分析发现找到点到椭圆的最近距离等价于求解一元四次方程。想象一下一个圆和一个椭圆最多相交四次。从这个观点出发,问题转化为找到与椭圆仅相交一次的圆。如果用四次方程表示,其中两个根将在交点处共享,而另外两个根将会是复数。 尽管四次方程的封闭解确实存在,但迭代方法更…

使用Python和OpenCV生成灰阶图像

代码如下&#xff1a; import cv2 import numpy as npimg np.zeros((256, 256), np.uint8)for i in range(0,16):for j in range(0,16):img[i*16:(i1)*16][j*16:(j1)*16]i*16jcv2.imwrite(result.jpg, img) 效果如下&#xff1a;

Power Automate 设置流Owner不生效的bug

在查找某个功能没生效时&#xff0c;定位到是一个Power automate的流停了&#xff0c;查看原因是因为创建流的owner被disable了 但是当把流的owner更新为可用的用户时&#xff0c;流依旧没被触发&#xff0c;触发的条件很简单&#xff0c;某个表的记录创建时&#xff0c;因为是…

操作系统与进程

1.操作系统 操作系统是计算机中的一个重要软件&#xff0c;它是一个专门进行管理的软件。操作系统可以通过驱动程序来间接管理外部硬件&#xff0c;也可以为计算机中的程序提供一个稳定的运行环境&#xff0c;从而来方便管理各种程序的运行&#xff0c;让程序之间的运行互不影…

传知代码-基于图神经网络的知识追踪方法(论文复现)

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 1.论文概述 论文链接提出了一种基于图神经网络的知识追踪方法&#xff0c;称为基于图的知识追踪&#xff08;GKT&#xff09;。将知识结构构建为图&#xff0c;其中节点对应于概念&#xff0c;边对应于它们之间的…

【JavaEE】——单例模式引起的多线程安全问题:“饿汉/懒汉”模式,及解决思路和方法(面试高频)

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯&#xff0c;你们的点赞收藏是我前进最大的动力&#xff01;&#xff01;希望本文内容能够帮助到你&#xff01; 目录 一&#xff1a;单例模式&#xff08;singleton&#xff09; 1&#xff1a;概念 二&#xff1a;“饿汉模…

Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs

文章目录 题目摘要引言透明度的必要性对信任的追求困惑度测量自然语言处理(NLP)评估指标零投学习绩效少量学习性能迁移学习对抗测试公平和偏见稳健性评估LLMMaps基准测试和排行榜分层分析布鲁姆分类法的可视化幻觉评分知识分层策略利用机器学习模型进行层级生成注意力可视化LLM…

css五种定位总结

在 CSS 中&#xff0c;定位&#xff08;Positioning&#xff09;主要有五种模式&#xff0c;每种模式的行为和特点不同&#xff0c;以下是 static、relative、absolute、fixed 和 sticky 五种定位方式的对比总结&#xff1a; 1. static&#xff08;默认定位&#xff09; 特性…

阿里云函数计算 x NVIDIA 加速企业 AI 应用落地

作者&#xff1a;付宇轩 前言 阿里云函数计算&#xff08;Function Compute, FC&#xff09;是一种无服务器&#xff08;Serverless&#xff09;计算服务&#xff0c;允许用户在无需管理底层基础设施的情况下&#xff0c;直接运行代码。与传统的计算架构相比&#xff0c;函数…

【2023工业3D异常检测文献】PointCore: 基于局部-全局特征的高效无监督点云异常检测器

PointCore: Efficient Unsupervised Point Cloud Anomaly Detector Using Local-Global Features 1、Background 当前的点云异常检测器可以分为两类&#xff1a; &#xff08;1&#xff09;基于重建的方法&#xff0c;通过自动编码器重建输入点云数据&#xff0c;并通过比较原…