Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。该系统不仅能够保持细致的物种特征,还能通过插值和采样生成全新的部件。通过自监督特征一致性损失,Chirpy3D确保了未见部件的稳定生成,展现了其在细粒度3D生成领域的创新能力。

生成的由不同部分组成的活泼的 3D 鸟类。Chirpy3D 从原始 2D 图像中学习部分潜在空间,并且可以通过探索部分潜在空间生成高质量的创意 3D 鸟类。(顶部)现有物种,(底部)新物种

相关链接

  • 论文:http://arxiv.org/abs/2501.04144v1

  • 主页:https://github.com/kamwoh/chirpy3d

论文介绍

论文将细粒度 3D 生成的边界推向了真正具有创造性的领域。当前的方法要么缺乏复杂的细节,要么只是模仿现有对象——我们同时实现了这两种方法。通过多视图扩散将 2D 细粒度理解提升到 3D,并将部分潜在建模为连续分布,我们解锁了通过插值和采样生成全新但合理部分的能力。自监督特征一致性损失进一步确保了这些看不见的部分的稳定生成。结果是第一个能够创建具有超越现有示例的物种特定细节的新型 3D 对象的系统。虽然我们在鸟类身上展示了我们的方法,但底层框架超越了会鸣叫的事物!

方法

Chirpy3D 的整体架构。(顶部)在训练期间,我们仅使用鸟类的 2D 图像对文本到多视图扩散模型(例如 MVDream)进行微调。我们的目标是通过建模连续的部分感知潜在空间来学习底层的部分信息。这是通过学习一组物种嵌入 e,通过可学习的 f 将它们投射到部分潜在 l 中,通过可学习的 g 解码为词嵌入 t 并插入文本提示来实现的。我们训练具有扩散损失(等式 5)和多个损失目标的扩散模型 - Lreg(等式 2)将部分潜在建模为高斯分布,Lattn(等式 6)用于部分解缠,以及我们提出的 Lcl(等式 4)以增强视觉连贯性。f 和 g 是可训练模块。为了提高训练效率,我们在 U-Net 的交叉注意层中添加了 LoRA 层。 (底部)在推理过程中,我们可以首先通过选择所需的部分潜在特征作为条件来预览多视图图像,然后通过 SDS 损失 LSDS 将它们转换为 3D 表示(例如 NeRF)。

结果

两个不同物种(蓝松鸦和白鹈鹕)的主题生成。

部分组成的视觉比较。A、B、C、D、E、F 分别代表红雀、威尔逊莺、最小海雀、加州鸥、角百灵和歌带鹀。红色圆圈表示已更改的部分。所有部分(包括源和目标)均由同一种子生成。

蓝松鸦和红雀两种不同物种之间所有部分潜伏值的线性插值。仅显示一个视图。我们的 Chirpy3D 实现了更平滑的插值,而不像 PartCraft 在某个步骤后表现出突然切换现象(红色框)

结论

Chirpy3D是一个细粒度 3D 生成框架,它通过多视图扩散将 2D 理解提升到 3D,将部分潜在信息建模为连续的。所有图像都是用相同的相机姿势生成的但在看不见的潜在信息上使用不同的种子。

连续分布并规范特征一致性以稳定看不见部分的生成。这种方法可以创建具有前所未有的细粒度细节和创作自由的新型 3D 对象。虽然该方法是在鸟类身上进行演示,但这种方法也可以应用于其他物体。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/966832.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Git】ssh如何配置gitlab+github

当我们工作项目在gitlab上,又希望同时能更新自己个人的github项目时,可能因为隐私问题,不能使用同一′密钥。就需要在本地电脑上分别配置两次ssh。 1、分别创建ssh key 在用户主目录下,查询是否存在“.ssh”文件: 如…

用python获取AH股股票列表并且输出-附源代码

用python 获取在A股和香港上市的公司和在A股和香港上市的公司股票代码和名称 import akshare as akdef get_ah_stocks():# 获取A股股票列表a_stock_list ak.stock_zh_a_spot_em()a_stock_list a_stock_list[["代码", "名称"]]# 获取港股股票列表h_stock…

继承QLineEdit类实现自动补全功能

QlineEdit类本身是没有自动补全功能的,可以使用QCompleter配合实现功能。 但是在开发过程中发现,输入的字符串如果匹配那么QCompleter类会弹窗显示匹配项,如果输入的字符串不匹配则QCompleter类会关闭弹出(这点我也倒是能理解,没有…

VMware Workstation Pro 免注册下载链接

VMware Workstation Prohttps://softwareupdate.vmware.com/cds/vmw-desktop/ws/https://softwareupdate.vmware.com/cds/vmw-desktop/ws/ 访问不了或下载速度慢挂VNP

【如何掌握CSP-J 信奥赛中的深搜算法】

CSP-J 信奥赛中的深搜(深度优先搜索)算法是一个重要知识点,以下是一些学习深搜算法的建议: 理解基础概念 定义与原理:深度优先搜索是一种用于遍历或搜索图、树等数据结构的算法。它从起始节点开始,沿着一条…

BFS解决拓扑排序(3题)

目录 拓扑排序 1.如何排序? 2.如何形成拓扑排序 3.如何建图 1.看数据稠密度 2. 根据算法流程灵活建图 1.课程表 2.课程表2 3.火星词典 拓扑排序 找到做事情的先后顺序,拓扑排序的结果可能不是唯一的 1.如何排序? 1.找出图中入度为…

区块链技术:Facebook 重塑社交媒体信任的新篇章

在这个信息爆炸的时代,社交媒体已经成为我们生活中不可或缺的一部分。然而,随着社交平台的快速发展,隐私泄露、数据滥用和虚假信息等问题也日益凸显。这些问题的核心在于传统社交媒体依赖于中心化服务器存储和管理用户数据,这种模…

机器学习-关于线性回归的表示方式和矩阵的基本运算规则

最近在学习机器学习的过程中,发现关于线性回归的表示和矩阵的运算容易费解,而且随着学习的深入容易搞混,因此特意做了一些研究,并且记录下来和大家分享。 一、线性模型有哪些表示方式? 器学习中,线性模型…

安宝特方案 | AR助力制造业安全巡检智能化革命!

引言: 在制造业中,传统巡检常面临流程繁琐、质量波动、数据难以追溯等问题。安宝特AR工作流程标准化解决方案,通过增强现实AR技术,重塑制造业安全巡检模式,以标准化作业流程为核心,全面提升效率、质量与…

【deepseek】利用deepseek+cherry构建高效本地知识库

项目简介 本项目旨在开发一个高效、准确且用户友好的智能问答系统。该系统利用先进的向量化技术和深度学习模型来理解和回答用户的提问。通过整合多个模块的功能,系统能够从大量结构化或非结构化的数据中快速找到相关信息,并以自然语言的形式提供答案。…

小程序实现消息订阅通知完整实践及踩坑记录

1. 实现效果预览 2. 实现步骤 2.1 模版配置 进入小程序后端,选用一次性订阅模版,没有关键字的需要进行2-5天审核,提前进行 2.2 后端核心代码实现 import com.alibaba.fastjson2.JSONObject

vue学习4

1.自定义创建项目 2.ESlint代码规范 正规的团队需要统一的编码风格 JavaScript Standard Style 规范说明:https://standardjs.com/rules-zhcn.html 规则中的一部分: (1)字符串使用单引号 ‘aabc’ (2)无分号 const name ‘zs’ (3)关键字后加空格 if(n…

基于改进型灰狼优化算法(GWO)的无人机路径规划

内容: 基于改进型灰狼优化算法的无人机轨迹规划 GWO是一种群体智能优化算法,模仿灰狼的社会等级和狩猎行为。原始的GWO有一些局限性,比如容易陷入局部最优,收敛速度慢等,所以改进型的GWO可能通过不同的策略来优化这些…

最短路径问题-------Dijkstra算法

定义: Dijkstra(迪杰斯特拉)算法是计算单源最短路径算法,用于计算一个结点到其他所有结点的最短路径。该算法以源点为起始点,不断更新其他点到已经确定距离结点的距离,选取距离最小的结点加入S集合,直到S集合存放有所…

Deepseek-v3 / Dify api接入飞书机器人go程序

准备工作 开通了接收消息权限的飞书机器人,例如我希望用户跟飞书机器人私聊,就需要开通这个权限:读取用户发给机器人的单聊消息 im:message.p2p_msg:readonly准备好飞书机器人的API key 和Secretdeepseek-v3的api keysecret:http…

Cherry Studio:一站式多模型AI交互平台深度解析 可配合大模型搭建私有知识库问答系统

Cherry Studio:一站式多模型AI交互平台深度解析 可配合大模型搭建私有知识库问答系统 大模型本地化部署流程可查看文章 3分钟教你搭建属于自己的本地大模型 DeepSeek Cherry Studio地址:https://cherry-ai.com/download Cherry Studio 简介 Cherry S…

WGCLOUD监控系统部署教程

官网地址:下载WGCLOUD安装包 - WGCLOUD官网 第一步、环境配置 #安装jdk 1、安装 EPEL 仓库: sudo yum install -y epel-release 2、安装 OpenJDK 11: sudo yum install java-11-openjdk-devel 3、如果成功,你可以通过运行 java …

SolidWorks速成教程P2-5【草图 | 第五节】——草图镜像实体、阵列

SolidWorks教程草图阶段的最后一节,这节来分享草图镜像与阵列功能(线性草图阵列、圆周草图阵列 ) 目录 1.镜像实体 2.阵列 1.镜像实体 我们先学习镜像实体功能,我们进入草图绘制,用鼠标笔势激活圆,在圆…

区块链100问之加密算法

区块链100问之加密算法 文章目录 区块链100问之加密算法哈希算法是什么?有什么特征?哈希碰撞是什么?雪崩效应呢?如何解决?哈希算法的作用?对称加密和非对称加密有什么区别?为什么会引入非对称加密&#xf…

从“听指令”到“会思考”:工业机器人的人工智能融合之旅

随着人工智能技术的快速发展,工业机器人系统正在逐步与AI进行深度融合,进而提升其自动化程度和智能化水平。从技术实现和工业应用的角度来看,AI与机器人系统的集成方式可以分为四个层次,按照集成程度由低到高进行排序。以下是四种…