GAMES Webinar 317-渲染专题-图形学 vs. 视觉大模型|Talk+Panel形式

  • 两条路线:传统渲染路线,生成路线
    • 两种路线的目的都是最终生成图片或者视频等
    • 在现在生成大火的情况下,传统路线未来该如何发展呢,两种路线是否能够兼容呢

严令琪

  • 这篇工作是吸取这两条路各自优势的一篇工作
    • RGB是一张图,X是生成模型根据图片生成的东西,可以认为是一个buffer(特征性,控制性的东西),它可以被修改,并且可以再生成一张图
  • 想生成真实的图and又想精准的控制,就是这篇文章的思想
  • X: intrinsic channels(G-buffers)是几何缓冲区
    • 现在是用X去生成RGB图,当然也沿用以前的语言模型,也就是文本
    • 当然这个工作也完成了给一张RGB图,从中提取G-buffers
    • 这个工作可以让X生成RGB的过程可控,也就是可以生成想要的图,支持图片编辑(比如,给一张RGB图,提取出G-buffers,修改,再生成图)

RGB->X

  • 可以根据文本(关键词)提取出最多这五种信息

X->RGB

  • 根据X的信息可以走传统的渲染过程,也可以不走,用扩散模型生成
  • 也不用把X的五种信息都给才生成图片,给哪些,哪些就体现在生成结果上

pipeline

Results






霍宇驰







  • 对于AI来说,未来NPU应该比GPU更重要

sora

  • sora是一种模糊语言来生成,也就是文本
    • 未来可能可以通过模糊文本一点点修改结果到自己需求那样
  • 传统的图像管线是精细化生成,sora是模糊生成
    • 而且传统的管线,前面几步骤完成后,最后结果的生成不用再做前面一些步骤,但sora每次都要从0开始
  • 具体用哪个看需求是在精细度的哪个层级
  • 目前也有很多工作在把两个连接起来

王利民




  • 第一阶段单模态的信息抽取
  • 第二阶段多模态,涉及到音频和文本,要进行对齐
  • 第三阶段多模态的生成与对话能力

第一阶段

  • 将视频进行掩码处理,再生成

第二阶段

  • 多模态对齐

第三阶段







总结

王申龙


QA

  • sora如此强大,传统图形学是否与到了大挑战?
    • 闫令琪:它是有缺陷的,比如会凭空多东西,少东西,这些缺陷可能在这个时代,在sora表现这么好的情况下,可以容忍,但它是不好解决的,因为它是神经网络控制的,不是那么可控。sora它现在是一个快速发展阶段,但它一定会进入瓶颈期的,包括传统的渲染生成,也进入过瓶颈期,也就是从0到90,快速发展,但最后10是很难完成的,比如比较好的控制,小瑕疵的解决
    • 霍宇驰:我同意sora能做到百分之90,95的效果,但它比较适合做一些离线工作,在实时工作中出现百分之10、5的错误是不能容忍的。在实时和交互方面,图形学应该是有一定优势
    • 王利民:不止sora,包括gpt这些也是存在幻觉的,它是不好解决的,未来一定要加入理解和约束的知识来控制生成,尽管sora它会有瑕疵,但是它肯定会慢慢被接受,比如自动驾驶:找一个老司机开也会犯错误
    • 王申龙:社区有非常大的优势,它能够让一个什么也不会的人做生成
  • 光线追踪还能打几年,或者还有几年要失业?
    • 严令琪:具体情况要看应用,需要精准控制的还是要走这种完全可控的渲染路线。实时渲染没有任何可以修正的余地,用生成性模型生成失败了怎么办,比如打游戏。很多东西会有一个长期共存的状态,比如从光栅化转到光线追踪,已经很多年了,但现在还是处于共存状态
    • 霍宇驰:光线追踪一定会存在一些特定领域,但蛋糕就这么大,sora一定会切走一块
  • 进行城市级别的场景生成会有什么困难?
    • 王申龙:要保持从A到B然后再回到A,还是相同的A是比较困难的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/522950.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes学习笔记7

使用kubeadm部署Kubernetes集群方法 使用kubernetes部署单节点Master节点K8s集群。 在实际生产环境中,是不允许单master节点的,如果单master节点不可用的话,当导致我们的K8s集群无法访问。 可以使用kubeadm将单master节点升级为多master节点…

客户银行主数据批导

程序:ZSDR0005 *&---------------------------------------------------------------------* *& Report ZSDR0005 *&---------------------------------------------------------------------* *& *&----------------------------------------…

C++ //练习 11.23 11.2.1节练习(第378页)中的map以孩子的姓为关键字,保存他们的名的vector,用multimap重写此map。

C Primer(第5版) 练习 11.23 练习 11.23 11.2.1节练习(第378页)中的map以孩子的姓为关键字,保存他们的名的vector,用multimap重写此map。 环境:Linux Ubuntu(云服务器)…

使用LIMIT进行分页

SELECT employee_id, first_name, salary FROM employees LIMIT 0, 5; 0为偏移量, 5为条目数 每页pageSize条记录,显示第page页 LIMIT (page - 1) * pageSize, pageSize; # 或者 LIMIT pageSize OFFSET (page - 1) * pageSize;

主食冻干哪个牌子好?热门大牌真实实测分享,轻松避雷!

在选购主食冻干时,很多铲屎官都面临着选进口还是国产的难题。很多铲屎官认为进口产品在品控和配方上更优秀,但实际营养指标却逊于国产,价格也不菲。所以不免选购时会犹豫,最后抱着试一试的心态盲入主食冻干,运气好&…

如何利用GSG-721与ublox GNSS接收机实现RTK功能仿真?

作者介绍 一、前言 实时动态载波相位差分技术(RTK)是应用测量来纠正当前卫星导航(GNSS)系统的常见误差。RTK定位是基于至少两个GNSS接收机——参考站和一个或多个流动站。参考站在可视卫星中获取测量数据,然后将这些数…

numpy,matplotilib学习(菜鸟教程)

所有内容均来自于: NumPy 教程 | 菜鸟教程 Matplotlib 教程 | 菜鸟教程 numpy模块 numpy.nditer NumPy 迭代器对象 numpy.nditer 提供了一种灵活访问一个或者多个数组元素的方式。 for x in np.nditer(a, orderF):Fortran order,即是列序优先&#x…

离职潮下的企业信息安全挑战及防范策略

随着社会经济环境的快速变化,企业员工流动性加剧,尤其在离职潮下,企业不仅要关注人力资源配置与团队稳定性,更要重视由此引发的信息安全挑战。离职员工带走的不仅仅是职位空缺,更可能携带着大量内部敏感信息&#xff0…

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测

分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测 目录 分类预测 | Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支持向量机数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 1.Matlab实现ABC-LSSVM人工蜂群算法优化最小二乘支…

基于单片机便携式太阳能充电器系统设计

**单片机设计介绍,基于单片机便携式太阳能充电器系统设计 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机便携式太阳能充电器系统设计概要主要涉及利用单片机作为核心控制器件,结合太阳能充电技术和便携式…

基于SpringBoot+微信小程序的智慧医疗线上预约问诊小程序

一、项目背景介绍: 近年来,随着互联网技术的不断发展,人们的生活和工作方式也在逐渐改变。其中,医疗行业也受到了极大的影响。由于传统医疗行业存在着很多问题,例如就医难、看病贵等,因此出现了许多新型医疗…

窜天猴AI直播软件功能列表

迎新点名:新进直播间的用户随机指数级自由组合话术,并播报出来 礼物/关注:用户送礼物、关注以及灯牌事件同上根据话术指数级随机组合出来评论区关键字回复:用户评论后,根据预设置的关键字进行语音回复 自动寻品&…

蓝桥杯算法心得——字典树考试(贡献度+前缀和)

大家好,我是晴天学长,贡献度的题,找到技巧非常重要,需要的小伙伴可以关注支持一下哦!后续会继续更新的。💪💪💪 1) .字典树考试 字典树考试 问题描述 蓝桥学院最近教学了字典树这一数…

C51_串口通信

通信协议介绍 并行通信和串口通信 并行通信的各个位同时传输,每一位数据都需要一条传输线。优点是传输快,适合短距离传输,但是成本高串行通信将数据分成位的形式,在一条传输线上逐个传输 单工、半双工和全双工数据传输 单工数…

C语言之联合体

与结构体一样,联合体也是由多个成员组成,但是编译器只为最大的成员分配足够的空间,联合体的所有成员共用一块空间,所以联合体也叫共用体。 1.声明:类似结构体的声明,只是名字是union不是struct。声明并计算…

大模型学习笔记一

前言 随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。 一、AI是什么? 二、大模型能干什么 大模型,全称「大语言模型」,英文「Large…

Git 配置BCompare工具

一、Git配置BCompare工具 1、安装BCompare工具 下载BCompare安装包,打开安装包直接安装即可,如下: 2、禁止BCompare访问网络 网络进出站进行配置,限制BCompare访问网络,如果不进行上网限制,可能存在被封的…

ubuntu 23 安装maven

要在 Ubuntu 23 系统上安装 Maven,请遵循以下步骤: **1. ** 确保已安装 Java Development Kit (JDK): Maven 需要 Java 环境才能运行。确认您的系统已经安装了 JDK 8 或更高版本。如果尚未安装,可以通过以下命令安装 OpenJDK: s…

python学习笔记——类

1. 类和对象**** 类、类属性、类方法不需要实例化就可以直接访问 实例相关,如实例属性、实例方法必须实例化后才可以访问 1.1. 类、类属性、实例属性、私有属性**** 1.1.1. 定义**** 类就是拥有相同属性和功能对象的集合 动物:猫、狗、鸡 人类&…

HTML+CSS+JavaScript网页制作案例教程第2版-黑马程序员-第7章动手实践

7.6 动手实践 学习完前面的内容&#xff0c;下面动手实践一下吧。 请结合给出的素材&#xff0c;运用元素的浮动和定位实现图7-49所示的“焦点图”效果。 链接&#xff1a;https://pan.baidu.com/s/1H98ySBSkd8h3IRA19AV2mw?pwd1024 提取码&#xff1a;1024 index.html <…