DataWhale公开课笔记2:Diffusion Model和Transformer Diffusion

Stable Diffusion和AIGC

AIGC是什么

AIGC的全称叫做AI generated content,AlGC (Al-Generated Content,人工智能生产内容),是利用AI自动生产内容的生产方式。

在传统的内容创作领域中,专业生成内容(PGC)和用户生成内容(UGC)一直是两大主流模式,共同构成了内容生产的核心来源。专业生成内容通常由专业团队或机构制作,具有高质量和专业性,而用户生成内容则是由普通用户创作和分享的内容,具有更多的个性化和多样性。

然而,随着科技的不断进步,人工智能生成内容(AIGC)的兴起正在带来一场革命性的变革。通过人工智能技术,内容的生成过程变得更加自动化和智能化,不仅让人工智能具备了对世界的感知与理解能力,还进一步将其延伸至创造性生成层面。这一转变意味着内容创作的方式和方法发生了根本性的变化,也表明人工智能生成内容将在未来深刻影响并重塑各行业内容生产的范式和格局。
在这里插入图片描述

AIGC的发展依赖如下三个要素:

  • 更强,同时也是更便宜的算力
  • 更多的高质量数据集,包括文本、语音、视觉和多模态
  • 模型技术的发展,更具有扩展性和更好的模型,比如Transformers和diffusion model

所以AIGC能做的,且做得比较好的领域越来越多,包括:

  • 自然语言领域(比如代码生成、论文写作、诗歌对联、剧本创作,agent智能体)
  • 语音领域(比如语音合成,音乐生成,个性化声音生成),
  • 视觉领域的图像生成(stable diffusion, mid-journey)、以及最近也发展很迅速的视频生成(sora)。

AIGC的发展(以Picture Generation任务为例)

在这里插入图片描述
什么是文生图:
在这里插入图片描述

根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段:

  • 基于生成对抗网络的(GAN)模型

  • 基于自回归(Autoregressive)模型

  • 基于扩散(diffusion)模型

  • 基于Transformers的扩散(diffusion)模型

扩散模型:Diffusion Models

扩散模型是目前大多数文本-图像模型采用的常见技术。

扩散模型包括两个过程。一个是前向过程,在训练过程中持续向原始数据添加高斯噪声以破坏数据,直到经过一定步数后,原始数据信息被完全破坏,趋近于纯噪声。另一个是反向过程,通过深度网络进行去噪,学习恢复数据。

训练完成后,我们可以通过输入随机噪声并将其传递给去噪过程来生成数据。这就是DDPM的基本原理。
在这里插入图片描述

Transformers的架构的Diffusion模型

背景

  • 普遍认为Sora的核心技术点之一就是将视觉数据转化为Patch的统一表示形式,通过Transformer+Diffusion结合
  • Paper: https://arxiv.org/abs/2212.09748

原理

基于Transformers的框架,Diffusion模型引入了一个名为U-ViT的简单而通用的架构,以替代latent diffusion model中U-Net部分的卷积神经网络(CNN),用于图像生成任务。

U-ViT采用了Transformers的设计方法,将包括时间、条件和噪声图像补丁在内的所有输入视为tokens
在这里插入图片描述
推理链路:

  1. 输入一张256x256x3的图片,经过Encoder后得到对应的latent,压缩比为8,latent space推理时输入32x32x4的噪声,将latentspace的输入token化,图片使用patchify,label和timestep使用embedding。
  2. 结合当前的step t , 输入label y, 经过N个Dit Block通过 MLP进行输出,得到输出的噪声以及对应的协方差矩阵
  3. 经过T个step采样,得到32x32x4的降噪后的latent

在训练时,需要使得去躁后的latent和第一步得到的latent尽可能一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/453448.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python数值方法在工程和科学问题解决中的应用

💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 随着计算机技术的不断发展,Python作…

UI设计中的图标的分类,功能性图标

图标的分类 既然知道了图标的作用和重要性,那么接下来,就要进一步了解在工作中我们要设计哪些图标。图标可以划分成三种大类:功能性图标、装饰性图标、启动图标。 功能性图标 功能图标是具有指代意义且具有功能标识的图形,它不仅是一种图形&a…

代码随想录算法训练营第day41|背包理论基础、416. 分割等和子集

目录 a.背包理论基础——01背包 1.二维数组的01背包表示 2.一维滚动数组表示 b. 416. 分割等和子集 - 力扣(LeetCode) a.背包理论基础——01背包 背包问题分类: 对于面试的话,其实掌握01背包,和完全背包&#xff…

Sharding sphere分库分表

需要物理自己实现分表分库,然后通过配置文件配置。 配置文件: 需要配置多个数据源,主从表的关系【默认主表修改,从表读取】,定义分库的策略【比如User id】和分表【表Id】的策略 分库和分表策略:分库策略…

浅谈LockBit勒索病毒

在数字时代,随着科技的飞速发展,网络安全问题愈发凸显。恶意软件和勒索软件等网络威胁正不断演变,其中一款备受关注的勒索软件就是LockBit。 LockBit是一种高度复杂且具有破坏性的勒索软件。与传统的勒索软件相比,LockBit在其攻击…

外包干了5天,技术明显退步。。。。。

先说一下自己的情况,本科生,19年通过校招进入南京某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了2年的功能测试&…

国产AI视频技术迎来新成员Etna,4K 60帧 15秒超高清视频

国内AI视频技术领域传来好消息,一款名为Etna的AI视频生成工具引起了业界的广泛关注。这款由七火山公司开发的技术,号称能够实现15秒4K 60帧的超高清视频生成,让人眼前一亮! 🚀 国产技术的崛起 Etna的问世,…

【软考高项】【论文专题】- 5 - 论文写作思路梳理

目录 一、软考论文考什么? 二、我在项目中做什么? 三、项目做什么? 四、 项目小白常见雷区 五、如何写的不像是模版? 一、软考论文考什么? 《考试大纲》指出:根据试卷上给出的论文题目,选择…

【Linux】常用指令大全 [万字详解!建议收藏记忆!]

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

IDEA如何切换git账户

一、首先设置idea的密码不保存 二、找到你的windos的凭据管理器,直接在电脑里面搜索就行。 把已经有的git的凭据删掉,然后重启IDEA,拉取代码,就会弹框来让你输入账号。 注意:将系统弹出的账号密码框关掉,…

docker之自己制作jdk镜像

一,下载想要制作的镜像的对应jdk(自行下载),本文使用jdk17(因为自己的springboot项目时在jdk17下开发的,悲!!!,再加上没有在官网上找到对应镜像,只…

C# danbooru Stable Diffusion 提示词反推 Onnx Demo

目录 说明 效果 模型信息 项目 代码 下载 C# danbooru Stable Diffusion 提示词反推 Onnx Demo 说明 模型下载地址:https://huggingface.co/deepghs/ml-danbooru-onnx 效果 模型信息 Model Properties ------------------------- ----------------------…

腾讯云轻量服务器地域选择方法整理,选择不能修改!

腾讯云轻量应用服务器地域如何选择?地域就近选择,北方选北京地域、南方选广州地域,华东地区选上海地域。广州上海北京地域有什么区别?哪个好?区别就是城市地理位置不同,其他的差不多,不区分好坏…

Qt中QCheckBox的三种状态设置

首先启用QCheckbox的tristate属性 //启用QCheckBox的tristate属性,使checkbox有三种状态。例: questionCheckBox->setTristate(true);//使用setCheckState(Qt::CheckState state)函数设置checkbox当前的状态。例: //Qt::CheckState是枚举…

运行springboot项目提示:java: 错误: 不支持发行版本 18、java: 错误: 无效的源发行版:18

java: 错误: 不支持发行版本 18 解决方法:修改字节码版本,可以多试几次。 java: 错误: 无效的源发行版:18 解决方法: 出现这些错误原因: spring版本与jdk版本不对应 我的spring boot版本是3.2.2,对应的j…

2024腾讯云轻量应用服务器地域有什么区别?哪个好?

腾讯云轻量应用服务器地域如何选择?地域就近选择,北方选北京地域、南方选广州地域,华东地区选上海地域。广州上海北京地域有什么区别?哪个好?区别就是城市地理位置不同,其他的差不多,不区分好坏…

Linux基础开发工具之yum与vim

1. Linux软件包管理器——yum 1.1 什么是软件包? 在Linux下安装软件, 一个通常的办法是下载到程序的源代码, 并进行编译, 得到可执行程序. 但是这样太麻烦了, 于是有些人把一些常用的软件提前编译好, 做成软件包(可以理解成windows上的安装程序)放在一个服务器上, …

HTML基础:超链接

你好&#xff0c;我是云桃桃。HTML 链接是指用来在网页之间创建连接的 HTML 元素&#xff0c;通常使用<a>标签来定义。 链接允许用户点击后跳转到网页、文件或页面的特定部分&#xff0c;是构建网页结构和提升用户体验的重要部分。 HTML 链接的语法 HTML 链接的基本语…

什么是动态代理?它和静态代理有什么区别?

1、典型回答 动态代理&#xff08;Dynamic Proxy&#xff09;是一种在运行时动态生成代理对象的技术。它可以在不修改原始类的情况下&#xff0c;对原始类的方法进行拦截和增强 使用动态代理可以实现以下常用功能&#xff1a; AOP&#xff08;面向切面编程&#xff09;&…

海南众乐科技--元宇宙场景星球乐园与上海普思签署战略投资协议

3月12日,上海普思投资有限公司与海南众乐科技有限公司正式签署了战略合作协议,上海普思投资有限公司首期投资180万元资金支持推动元宇宙场景项目星球乐园的开发。双方本着互利共赢的原则、达成长期、全面性的战略合作关系,推动数字场景业务共同发展。 星球乐园是海南众乐科技有…