十二、视觉内容生成模型

1 判别式模型和生成式模型

在这里插入图片描述

1. 判别式模型

  • 学习策略函数 Y = f ( X ) Y=f(X) Y=f(X)或者条件概率 P ( Y ∣ X ) P(Y|X) P(YX)
  • 不能反映训练数据本身的特性
  • 学习成本低,需要的训练样本少
  • 无法转为生成式

2. 生成式模型

  • 学习联合概率密度分布 P ( X ∣ Y ) P(X|Y) P(XY),学习所有数据的分布
  • 能够反映训练数据本身的特性
  • 学习成本高,需要的训练样本多
  • 一定条件下可以转换为判别式

学习可观测样本的概率密度,并随机生成新样本
在这里插入图片描述

2 生成式模型

2.1 AutoEncoder自编码器

  • 图像压缩算法 Encoder->laten code->Decoder
    在这里插入图片描述
  • 如果图像加一些扰动 Decoder变的脆弱不可控
    在这里插入图片描述
  • 更适合视觉特征的编码器,全方位多角度由图1演变为图2
    在这里插入图片描述
    在这里插入图片描述

2.2 VAE(Variational AutoEncoder)变分自编码器

对多个高斯分布的特征进行采样
在这里插入图片描述
在这里插入图片描述

2.3 Diffusion Model扩散模型

  • VAE模型在Encoder时对图像压缩比较大,导致Decoder时得到的图像质量比较差
  • Diffusion Model : 逐步的加入高斯噪声,并反向逐步去噪。得到的图像质量好,不失真
    在这里插入图片描述
    两个过程
  • 正向扩散过程:向输入数据中逐步加入噪声
  • 反向扩散过程:通过去噪的方式学习数据生成过程
    在这里插入图片描述
    整体流程
    在这里插入图片描述
    U-Net架构
    在这里插入图片描述
    去噪过程
    在这里插入图片描述
    不同一般的UNet网络结构:
  • 加入time embedding,影响UNet中每一层的计算
  • 输入:加噪图片(特征)
  • 输出:预测的噪声

2.4 Stable Diffusion模型结构

ϵ \epsilon ϵ:VAE(变分自编码器)将图像特征压缩到原始尺寸的 1 4 \frac{1}{4} 41,降低计算量,当Decoder时几乎不失真。
并加入引条件(Conditioning),可以是目标分类、文本、图片,以更准确、更好的进行Decoder
在这里插入图片描述

版本文本编码器UNet结构分辨率特点
SDv1.4CLIPCNN512x512
SDv1.5CLIPCNN512x512目前最流行的版本
SDv2.1Open-CLIPCNN768x768无法生成NSFW,SkipClip不生效
SDvXLCLIP+Open-CLIPCNN1024x1024质量高,资源消耗大,生态没有1.5成熟
PixeArtT5语言模型Vit1024x1024图文对齐度好,生成图像美感强,架构先进

社区模型

  • 阶段一:图文对齐训练-基础模型
  • 阶段二:图文对齐训练-社区微调模型
    https://civitai.com/
    在这里插入图片描述

2.5 文生图模型的应用拓展

  • 图像引导生成,1 作为输入 2 引导输入
    在这里插入图片描述

  • 单张图像引导 SD Inpainting 模型
    在这里插入图片描述

  • 单张图像引导 SD Outpainting 模型
    在这里插入图片描述

  • 多张图像引导 人脸、商品数字分身 LoRA/DreamBooth

    • LoRA: 图文QKV cross attention; UNet中的CNN卷积层
      在这里插入图片描述
    • Dreambooth: 利用大类先验知识,来辅助特定物体的生成;prompt为“a [identifier] [class noun]”
      在这里插入图片描述
  • 特征注入式引导生成 ControlNet
    在这里插入图片描述
    特征注入到Decoder层
    在这里插入图片描述

  • 特征注入式引导生成 IP-adapter
    在这里插入图片描述

  • 特征注入式引导生成 InstantID
    在这里插入图片描述

2.6 SD模型的加速方法

  • 算子加速-最大化GPU利用率(TensorRT、ONNX)
  • 蒸馏加速-减少迭代频数
    • 数据无关 LCM(4步生图)
    • 数据相关 ADD(SD Turbo)(2 步生图);UFO-GEN(1步生图)

3 3D目标生成方法

3.1 基于NeRF方法

在这里插入图片描述

3.2 基于扩散模型方法

在这里插入图片描述

4 视频生成方法

4.1 基于文生图预训练模型的方法

在这里插入图片描述
在这里插入图片描述

4.2 原生视频生成方法

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/588342.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ 矩阵

目录 了解矩阵的数学原理(大学线性代数) 矩阵及转置矩阵 矩阵乘法 矩阵快速幂 相伴矩阵模板 [相伴矩阵,快速矩阵幂]CSES1722 Fibonacci Numbers 了解矩阵的数学原理(大学线性代数) 矩阵及转置矩阵 这里A就是一个矩阵&…

动态数据结构中的表扩张性:摊还分析、伪代码与C语言实现

动态数据结构中的表扩张性:摊还分析、伪代码与C语言实现 引言表扩张性的概念摊还分析在表扩张性中的应用伪代码示例:TABLE-INSERT操作C语言实现结论 引言 在处理数据结构时,尤其是表(或数组),我们经常面临…

Swift - 可选项(Optional)

文章目录 Swift - 可选项(Optional)1. 可选项(Optional)2. 强制解包(Forced Unwrapping)3. 判断可选项是否包含值4. 可选项绑定(Optional Binding)5. 等价写法6. while循环中使用可选…

DVWA 靶场命令注入通关解析

介绍 命令注入(Command Injection)是一种常见的安全漏洞,它允许攻击者通过在应用程序中执行恶意命令来获取系统权限或执行非授权操作。 命令注入通常发生在需要将用户输入作为命令执行的地方,例如Web应用程序的输入框、参数传递…

制作一个RISC-V的操作系统十五-软件定时器

文章目录 定时器分类定时器相关分类软件定时器设计初始化创建删除触发流程图形示意 优化代码 定时器分类 硬件定时器:由硬件频率和触发限制的大小决定,只有一个,精度高 软件定时器:基于硬件定时器实现,精度大于等于硬…

搭建vue3组件库(三): CSS架构之BEM

文章目录 1. 通过 JS 生成 BEM 规范名称1.1 初始化 hooks 目录1.2 创建 BEM 命名空间函数1.3 通过 SCSS 生成 BEM 规范样式 2. 测试 BEM 规范 BEM 是由 Yandex 团队提出的一种 CSS 命名方法论,即 Block(块)、Element(元素&#xf…

AngularJS 的生命周期和基础语法

AngularJS 的生命周期和基础语法 文章目录 AngularJS 的生命周期和基础语法1. 使用步骤2. 生命周期钩子函数3. 点击事件4. if 语句1. if 形式2. if else 形式 5. for 语句6. switch 语句7. 双向数据绑定 1. 使用步骤 // 1. 要使用哪个钩子函数,就先引入 import { O…

Flutter笔记:Widgets Easier组件库(4)使用按钮组

Flutter笔记 Widgets Easier组件库(4):使用按钮组 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress…

vue3 vite 路由去中心化(modules文件夹自动导入router)

通过路由去中心化可实现多人写作开发,不怕文件不停修改导致的冲突,modules中的文件可自动导入到index.js中 // 自动导入模块 const files import.meta.globEager(./modules/**.js); const modules {} for (const key in files) {modules[key.replace…

【C语言加油站】字符函数与字符串函数

字符函数与字符串函数 导言一、字符分类函数1.1 字符分类函数的用法 二、字符转换函数2.1 字符转换函数的用法 三、字符串函数3.1 成员3.2 strlen函数3.2.1 size_t类型3.2.2 strlen的易错点3.2.2 strlen的使用3.2.3 strlen与sizeof 3.3 strcpy函数和strncpy函数3.3.1 strcpy和s…

Messari 报告摘要 :Covalent Network(CQT)2024 年第一季度表现

摘要: 尽管 CQT 代币流通供应量增加了 20%(新增 1.04 亿枚 CQT),但 CQT 的质押百分比仅从 2023 年第一季度的 22% 增长到了 2024 年第一季度的 29%。 CQT 的市值季度环比增长了 28%,多次达到 2.75 亿美元&#xff0c…

脑筋急转弯在线问答

页面效果 点击“显示答案”按钮&#xff0c;显示参考答案。 页面代码 <% layout(/layouts/default.html, {title: 脑筋急转弯管理, libs: [dataGrid]}){ %> <div class"main-content"><div class"box box-main"><div class"bo…

【介绍下大数据组件之Storm】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

【Java】 对象的比较【比较器】

登神长阶 第七阶 Java对象的比较 &#x1f3b7;一.Java对象的比较 &#x1fa97;1.基于引用的比较 基于引用的比较在Java中使用运算符进行。它主要检查两个对象是否引用内存中的相同位置。以下是基于引用的比较的详细介绍&#xff1a; 使用运算符&#xff1a; 运算符用于比…

【Qt QML】Frame组件

Frame&#xff08;框架&#xff09;包含在&#xff1a; import QtQuick.Controls继承自Pane控件。用于在可视框架内布局一组逻辑控件。简单来说就是用来包裹和突出显示其他可视元素。Frame不提供自己的布局&#xff0c;但需要自己对元素位置进行设置和定位&#xff0c;例如通过…

vue3与js的router基本使用方式

title: vue3与js的router基本使用方式 tags: vue3js abbrlink: ‘57270957’ date: 2024-04-17 18:54:47 第一步快捷引入的别名 使用路由需要大量在src文件中引用所需要的地址&#xff0c;并且组件中也需要很多的包的引用&#xff0c;将快速跳转到src这一文件的步骤进行简化操…

如何从 iPhone 恢复已删除或丢失的联系人?

不小心删除了您的 iPhone 联系人&#xff1f;不用担心。我们将向您展示如何从 iPhone或 iPad恢复已删除或丢失的联系人。当您从 iPhone 中删除联系人时&#xff0c;您可能认为无法将其恢复。但事实是&#xff0c;您可以从 iPhone 或 iPad 恢复已删除的联系人&#xff0c;因为它…

模型智能体开发之metagpt-多智能体实践

参考&#xff1a; metagpt环境配置参考模型智能体开发之metagpt-单智能体实践 需求分析 之前有过单智能体的测试case&#xff0c;但是现实生活场景是很复杂的&#xff0c;所以单智能体远远不能满足我们的诉求&#xff0c;所以仍然还需要了解多智能体的实现。通过多个role对动…

手撕spring框架(3)

手撕spring框架&#xff08;3&#xff09; 相关系列 手撕spring框架&#xff08;1&#xff09; 手撕spring框架&#xff08;2&#xff09; InitializingBean 接口详解 什么是 InitializingBean 接口&#xff1f; InitializingBean 接口是 Spring 框架中的一个接口&#xff0c…

【linux】进程(深入理解linux进程状态)

开始之前先说一个与本文无关的小知识&#xff0c;chdir命令可以更改当前进程的工作目录哦。 目录 linux具体进程状态&#xff1a;R && S&#xff1a;T && t&#xff1a;D&#xff1a;僵尸进程 && 孤儿进程&#xff1a; OS的理论线&#xff1a;运行&…