OpenAI开源全新解码器,极大提升Stable Diffusion性能

在11月7日OpenAI的首届开发者大会上,除了推出一系列重磅产品之外,还开源了两款产品,全新解码器Consistency Decoder(一致性解码器)和最新语音识别模型Whisper v3。

据悉,Consistency Decoder可以替代Stable Diffusion VAE解码器。该解码器可以改善所有与Stable Diffusion 1.0+ VAE兼容的图像,尤其是在文本、面部和直线方面有大幅度提升。仅上线一天的时间,在Github就收到1100颗星。

Whisper large-v3是OpenAI之前开源的whisper模型的最新版本,在各种语言上的性能都有显著提升。OpenAI会在未来的API计划中提供Whisper v3。

解码器地址:https://github.com/openai/consistencydecoder

Whisper v3地址:https://github.com/openai/whisper
在这里插入图片描述

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成员,所以,「AIGC开放社区」想为大家介绍一下OpenAI之前开源的另一个创新模型——Consistency Models。

扩散模型的出现极大推动了文生图片、视频、音频等领域的发展,涌现了GAN、VAE等知名模型。但是这些模型在推理的过程中,过于依赖迭代采样过程,导致生成效率非常缓慢或生成图片质量太差。

OpenAI为了突破这个技术瓶颈,提出了Consistency Models(一致性模型)框架并将其开源。该技术的最大优势是支持单步高质量生成,同时保留迭代生成的优点。简单来说,可以使文生图模型在推理的过程中又快又准攻守兼备。

此外,Consistency Models可以通过提取预先训练的扩散模型来使用,也可以作为独立的生成模型来训练,兼容性强且灵活。

开源地址:https://github.com/openai/consistency_models

论文:https://arxiv.org/abs/2303.01469

为了让大家更好的理解Consistency Models技术特点,「AIGC开放社区」先简单的介绍一下扩散模型的原理。

在这里插入图片描述

什么是扩散模型

扩散模型主要通过模拟扩散过程来生成数据,核心技术是将数据看作是由一个简单的随机过程(例如,高斯白噪声)经过一系列平滑变换得到的结果。

扩散模型主要由正向过程和反向过程两大块组成。正向过程(扩散过程):首先将原始数据通过添加噪声逐渐扩散,直到变成无法识别的噪声。

具体来说,每一步都会添加一点噪声,噪声的强度通常会随着步骤的进行而增大。这个过程可以用一个随机微分方程来描述。

在这里插入图片描述

反向过程(去噪声过程):然后使用一个学习到的模型从噪声数据中重建原始数据。

这个过程通常通过优化一个目标函数来进行,目标是让重建的数据与原始数据尽可能相似。

Consistency Models简单介绍

Consistency Models受扩散模型技术思路启发,直接将噪声映射到数据分布,无需迭代过程直接生成高质量图像。实验证明,如果模型输出在同一轨迹上的点保持一致,可以有效学习此映射。

在这里插入图片描述

简单来说,Consistency Models直接放弃了逐步去噪过程,而是直接学习把随机的噪声映射到复杂的图像上,同时加上了一致性的规则约束,避免生成的图像出现“驴唇不对马嘴”的情况。

说的更直白一点,我们如果要做一道麻婆豆腐,需要先切豆腐、配菜,然后放在马勺里进行大火翻炒,再放上调料最后出锅。

而Consistency Models的方法是直接就变出一盘麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用户标准来的,这就是该技术的神奇之处。

基于上述技术概念,OpenAI的研究人员使用了知识蒸馏和直接训练两种方法来训练Consistency Models。

知识蒸馏:使用一个预先训练好的扩散模型(如Diffusion),生成一些数据对,然后训练Consistency Models时让这些数据对的输出尽可能接近,来跟扩散模型进行知识蒸馏。

在这里插入图片描述

直接训练法:直接从训练集样本中学习数据到噪声的映射,不需要依赖预训练模型。主要是加入噪声进行数据增强,然后优化增强前后的输出一致性。

实验数据

研究人员在多个图像数据集上测试了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

结果表明,知识蒸馏训练的Consistency Models效果最好,在所有数据集和步数下均优于现有最好的蒸馏技术Progressive Distillation。

在这里插入图片描述

例如,在CIFAR-10上,单步生成达到新记录的FID 3.55,两步生成达到2.93;在ImageNet 64x64上,单步生成FID为6.20,两步生成为4.70,均刷新记录。

在这里插入图片描述

直接训练方式下,Consistency Models也显示出强大的能力,在CIFAR-10上打败了大多数单步生成模型,质量接近Progressive Distillation。

此外,该模型支持进行零样本图像编辑,可实现图像去噪、插值、上色、超分辨率生成、笔触生成等多种任务,而无需专门训练。

本文素材来源OpenAI官网、论文、开源项目,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/120957.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

CROS错误 403 preflight 预检

预检 403 响应 Response for preflight 403 forbidden 如上图,配置了请求接口一直报错,前端看了没有什么问题,不知道哪里报错了,那么可能是后端没有设置跨域。(或者是设置了,但是可能需要换一种方式&#…

基于springboot实现致远汽车租赁平台管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现致远汽车租赁平台管理系统演示 摘要 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统…

mysql 全文检索 demo

mysql5.6.7之后开始支持中文全文检索一直没用过,这次试试。 创建表 CREATE TABLE articles (id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,title VARCHAR (200),body TEXT,FULLTEXT (title, body) WITH PARSER ngram ) ENGINE INNODB DEFAULT CHARSETut…

【配置】如何在打包Spring Boot项目时按需使用日常、测试、预发、正式环境的配置文件

文章目录 前言1. 创建5个配置文件2. 在pom.xml文件中如下配置3. 在application.properties中加入环境变量 前言 在我们开发项目的时候,一般有四套环境:日常、测试、预发、正式。日常环境作为我们开发环境;测试环境给测试同学测试功能&#x…

Jenkins 部署.net core 项目 - NU1301错误

/root/.jenkins/workspace/householdess/services/host/fdbatt.monitor.HttpApi.Host/fdbatt.monitor.HttpApi.Host.csproj : error NU1301: 本地源“/root/.jenkins/workspace/householdess/​http:/x.x.x.x:9081/repository/nuget.org-proxy/index.json”不存在。 [/root/.je…

【Java 进阶篇】Java Filter 快速入门

欢迎来到这篇有关 Java Filter 的快速入门指南!如果你是一名 Java 开发者或者正在学习 Java Web 开发,Filter 是一个强大的工具,可以帮助你管理和控制 Web 应用程序中的请求和响应。本文将向你解释 Filter 的基本概念,如何创建和配…

SHAP 和 LIME 解释模型

内容大纲 1、SHAP 解释器1.1 案例:用于预测患者肺癌1.2 案例中使用的shap解释器1.3 SHAP工作原理1.4 举例说明 2、LIME 解释器2.1 案例:判断法律案件胜诉可能性2.2 LIME解释器工作原理2.3 本地解释模型的训练过程2.4 举例说明1:新闻分类2.4 举…

智慧安防:监控防盗两不误的安防视频监控系统是什么样的?

随着社会的不断发展,安全问题越来越受到人们的关注,特别是对于居住在城市里的人们来说,盗窃问题是影响他们生活质量的重要因素之一。因此,根据市场需求,以监控防盗两不误的智慧监控系统得到了广泛的推广和应用。 一般…

长春理工大学漏洞报送证书

获取来源:edusrc(教育漏洞报告平台) url:主页 | 教育漏洞报告平台 兑换价格:10金币 获取条件:提交长春理工大学任意中危或以上级别漏洞

删除word最后一页之后的空白页

最近编辑word比较多,有时最后一页(最后一页内容还有可能是表格)之后,还有一页空白页,单独按下backspace、del都删不掉,很让人着急。 经过查询有几种方法: (1)点击选中空…

rviz中引入SW的模型

一、SW装配图转urdf 参考链接:https://blog.csdn.net/weixin_45168199/article/details/105755388 这部分直接看参考链接就可以,主要思路如下 1、把sw中的零散零件按照机器人中连杆的分类整合成几个大零件 2、把几个大零件整合成装配体,并…

合肥工业大学数字逻辑实验三

** 数字逻辑 实验报告** ✅作者简介:CSDN内容合伙人、信息安全专业在校大学生🏆 🔥系列专栏 :hfut实验课设 📃新人博主 :欢迎点赞收藏关注,会回访! 💬舞台再大,你不上台,永远是个观众。平台再好,你不参与,永远是局外人。能力再大,你不行动,只能看别人成功!…

AIGPT重大升级,界面重新设计,功能更加饱满,用户体验升级

AIGPT AIGPT是一款功能强大的人工智能技术处理软件,不但拥有其他模型处理文本认知的能力还有AI绘画模型、拥有自身的插件库。 我们都知道使用ChatGPT是需要账号以及使用魔法的,实现其中的某一项对我们一般的初学者来说都是一次巨大的挑战,但…

JavaScript从入门到精通系列第三十一篇:详解JavaScript中的字符串和正则表达式相关的方法

文章目录 知识回顾 1:概念回顾 2:正则表达式字面量 一:字符串中正则表达式方法 1:split 2:search 3:match 4:replace 大神链接:作者有幸结识技术大神孙哥为好友,…

智能网联汽车有哪些信息安全场景

目录 1.车内安全通信 2.车云安全通信 3.安全启动 4.车载应用程序保护 5.入侵检测防御与日志管理系统 在聊完车载信息安全需求之后,势必要去看看​应用场景有哪些。根据之前的开发经验简单聊一下我知道的,还有很多没有讲,比如说车云之间具…

【QT】 Qt自定义ui控件

在使用Qt的ui设计时,Qt为我们提供了标准的窗口控件,但是在很多复杂工程中,标准窗口控件并不能满足所有的需求,这时就需要我们自定义控件。我们自定义的类既可以作为独立的窗口显示,又可以作为一个控件显示。 我们要实现…

MySQL 8.0 Clone 备份恢复演练

文章目录 前言1. 恢复目标2. 环境说明3. 克隆数据4. 恢复全量数据5. 注册增量日志6. 应用增量日志 后记 前言 上一篇文章中,我们介绍了使用 Clone 插件进行备份,相关的恢复流程将在本篇文章介绍。 MySQL 8.0 Clone Plugin 详解 恢复增量数据的方法&…

同创永益与国泰君安证券签署全面战略合作协议

10月24日,“生态赋能 智绘未来”国泰君安2023年金融科技文化节主题论坛召开,同创永益董事长朱柯、副总裁朱晓岚受邀出席活动,并与国泰君安总裁王松、首席信息官俞枫共同签署战略合作协议。双方将围绕产业研究、技术创新、人才培养等多方面方面…

Microsoft Dynamics 365 CE 扩展定制 - 7. 安全

在本章中,我们将介绍以下内容: 构建累积安全角色配置业务单元层次结构基于分层位置配置访问配置和分配字段级安全组建团队并共享设置访问团队对静止数据进行加密以满足FIPS 140-2标准管理Dynamics 365在线SQLTDE加密密钥简介 Dynamics 365是一个强大的平台,具有超过10年的良…

02-PostgreSQL的基本使用

一、数据库操作 ①: 登录到数据库 psql -U postgres -d postgres -h 127.0.0.1②:查看所有数据库 \l③: 创建数据库 # 创建一个名为 mydb 的数据库 create database mydb;④:切换数据库 # \c 数据库名 \c mydb⑤:删除数据库 # 删除前 先确保数据库没有被连接 drop databa…