Stable Diffusion 3 发布,AI生图效果,再次到达全新里程碑!

AI生图效果,再次到达全新里程碑!

alt

Prompt:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy
提示(意译版):在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的「Stable Diffusion 3」字样,犹如夜空中最璀璨的星辰。

网友复刻版,同样惊艳:

alt

网友惊呼:这种prompt的一致性是我见过最好的!

alt

这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。

甚至,它似乎还涌现出了对物理世界的「理解」。

alt

Prompt: A horse balancing on top of a colorful ball in a field with green grass and a mountain in the background.
提示(意译版):一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。

alt

Prompt:Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat
提示:一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。

而DALL-E 3就相形见拙了。

alt

关于Stable Diffusion 3.0的核心技术进展,CEO Emd总结了一份「太长不看版」摘要——

alt

- 采用了与Sora类似的Diffusion Transformer技术,并结合了流匹配(Flow Matching)等多项技术改进。
- 通过利用对Transformer的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。
- 将以开源形式发布,通过预览版的测试来进一步提升系统的质量和安全性。
- 发布时,将包含一套完整的工具。
- 基于最新硬件技术打造的新平台,可以支持多种规模的版本。
- 支持生成视频、3D以及更多类型的内容创作。
- 需要更多的GPU来实现更强大的计算能力。

不得不说,最近这段时间,DiT实火!

目前,模型可选择的参数范围在800M到8B之间。

现在,已经可以在这里加入候补名单,申请SD3的访问权限了:https://stability.ai/stablediffusion3

Stable Diffusion 3,文字渲染能力超进化

按照prompt生成指定文字,一直以来都是文生图模型的老大难问题。

alt

从左到右:DeepFloyd IF、DALLE-2、Bing Image Creator、Midjourneyv5.2、SDXL v0.9(2023年7月)

但是这次,SD3模型对于prompt理解得很好,在黑板上正确写出了「go big or go home」。

而且画面非常写实,远近位置、光影,都显得极其自然。

alt

Prompt: cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk.
提示(意译版):这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——「要么做大,要么回家」。

相比之下,Midjourney的图是这样的:

alt

Gemini Advanced / Ultra的图是这样的:

alt

DALL-E 3的图是这样的:

alt

各种形式的文字渲染,SD3 都出色地完成了。

alt

Prompt:Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.
提示:厨房桌上铺着一块精美的绣布,上面绣着「good night」字样和一只可爱的小老虎。旁边,一支蜡烛静静燃烧,散发出柔和而略带戏剧性的光影。

alt

Prompt:Photo of an 90's desktop computer on a work desk, on the computer screen it says "welcome". On the wall in the background we see beautiful graffiti with the text "SD3" very large on the wall.
提示:一台放在工作桌上的90年代的台式电脑,屏幕上写着「welcome」。在背后的墙面上,有一幅醒目的涂鸦艺术作品,写的是「SD3」。

alt

Prompt: Anime style illustration of a newsstand on top of a small grassy hill, on top of the newsstand we see the text "it's here!". In the background we see a big rain approaching.
提示:这是一幅充满动漫特色的插画,一个报刊亭坐落在一片绿意盎然的小山丘上,亭顶醒目地展示着「it's here!」的字样。而在这个宁静的场景背后,一场壮观的暴雨即将来临。

alt

Prompt: Night photo of a sports car with the text "SD3" on the side, the car is on a race track at high speed, a huge road sign with the text "faster".
提示:在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。

alt

Prompt: Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.
提示:一张木桌上摆放着三个透明的玻璃瓶。从左至右,每个瓶子内分别充满了鲜艳的红、蓝、绿色液体。瓶子上,用数字1、2、3进行了标记。

alt

Prompt: Photo of a rectangular orange neon sign with the text "even more stable", the sign is on the wall in a metro station, subway speeding by in the background, perspective photo.

Stable Diffusion 3.0能在文字渲染能力上取得显著提升,是因为Stability AI在新模型中采用了全新技术——Transformer和新增的文本编码功能。

CEO Emad Mostaque解释说,因为上述原因,现在SD 3不仅能生成完整句子,还能保持风格的一致性。

宇航员骑着粉色芭蕾舞裙猪,除SD 3竟然全军覆没?

处理包含多个对象的Prompt的能力,也是考核AI生图模型的一大关键指标。

下面这个prompt,着实难倒了一大片选手——

一幅宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着「stable diffusion」。

这个prompt,要求模型正确理解对象的属性、位置,以及正确呈现字体很小的文本,着实是一道难题。

如此要素拉满的细节要求,SD3.0全部理解,并且精确地完成了!

宇航员,粉色雨伞、穿着粉芭蕾舞裙的猪、戴高帽的知更鸟、角落里的字,100%符合prompt的要求。这就表明:模型很好地理解了prompt。

alt

Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"

对于同一prompt,其他模型的表现就落后了。

DALL-E 3画出的画倒是过关了,但它把「Diffusion」拼错了。

alt

Bing的表现就更是离谱了,有的图中芭蕾舞裙的颜色不对,有的知更鸟站在了猪脑袋上,有的更是画面中飞满了知更鸟。而「Stable Diffusion」更是错得离谱。

alt

Gemini Advanced这个差生的答案就更惨不忍睹了,除了拼写问题,画也没画对。

alt

下面出场的,就是以画面质量精美著称的优秀文生图选手Midjourney了。

从画面美感上说,MJ依然甩其他模型一条街,但是考试就是考试,「Stable Diffusion」,它也没拼对。

alt
alt

总结下来,这一道考题唯一的满分选手,就是Stable Diffusion 3!

和Sora同样的Diffusion Transformer架构

所以,Stable Diffusion 3.0为何有如此突飞猛进的表现?

原因在于,它采用了全新的架构设计。

Stability AI的首席执行官Emad Mostaque表示——

「Stable Diffusion 3 采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近推出的Sora模型采用的架构相似。」

在以前的Stable Diffusion版本中,并未采用Transformer技术。

而Stable Diffusion 3.0采用了一种全新的方法,引入了Diffusion Transformer 技术。如果你对最近的爆火的sora有所了解,肯定对这个技术已经耳熟能详了。

alt

Transformer技术是,当前生成式AI革命的核心,广泛应用于文本生成模型中。而图像生成技术,则主要基于Diffusion模型。

Sora作者之一William和谢赛宁,在这篇论文中共同提出了Sora的基础架构。

alt

论文地址:https://arxiv.org/abs/2212.09748

这篇详细介绍DiTs的论文指出,这种基于扩散模型的新架构,可以用在图像patch上运行的Transformer替代了传统的U-Net架构。

这样,DiTs方法就可以更高效地利用计算资源,并且在图像生成方面超越了其他扩散模型技术。

一篇因「缺乏创新性」被CVPR 2023拒收的论文,竟成了Sora和Stable Diffusion 3.0的奠基之作,学术创新和工程创新的区别,着实引人深究。

alt

Stable Diffusion 3.0 的另一个创新亮点,就是流匹配技术。

一篇关于流匹配的研究论文介绍了这一新方法,它可以用于训练连续归一化流(Continuous Normalizing Flows, CNFs),以便更准确地模拟复杂的数据分布。

论文地址:https://arxiv.org/abs/2210.02747

研究表明,通过结合使用条件流匹配(Conditional Flow Matching, CFM)和最优传输路径,可以实现更快的训练速度、更高效的样本生成,并且在性能上超越传统的扩散路径方法。

alt

其实,Stability AI一直在探索多种新颖的图像生成技术。

就在本月初,他们就推出了一项名为Stable Cascade的新技术。

它基于一种名为Würstchen的先进架构,旨在提升生成图像的性能和精确度。

alt

一大波整活来了

在图像质量上,SD 3.0也取得了令人震惊的进步。

「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的。

alt

Prompt:studio photograph closeup of a chameleon over a black background.

Gemini Advanced/Ultra生图是这样的。

alt

Midjourney是这样的。

alt

因为题干没有区分度,所以大家表现差不多。

从更多的演示中可以看出,无论是在自然写实风景,还是在漫画、海报中,SD 3不仅做到了正确还原文字,还让文字和画面做到了很好的融合,一点都不突兀。

alt

Prompt: Trees photographed under the Milky Way, the moon and twilight shine on the Valley. The full moon appears high in the sky and the twilight glow can still be seen.

再比如黑客帝国中的Neo狗。

alt

威尔史密斯吃面,AI模型的终极图灵测试。

alt
alt
alt
alt
alt
alt
alt
alt
alt
alt
alt
alt
alt
alt
alt

Stable Video同时发力

此外,就在不久前,Stable Video也正式开放公测了。

背后还是基于Stable Video Diffusion 1.1。

alt

体验地址:https://www.stablevideo.com/

从前,这个模型需要用户自己上手部署,现在已经人人可用了,甚至不需要排队!

虽然跟登月级的Sora还有很大差距,但视频效果已经可以和Runway一拼。

alt

2024年才一开年,节奏就已经这么炸裂了。今年注定是AIGC史上不平凡的一年。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/406333.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【LLM入门实践】简便快捷获取Hugging Face模型

前言 好久没有更新博客了,由于AI 大模型技术经过2023年的狂飙,2024年迎来大量的应用的落地,作为一个技术人,我也对此有了浓厚的兴趣,买了很多本书,然后试图找到一个学习大模型的速成模式,遗憾的…

【开源】SpringBoot框架开发婚恋交友网站

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 会员管理模块2.3 新闻管理模块2.4 相亲大会管理模块2.5 留言管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 会员信息表3.2.2 新闻表3.2.3 相亲大会表3.2.4 留言表 四、系统展示五、核心代码5.…

【k8s资源调度-StatefulSet】

1、部署对象StatefulSet资源(无状态应用) StatefulSet针对的是有状态应用,有状态应用会对我们的当前pod的网络、文件系统等有关联。 2、配置文件如下 StatefulSet资源的配置文件粗略如下,如下的配置信息包含了数据卷,…

详解Megatron中的数据混合算法(BlendableDataset)

🧑‍💻 本文主要讲解Megatron早期版本中的数据混合算法。 目录 1. 数据混合2. 源码解析3. 证明部分&讨论4. 进一步优化 1. 数据混合 在谈源码之前,我们有必要先了解一下Megatron中的数据混合思想。 给定 n n n 个数据集 D 1 , D 2 , …

Go基本数据类型

bool类型 布尔型的值只可以是常量 true 或者 false。⼀个简单的例⼦:var b bool true 数值型 1. 整数型 可以简单讲解⼀下⼆进制和位数的关系,以及int和uint的关系 int8 有符号 8 位整型 (-128 到 127) ⻓度:8bitint16 有符号 16 位整型…

探索海外短剧系统开发:引领潮流的创新与实践

随着全球化的深入发展,海外短剧市场正逐渐成为文化交流与娱乐产业的新热点。本文将探讨海外短剧系统开发的重要性、机遇与挑战,以及如何应对这些挑战,以实现海外短剧市场的可持续发展。 一、海外短剧系统开发的重要性 海外短剧系统开发不仅…

BUGKU-WEB 备份是个好习惯

题目描述 题目截图如下: 进入场景看看: 解题思路 看源码看提示:备份是个好习惯扫描目录md5弱比较 相关工具 御剑md5解密:https://www.somd5.com/ 解题步骤 看到的这串字符,有点像md5? d41d8cd98…

Web3之光:揭秘数字创新的未来

随着数字化时代的深入发展,Web3正以其独特的技术和理念,为我们打开数字创新的崭新视角。作为数字化时代的新兴力量,Web3将深刻影响着我们的生活、工作和社会。本文将揭秘Web3的奥秘,探讨其在数字创新领域的前景和潜力。 1. 重新定…

【论文精读】Segment Anything

Segment Anything 前言Abstract1. Introduction2. Segment Anything Task3. Segment Anything Model4. Segment Anything Data Engine5. Segment Anything Dataset6. Segment Anything RAI Analysis7. Zero-Shot Transfer Experiments7.1. Zero-Shot Single Point Valid Mask E…

深度学习基础(二)卷积神经网络(CNN)

之前的章节我们初步介绍了深度学习相关基础知识和训练神经网络: 深度学习基础(一)神经网络基本原理-CSDN博客文章浏览阅读924次,点赞13次,收藏19次。在如今的科技浪潮中,神经网络作为人工智能的核心技术之…

【微服务】国内微服务生态标准-SpringCloud Alibaba

现在已经是21世纪的二十年代,在未来的很长时间,以互联网、IOT物联网为代表的分布式应用必将越来越多,大量的软件企业对掌握微服务与高可用、高性能、高并发的架构人才也必定趋之若鹜。我们可以看看现阶段针对软件架构师的招聘需求和薪资&…

【元宵佳节】砖一祝您节日快乐!

元宵节的由来 相传,汉文帝(前179-前157年)为庆祝周勃于正月十五勘平诸吕之乱,每逢此夜,必出言游玩,与民同乐,在古代,夜同宵,正月又称元月,汉文帝就将正月十五定为元宵节&#xff0c…

算法打卡day1|数组篇|Leetcode 704.二分查找、27.移除元素

数组理论基础 数组是存放在连续内存空间上的相同类型数据的集合,可以方便的通过下标索引的方式获取到下标下对应的数据。 1.数组下标都是从0开始的。 2.数组内存空间的地址是连续的。 正是因为数组的在内存空间的地址是连续的,所以我们在删除或者增添…

LiveQing视频点播流媒体RTMP推流服务功能-支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务

LiveQing视频点播流媒体RTMP推流服务功能支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务 1、配置开启HTTPS1.1、准备https证书1.1.1、选择Nginx类型证书下载 1.2、配置 开启 HTTPS1.2.1 web页面配置1.2.2 配置文件配置 2、验证HTTPS服务3、为什么要开启HTTPS3.1、安全性要求…

免费的数据恢复软件哪个好?这10个数据恢复软件可以试试

遇到电脑、硬盘或U盘等设备中数据丢失,不用着急,数据恢复软件来帮你。 在遇到数据丢失的问题时,很多朋友都会很着急也不知道该怎么办。作为数据恢复小白,我们可以选择使用数据恢复软件进行扫描恢复。现在市面上的数据恢复软件很多…

AI技术那些事儿:揭开潜伏在你生活中的高科技小能手

你有没有发现,现在的生活里有些“看不见”的聪明家伙,它们时时刻刻在帮咱们忙活呢?从早上用语音命令打开窗帘、播报新闻,到晚上喊一声关灯睡觉,这些都离不开人工智能(简称AI)的助攻。今天咱就掰…

C++笔记:二叉搜索树(Binary Search Tree)

文章目录 二叉搜索树的概念二叉搜索树操作1. 框架搭建2. 遍历3. 查找迭代实现递归实现 4. 插入迭代实现递归实现 5. 删除迭代实现递归实现 6. 析构与销毁7. 拷贝构造与赋值重载 二叉搜索树的应用二叉搜索树的性能分析二叉搜索树模拟实现源码 二叉搜索树的概念 二叉搜索树又称二…

泛微e-office系统敏感信息泄露漏洞

声明 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任 1、系统简介 泛微e-office系统是标准、易用、快速部署上线的专业协同OA软…

gitlab升级

查看当前版本 cat /opt/gitlab/embedded/service/gitlab-rails/VERSION12.9.3-ee 备份数据 gitlab-rake gitlab:backup:create备份默认位置在 /var/opt/gitlab/backups/ 备份配置数据(git配置目录) tar -zcvf gitlab12.9.3-ee.tar.gz /etc/gitlab备…

01VScode开发stm32环境搭建

title: VScode开发stm32环境搭建 tags: STM32vscode 1.准备工作 1.下载并安装VSCODE 在百度上搜索vscode记住一定要是官方的 不然你自己就是在给自己下毒2345全来了 打红圈一定要有不然就是在垃圾网站上下的 VSCode下载链接 选一个适合你的      安装正常流程走就行不再…