24年8月,Flux.1的发布又一次火爆整个AI绘图领域, 号称AI文生图的“新标杆”,刷新AI图像领域的新格局。
Flux是一款由Black Forest Labs开发的尖端AI图像生成工具,旨在通过先进的技术将文本提示转化为高质量的图像。Flux AI支持多种创作风格,包括现实主义、动漫、幻想和插画,适用于艺术、设计、广告和社交媒体等多个领域。
Flux AI的主要特点包括其出色的视觉质量、对提示的高响应能力以及多样化的输出风格。它采用了混合架构,结合了Transformer网络在文本理解方面的优势和扩散模型在图像生成方面的强大能力,使其在生成逼真图像方面表现出色。此外,Flux AI还能够精确渲染人体解剖结构,解决了早期模型中常见的解剖学错误。
Flux AI提供多个版本,包括Pro、Dev和Schnell,以满足不同用户的需求。Pro版本适用于需要高质量图像生成的专业用户,而Schnell版本则优化了速度和效率,适合需要实时或近实时生成的应用。Flux AI还支持开源模式,为广大用户提供了更多的可能性。
Flux AI不仅在图像生成质量和性能上取得了重大突破,还通过其开源模式和多样化的版本选择,为用户提供了广泛的应用场景和创作自由度
黑森林实验室
Flux背后的主创团队来自由Stable Diffusion 原班人马打造的黑森林实验室BlackForestLabs,2024年8月1日,正式宣布成立,核心成员包括3月宣布从 Stability AI 出走的 Robin Rombach,也是 Stable Diffusion 的两个主要作者之一。
Flux简介
FLUX.1共有专业版、开发者版、快速版三种版本。
-
FLUX.1 [pro] :最先进
闭源模型,质量最佳,提供最先进的性能图像生成,具有顶级的提示跟随、视觉质量、图像细节和输出多样性,FLUX.1 [pro] 可以通过API和合作伙伴 Replicate、fal.ai 和 mystic 访问,支持企业方案。
-
FLUX.1 [dev]:非商业应用
FLUX.1 [dev] 是一个用于非商业应用的开放轻量级模型,直接从 FLUX.1 [pro] 中提炼出来, 获得了和Pro版本类似的质量和及时依从性能力,同时比相同尺寸的标准型号更高效。可以直接在 Replicate、fal.ai、mystic 和 deepinfra 上试用。
-
FLUX.1 [schnell]:最快
可商用,为本地开发和个人使用量身定制,FLUX.1 [schnell] 在 Apache2.0 许可下公开提供。FLUX.1 [schnell] 也可以通过 Replicate、fal.ai、mystic 和 deepinfra 获得。
在基准测试中,Flux模型在图像合成方面树立了新标准,超越了Midjourney v6.0、Dall-E 3(HD)和SD3 Ultra等模型,在视觉质量、提示遵从性、尺寸/比例变化、字体处理和输出多样性方面表现出色。
-
视觉质量:Flux 的目标是生成保真度更高、细节更逼真、整体美感更强的图像。
-
及时跟进:该模型旨在更加紧密地遵循给定的文本提示,生成更准确反映用户意图的图像。
-
尺寸/外观变化:Flux 支持多种宽高比和分辨率,从 0.1 到 2.0 百万像素,为各种用例提供灵活性。
-
活版印刷:该模型显示出在图像中生成和渲染文本的改进能力,这是许多文本到图像模型的共同挑战。
-
输出分集:Flux 经过专门微调,可以保留预训练的整个输出多样性,从而提供更广泛的创造可能性。
黑森林实验室的图表显示,其Pro和Dev模型是迄今为止最好的图像生成器,而其较不强大的Schnell版本则位于Midjourney v5和Ideogram之间。
Flux 与 Midjourney比较分析 -
图像质量和美观度:Flux 和 Midjourney 都以制作高质量、视觉震撼的图像而闻名。Midjourney 因其艺术天赋和创造具有独特审美吸引力的图像的能力而受到称赞。Flux 凭借其先进的架构和更大的参数数量,旨在达到或超过这一质量水平。
Flux 的早期示例展现了令人印象深刻的细节、逼真的纹理以及对光线和构图的出色把握。然而,艺术的主观性使得很难明确宣称在这一领域谁更胜一筹。用户可能会发现,每种模型在不同风格或类型的图像上都有自己的优势。
-
互动/提示词遵循 :Flux 可能胜出的一个领域是及时遵守。Black Forest Labs 强调了他们专注于提高模型准确解释和执行给定提示的能力。这可能导致生成的图像更符合用户的意图,特别是对于复杂或细微的请求。Midjourney有时会因随意发挥创意而受到批评,这可能会产生美妙但出乎意料的结果。Flux 的方法可能对生成的输出提供更精确的控制。
-
速度与效率:随着 FLUX.1 [schnell] 的推出,Black Forest Labs 瞄准了 Midjourney 的主要优势之一:速度。Midjourney 以快速的生成时间而闻名,这使得它在迭代创作过程中广受欢迎。如果 Flux 能够在保持质量的同时达到或超过这一速度,那么这可能是一个重要的卖点。
-
易用性和易用性:Midjourney 之所以受欢迎,部分原因在于其用户友好的界面和与 Discord 的集成。Flux 是较新的,可能需要时间来开发类似的可访问界面。然而,FLUX.1 [schnell] 和 [dev] 模型的开源性质可能会导致社区开发各种工具和集成,在灵活性和定制选项方面可能超越 Midjourney。
-
技术能力:Flux 的先进架构和更大的模型尺寸表明,它在理解复杂提示和生成复杂细节方面可能具有更强大的原始能力。流匹配方法和混合架构可以让 Flux 处理更广泛的任务并生成更多样化的输出。
-
道德考虑和偏见缓解:Flux 和 Midjourney 都面临着解决人工智能生成图像中的道德问题的挑战,例如偏见、错误信息和版权问题。Black Forest Labs 强调透明度,并致力于让模型广泛普及,这可能会带来更强有力的社区监督和这些领域的更快改进。
过人之处
💡 擅长生成文字、人手三种模型规模秒级生成
FLUX.1在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘。
- 文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1可以处理重复字母的棘手单词。
例如生成一个黑森林Flux Schnell蛋糕:
- 构图方面,FLUX.1则表现出来非常擅长遵循复杂的指令,确定图像中事物的位置的能力。
例如:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。
- 人手一直是多模态生成模型的重灾区。FLUX.1生成的人手图像虽然还称不上是完美,但实现了很大的进步。
技术创新
Flux 令人印象深刻的功能的核心在于一系列技术创新,使其有别于其前辈和同时代产品:
大规模变压器驱动的流动模型
所有公开的 FLUX.1 模型均建立在混合架构上,该架构结合了多模态和并行扩散变压器模块,可扩展到令人印象深刻的 12 亿个参数。与许多现有的文本转图像模型相比,这代表了模型大小和复杂性的显著飞跃。
Flux 模型通过结合流匹配(一种通用且概念简单的生成模型训练方法)改进了之前最先进的扩散模型。流匹配为生成建模提供了更灵活的框架,而扩散模型是这种更广泛方法中的一个特例。
为了提高模型性能和硬件效率,Black Forest Labs 集成了旋转位置嵌入和并行注意层。这些技术可以更好地处理图像中的空间关系,并更有效地处理大规模数据。
建筑创新
影响 Flux 性能的一些关键架构元素:
- 混合架构:通过结合多模态和并行扩散变压器块,Flux 可以有效地处理文本和视觉信息,从而实现提示和生成的图像之间更好的对齐。
- 流量匹配:这种方法可以更灵活、更高效地训练生成模型。它提供了一个统一的框架,涵盖了扩散模型和其他生成技术,有可能实现更强大、更通用的图像生成。
- 旋转位置嵌入:这些嵌入有助于模型更好地理解和维护图像内的空间关系,这对于生成连贯且详细的视觉内容至关重要。
- 并行注意力层:该技术可以更有效地处理注意力机制,这对于理解文本提示和生成的图像中不同元素之间的关系至关重要。
- 缩放至 12B 参数:模型的庞大规模使其能够捕捉和合成更复杂的模式和关系,从而可能带来更高质量和更多样化的输出。
Flux使用
Flux 在线体验
官方提供了一系列在线体验的地址:
1. fal.ai :https://fal.ai/flux
免费试用,新用户赠送$1,可以试用dev,最多可以生成40张图片
2. Huggingface (免费):
- https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
- https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
- Mystic AI :https://www.mystic.ai/black-forest-labs/
提供免费试用,FLUX.1 [Pro], FLUX.1 [Dev]和FLUX.1 [schnell]均可用
Flux 本地部署使用
Flux云端部署
十分钟学会云部署ComflyUI Flux, 保姆级教程,40s快速出图(附Flux工作流和模型资源)!https://www.aibetas.com.cn/p/4054.html
总结
在模型架构上,FLUX.1采用基于多模态和并行扩散Transformer模块的混合架构,并将其扩展到12B参数。
团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。
根据FLUX.1团队的测试数据,即便是开源的Schnell版本,在文本语义还原、图片质量、动作一致性、连贯性和多样性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特别是在文本嵌入图片方面,FLUX.1展现出了明显的优势。