沉浸式体验Stability AI最新超强AI图片生成模型Ultra

2024年9月4日,亚马逊云科技在Amazon Bedrock上新了Stability AI最新的的三款文本图像生成模型:他们分别是Stable Image UltraStable Diffusion 3 LargeStable Image Core。全新的模型在处理多主题提示词、图像质量和图片排版上较上一代模型有显著提升,能够更块地生成高质量的视觉内容,我们们的日常可以应用的场景包括市场营销、广告、媒体、娱乐、零售等多个领域。

这一代全新的模型令小李哥印象最深刻的就是可以生成具有惊人写实度的图像,细节、颜色和光线处理能力十分优秀,能够解决日常的渲染问题,比如生成真实的手部和面部图像。它们的高级提示理解能力还允许模型准确理解更为复杂的提示指令,比如处理空间推理、构图和风格等需求。大家听完介绍后是不是很心动呢?下面就跟着我一起了解这次Stability AI发布的新款模型,并学习如何在亚马逊云科技平台上调用该模型API。

这次Stability AI发布的三款模型是什么?

这三款Stability AI模型适用于不同的使用场景:

  • Stable Image Ultra

        专为专业媒体机构和对图片内容要求极高的应用提供最高质量的接近于现实的输出,擅长呈现极致的细节与真实感。

  • Stable Diffusion 3 Large

    在生成速度和输出质量之间进行了折中,非常适合创建高质量的大批量数字内容,如网站、新闻通讯和营销材料。
  • Stable Image Core

    优化了图像生成的速度和成本,非常适合在概念构思阶段实现图像创意的样例。

利用Stability AI模型生成图片展示

小李哥觉得这次新发布的Stable Image Ultra和Stable Diffusion 3 Large与上一代模型Stable Diffusion XL (SDXL) 相比的最关键的提升就是——生成图像中的文字质量。在模型所使用的全新Diffusion Transformer架构支持下,生成的图片在拼写和排版出现的错误更少,这一架构实现了图像和文字的两个独立权重集,但能够在两种模式之间进行信息流动,从而增强了生成图像中的文字表现和准确度。

以下就是生成的图像示例:

Stable Image Ultra:

我们输入提示词:"照片,写实,一名女子坐在田野里看着风筝飞向天空,天空要下雨,图片中包括大量细节,概念艺术,复杂,专业构图。"我们可以得到以下生成图片:

Stable Diffusion 3 Large:

我们输入提示词:"漫画风格插图,一个男侦探站在街灯下,黑帮城市风格,该男侦探穿着风衣,戴着礼帽,天气阴暗且多雨,街道挂满了霓虹灯牌,路面湿漉漉的,反射忧郁的灯光,细节丰富。"我们可以得到以下生成图片:

Stable Image Core:

我们输入提示词:"生成一双白色和橙色运动鞋的3D图片,悬浮在中央,高质量,写实。"我们可以得到以下生成图片:

全新Stability AI模型在 Amazon Bedrock上的应用场景

文本生成图像模型在各行各业都可以被广泛应用,尤其是游戏、市场营销和广告部门的图像设计工作。这些模型可以快速生成高质量的视觉内容,用于广告活动、社交媒体图片和产品模型,加速生产力和产品交付周期。此外,这些AI模型能够在图像设计中带来更多超越常规想象的创意,提供实时的概念视觉表达,激发更多产品方面的创新。

对于电商业务,Stablitily AI生成的图像可以帮助创建大规模的多样化的产品展示和定制化的营销材料。在UI设计领域,利用该模型也可以快速生成样例界面,加速设计迭代周期。将AI应用到这些领域可以显著降低成本,提高生产力,并在视觉方面为开发者的项目和业务带来竞争优势。

热门应用场景:

  • 广告和市场营销

    • Stable Image Ultra可以用于生成产品展示图,如奢侈品牌广告
    • Stable Diffusion 3 Large生成高质量产品营销图像和广告
    • Stable Image Core快速生成社交媒体广告视觉概念,便于A/B 测试
  • 电商

    • Stable Image Ultra用于高端产品定制和定制商品设计图
    • Stable Diffusion 3 Large生成电商网站上大多数产品的视觉内容
    • Stable Image Core快速生成产品图像并更新商品图片列表
  • 媒体和娱乐

    • Stable Image Ultra生成超写实的艺术作品和游戏视觉
    • Stable Diffusion 3 Large用于游戏内环境纹理、角色设计和游戏内道具
    • Stable Image Core进行快速的游戏原型设计和概念艺术探索

在亚马逊云科技上使用全新Stability AI模型的方法

通过亚马逊云科技Amazon Bedrock控制台

1. 进入Amazon Bedrock服务后,在Playgrouds操作台选择图片模型,选中Stable Image Ultra模型

 2. 在提示词中输入如下内容生成一个蒸汽机器人:

A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says "Stability AI models in Amazon Bedrock".

3. 我们最终得到如下生成的图片 

通过亚马逊云科技CLI命令行工具生成图片

我们可以运行以下Bash命令调用Amazon Bedrock上的Stability AI模型生成图片

aws bedrock-runtime invoke-model \
--model-id stability.stable-image-ultra-v1:0 \
--body "{\"prompt\":\"A stylized picture of a cute old steampunk robot with in its hands a sign written in chalk that says \\\"Stability AI models in Amazon Bedrock\\\".\",\"mode\":\"text-to-image\",\"aspect_ratio\":\"1:1\",\"output_format\":\"jpeg\"}" \
--cli-binary-format raw-in-base64-out \
--region us-west-2 \
/dev/stdout | jq -r '.images[0]' | base64 --decode > img.jpg

API调用参数如下:

1)--model-id stability.stable-image-ultra-v1:0: 模型ID

2)body.prompt: 图片生成提示词

3)body.mode:text-to-image: 生成模式选择为根据图片生成图片

4)aspect_ratio:1:1:生成图片比例为1比1

5)output_format: jpeg:输出格式选择JPEG

6) --cli-binary-format raw-in-base64-out:以Base64编码输出

7)--region: 大模型所在区域

通过Python代码生成图片

我们也可以使用亚马逊云科技的Python SDK Boto3编写代码,调用Amazon Bedrock上的Stability AI模型AI生成图片,实例代码如下:

import base64
import boto3
import json
import os

MODEL_ID = "stability.stable-image-ultra-v1:0"

bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-west-2")

print("Enter a prompt for the text-to-image model:")
prompt = input()

body = {
    "prompt": prompt,
    "mode": "text-to-image"
}
response = bedrock_runtime.invoke_model(modelId=MODEL_ID, body=json.dumps(body))

model_response = json.loads(response["body"].read())

base64_image_data = model_response["images"][0]

i, output_dir = 1, "output"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
while os.path.exists(os.path.join(output_dir, f"img_{i}.png")):
    i += 1

image_data = base64.b64decode(base64_image_data)

image_path = os.path.join(output_dir, f"img_{i}.png")
with open(image_path, "wb") as file:
    file.write(image_data)

print(f"The generated image has been saved to {image_path}")

以上就是在亚马逊云科技上利用Stability AI全新发布的模型生成逼真现实度图片的全部步骤。欢迎大家关注小李哥未来获取更多国际前沿的亚马逊云科技生成式AI云开发/云架构方案。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/876121.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

美团图床设置教程

大厂图床,CDN加速 项目地址:https://github.com/woniu336/mt-img 使用方法 在mt.php填上你的token即可,然后打开index.html上传图片 获取token方法 注册https://czz.meituan.com/发布视频,上传封面,注意在上传封面后…

jenkins流水线+k8s部署springcloud微服务架构项目

文章目录 1.k8s安装2.jenkins安装3.k8s重要知识1.简介2.核心概念3.重要命令1.查看集群消息2.命名空间3.资源创建/更新4.资源查看5.描述某个资源的详细信息6.资源编辑7.资源删除8.资源重启9.查看资源日志10.资源标签 4.k8s控制台1.登录2.界面基本操作1.选择命名空间2.查看命名空…

CCS6 软件及仿真器驱动安装

1 CCS6 软件获取 TI 的官网上下载: http://www.ti.com/tools-software/ccs.html 注意 首先 win32 是 CCS 安装包支持 64 位系统,我们电脑也是 64 位系统也是安装的 win32 的安装包,另外 TI 只提供 win32 的安装包,无 win64 的安装包。 2 CCS6 软件安装 CCS如果获取提供的…

第十二周:机器学习笔记

第十二周周报 摘要Abstract机器学习1. Recurrent Neural Network(下)1.1 RNN的Loss Function怎么求?1.2 RNN奇怪的特性1.3 如何解决 RNN 梯度消失或者爆炸1.4 RNN 其他应用 Pytorch学习1. 现有的网络模型使用以及其修改1.1 在VGG16模型添加Mo…

docker部署bind9

一、部署 ## docker 部署bind9# docker run -d --name bind9 --restartalways --publish 53:53/tcp --publish 53:53/udp --publish 10000:10000/tcp --volume /data/docker/dns-server:/data --env ROOT_PASSWORDroot dhub.kubesre.xyz/sameersbn/bind:9.16.1-20200524# 建数…

小程序——生命周期

文章目录 运行机制更新机制生命周期介绍应用级别生命周期页面级别生命周期组件生命周期生命周期两个细节补充说明总结 运行机制 用一张图简要概述一下小程序的运行机制 冷启动与热启动: 小程序启动可以分为两种情况,一种是冷启动,一种是热…

53.9k star 提升命令行效率的模糊搜索神器--fzf

fzf简介 作为Linux/Unix命令行的重度用户,你是否还在使用繁琐的管道命令与复杂选项组合来过滤文件和数据?其实我们有一个更简单高效的选择 - fzf。 fzf是一个开源的通用模糊搜索工具,可以大幅度提升命令行的使用体验。它的查询运行速度极快,支持预览选中的文件内容,还能与各…

Tableau学习日记

Day1:Tableau简介、条形图与直方图 1.1 Tableau绘制条形图 1.1.1 条形图1:各地区酒店数量 1.1.2 条形图2:各地区酒店均价 1.1.3 堆积图:价格等级堆积图 1.2 Tableau绘制直方图 1.2.1创建评分直方图 Day2:数据处理、…

CSS“多列布局”(补充)——WEB开发系列35

多列布局是一种非常常见的布局方式,适用于内容丰富的页面,如新闻网站、杂志或博客。 一、CSS多列布局概述 CSS多列布局允许我们将内容分成多个垂直列,使页面布局更加灵活和多样化。多列布局的主要属性包括 ​​column-count​​、​​column…

《OpenCV计算机视觉》—— 图像轮廓检测与绘制

文章目录 一、轮廓的检测二、轮廓的绘制图像轮廓检测与绘制的代码实现 三、轮廓的近似 一、轮廓的检测 轮廓检测是指在包含目标和背景的数字图像中,忽略背景和目标内部的纹理以及噪声干扰的影响,采用一定的技术和方法来实现目标轮廓提取的过程注意:做轮…

GPS/LBS/Wi-Fi定位,全安排!—合宙Air201资产定位模组LuatOS快速入门04

经历了hello world、点灯、远程控制三期基础教程,小伙伴们是不是收获满满,期待更高阶的应用呢? 本期,我们将学习合宙Air201的核心功能之一——定位功能! Air201定位示例教程 合宙Air201资产定位模组——是一个集成超…

TCP交互通讯在Windows中的频率

在基于TCP协议的交互式通讯中,通过网口进行数据传输时,Windows系统的通讯频率通常受到多方面的限制,很难稳定达到几千Hz。以下是关于频率范围的合理分析及提高频率的措施。 频率限制的原因: 网络延迟:TCP通讯的一个核心…

SpringBoot集成Thymeleaf模板引擎,为什么使用(详细介绍)

学习本技术第一件事:你为什么要使用,解决什么问题的? 1.为什么使用(使用背景)? 首先应用场景是单体项目,如果是前后端分离就不用关注这个了,因为单体项目你前后端都是写在一个项目…

【CTF MISC】XCTF GFSJ1086 [简单] 简单的base编码 Writeup(Base64编码+循环解码+Base92编码)

[简单] 简单的base编码 你懂base编码吗? 工具 在线BASE92编码解码:https://ctf.bugku.com/tool/base92 解法 Vm0wd2QyUXlVWGxWV0d4V1YwZDRWMVl3WkRSV01WbDNXa1JTVjAxV2JETlhhMUpUVmpBeFYySkVUbGhoTVVwVVZtcEJlRll5U2tWVWJHaG9UVlZ3VlZadGNFSmxSbGw1V…

MySQL详解:数据类型、约束

MySQL 1. 数据类型1.1 数值类型1.1.1 bit 位类型1.1.2 整数数据类型1.1.3 小数类型floatdecimal 1.2 字符类型1.2.1 char1.2.2 varchar 可变长字符串1.2.3 日期和时间类型datedatetimetimestamp 1.2.4 enum1.2.5 set集合查询函数 find_in_set 2. 表的约束2.1 NULL 空属性2.2 默…

《Linux运维总结:基于ARM64+X86_64架构CPU使用docker-compose一键离线部署mongodb 7.0.14容器版副本集群》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、部署背景 由于业务系统的特殊性,我们需要面向不通的客户安装我们的业务系统&…

[Visual Stuidio 2022使用技巧]2.配置及常用快捷键

使用vs2022开发WPF桌面程序时常用配置及快捷键。 语言:C# IDE:Microsoft Visual Studio Community 2022 框架:WPF,.net 8.0 一、配置 1.1 内联提示 未开启时: 开启后: 开启方法: 工具-选…

基于微信小程序的垃圾分类(lw+演示+源码+运行)

摘 要 随着生态文明体制改革的不断推进,可持续发展的环保理念逐渐成为社会共识,而在推行环保措施的过程中却困难重重.针对生活废弃物肆意无序投放的问题,尽管目前各大城市相继推出垃圾分类强制性执行的政策法规,但因市民欠缺对垃圾种类的正确认识而导致垃圾分类的施行难度和成…

Luban策划开源工具

一、Luban游戏配置解决方案,是一个强大、易用、优雅、稳定的游戏配置解决方案。它设计目标为满足从小型到超大型游戏项目的简单到复杂的游戏配置工作流需求。luban标准化了游戏配置开发工作流,可以极大提升策划和程序的工作效率。 二、核心特性&#xf…

【代码随想录训练营第42期 Day58打卡 - 图论Part8 - 拓扑排序

目录 一、拓扑排序介绍 定义 特点 实现方法(2种) 应用 二、题目与题解 题目:卡码网 117. 软件构建 题目链接 题解:拓扑排序 - Kahn算法(BFS) 三、小结 一、拓扑排序介绍 对于拓扑排序&#xff0c…