2021年1月,OpenAI 推出 DALL-E。这是 GPT 模型在图像生成方面的人工智能应用。其名称来源于著名画家、艺术家萨尔瓦多 • 达利(Dalí)和机器人总动员(Wall-E)。DALL-E 图像生成器,能够直接根据文本描述生成多种艺术风格的高质量图像,让机器也能拥有顶级画家、设计师的创造力。本期 Azure OpenAI 官方指南,为您详解 DALL-E 的图像生成功能、安全过滤机制与常见应用场景。
DALL-E的图像生成功能 ╱ 01
DALL-E的安全过滤机制 ╱ 02
DALL-E的常见应用场景 ╱ 03
DALL-E的图像生成功能
DALL-E 是一个高级人工智能应用,能够根据简单的自然语言描述创建极其逼真和清晰的图像。DALL-E 精通各种艺术风格,甚至可以根据季节、光线、环境、时间的不同,绘制相应的光影。
新推出的 DALL-E 2 版本,能够以比 DALL-E 高4倍的分辨率,生成更真实、更准确的图像,尤其在字幕匹配和照片真实性方面优于 DALL-E。此外,DALL-E 2 还具有更快的生成速度和更低的计算成本。
人们可以尽情展开想象力,DALL-E 2 可以短时间内将各种有趣的想法转化成图像。例如,当您描述 “可以通向另一个世界的一碗汤”,并指定图片风格分别为:数字艺术、巴斯奎特涂鸦风格以及洞穴壁画时,DALL-E 2 将生成如下画作:
⦿ 数字艺术风格
⦿ 巴斯奎特涂鸦风格
⦿ 洞穴壁画风格
除了画作外,DALL-E 2 还可以生成照片级的真实图像,如:宇航员闲适地呆在太空中的热带度假胜地。
此外,DALL-E 2 还有很多强大的拓展功能:
拓展功能 1
可以基于原始图像,在原始画布之外生成新图像,创造新构图。
▲ 点我观看《戴珍珠耳环的少女》新构图
拓展功能 2
可以基于自然语言描述,添加和删除元素,同时呈现出真实的阴影、反射和纹理。
例如,以图1作为原始图片,在不同的位置分别放置火烈鸟时,图2、3、4分别呈现出了地板、水面、玻璃的多种反射和折射:
拓展功能 3
可以根据局部风格来调整成像,使画面整体更具真实性。
例如,图1是一张画展照片,在两幅画的位置和真实世界分别添加一只柯基,DALL-E 2 可以根据画面的局部风格,呈现出真实效果:
拓展功能 4
可以根据原始图像创建不同的变体
DALL-E的安全过滤机制
DALL-E 不仅能够理解图像,更能够理解图像和用于描述图像的文本之间的关系。基于此,我们能够理解AI是怎么看待这个世界的,并借此提升AI的生成能力和安全性。
为了确保使用者可以放心地使用 DALL-E,而不必担心生成的图像包含不适当的内容,DALL-E 通过模型训练构建了安全过滤机制,使模型从训练数据中获取明确的过滤内容。
DALL-E 2 预览版本中的安全过滤机制包括:
● 内容输入过滤器以及访问、使用等权限的相关策略。
● 风险导向调查和评估,包括偏见,虚假和错误信息,经济影响,涉及仇恨、骚扰和暴力的信息,版权等。
● 结合现有技术,思考进一步的风险和缓解措施。
DALL-E的常见应用场景
DALL-E 可以根据文字描述进行艺术创作,生成高质量的图像,并根据需要进行调整。因此,DALL-E 可以应用于广泛的领域和场景,例如广告、游戏、娱乐、教育等。
⦿ 广告娱乐:使用 DALL-E 生成极具吸引力的图像,以吸引更多客户。
⦿ 游戏:使用 DALL-E 生成游戏中的角色和场景,以增强游玩互动体验。
⦿ 教育:使用 DALL-E 生成教学图像,以帮助学生更好地理解课程内容。
⦿ 图形设计:使用 DALL-E 生成各种不同类型的图像,例如动画、漫画、矢量图等。
⦿ 汽车:使用 DALL-E 生成汽车设计图纸,以加速开发新车型。
⦿ 制造和零售:使用 DALL-E 生成产品图像,以优化产品销售体验。
此外,DALL-E 十分易用,可以通过 API 与其他系统集成,使开发人员可以轻松地将其集成到他们的应用程序中,获取更多功能。
微软已经宣布,将 DALL-E 集成到新版必应搜索引擎和 Designer 图形应用程序中,帮助设计师尽可能轻松地创建独特的图像和设计。设计师只需输入产品或公司名称,Designer 将帮助生成符合品牌形象的独特视觉效果。当添加新素材时,它还可以自动更新,确保与整体设计完美匹配。“有了 Designer,设计师就不需要从头开始创作,也无需耗时在数千个预先制作的模板中搜索。只需注入想象,让人工智能接管创作!”
▲ 点我了解 DALL-E 的酷炫功能
企业级Azure OpenAI国际版官方指南
Vol.03 DALL-E 作者
钱祺斌微软云高级解决方案架构师