[AI Google] 新的生成媒体模型和工具,专为创作者设计和构建

我们推出了 Veo,我们最强大的高清晰度视频生成模型,以及 Imagen 3,我们质量最高的文本生成图像模型。我们还分享了一些使用我们的 Music AI Sandbox 创作的新演示录音。

图片显示了一名服装设计师在他们的工作室工作,图片上写着“将创意想法变为现实”。

在过去的一年里,我们在提升生成媒体技术质量方面取得了令人难以置信的进步。我们与创意社区密切合作,探索生成 AI 如何最好地支持创意过程,并确保我们的 AI 工具在每个阶段都尽可能有用。

今天,我们推出了 Veo,这是我们最新和最先进的视频生成模型,以及 Imagen 3,我们迄今为止质量最高的文本生成图像模型。

我们还分享了与电影制片人唐纳德·格洛弗及其创意工作室 Gilga 的一些近期合作,以及艺术家 Wyclef Jean、Marc Rebillet 和作曲家 Justin Tranter 使用我们的 Music AI Sandbox 创作的新演示录音。

Veo:我们最强大的视频生成模型

Veo 生成高质量的 1080p 分辨率视频,涵盖多种电影和视觉风格,视频长度可超过一分钟。通过对自然语言和视觉语义的高级理解,它生成的视频能够准确反映用户的创意愿景,精准捕捉提示的语调,并在较长的提示中渲染细节。

该模型提供了前所未有的创意控制,理解“延时”或“景观的航拍”等电影术语。Veo 创作的镜头一致且连贯,使人物、动物和物体在镜头中自然移动。

Veo 高质量视频生成能力的示例。所有视频均由 Veo 生成,未经过修改。

为了探索 Veo 如何最好地支持故事讲述者的创意过程,我们邀请了一系列电影制作人和创作者试验该模型。这些合作还帮助我们改进技术的设计、构建和部署方式,以确保创作者在技术开发中有发言权。

以下是我们与电影制片人唐纳德·格洛弗及其创意工作室 Gilga 合作的一些工作预览,他们在一个电影项目中试验了 Veo。

Veo 建立在我们多年生成视频模型工作的基础上,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere,结合架构、缩放定律和其他新技术以提高质量和输出分辨率。

通过 Veo,我们改进了模型学习视频内容、渲染高清图像、模拟物理世界等方面的技术。这些学习将推动我们 AI 研究的进步,使我们能够构建更多有用的产品,帮助人们以新的方式互动和交流。

从今天起,Veo 将通过加入我们的候补名单,在 VideoFX 的私密预览中向部分创作者开放。在未来,我们还将把 Veo 的一些功能带到 YouTube Shorts 和其他产品中。

了解更多关于 Veo 的功能。

Imagen 3:我们质量最高的文本生成图像模型

在过去的一年里,我们在提高图像生成模型和工具的质量和保真度方面取得了令人难以置信的进步。

Imagen 3 是我们质量最高的文本生成图像模型。它生成的细节令人惊叹,能够产生逼真、生动的图像,比我们之前的模型减少了很多干扰的视觉伪影。

一只灰狼的特写肖像,具有强烈的黄色眼睛。狼有厚厚的灰色和棕色毛皮外套和黑色鼻子。它直视着观众,表情平静但警觉。背景是模糊的蓝灰色天空。

提示:一只优雅站在灰色背景前的灰狼特写,高分辨率照片,细节细腻,色彩分级,超现实主义风格。

一只大水母在海洋中漂浮,长长的触手随水流动。水母有一个圆形的半透明钟形体,带有棕色条纹和一簇花边般的口臂。它周围是蓝色的水,背景中可以看到珊瑚礁。

提示:近距离拍摄在晶莹剔透的水中脉动的水母,触手拖曳,色彩斑斓的珊瑚礁背景,微距摄影,高清,细节丰富,柔和照明,专业色彩分级,浅景深,焦点清晰,用 DSLR 相机拍摄,专业摄影师风格。

一条宽阔的河流穿过一条深峡谷,峡谷被郁郁葱葱的绿色山脉环绕,天空晴朗。河流平静,倒映出周围的景色。阳光明媚,山坡上投下阴影,突出岩石的纹理。

提示:从上方俯瞰美丽的河谷,展示其绿色山脉和蓝色水域的自然美景。照片捕捉了大自然的广阔创造,风格极其自然。

三个热气球在天空中漂浮,下面是崎岖的岩石地形。热气球色彩斑斓,下面挂着篮子。阳光明媚,天空湛蓝。

提示:使用偏光滤镜拍摄的 DSLR 相机风格照片。两只热气球漂浮在土耳其卡帕多西亚独特的岩石地貌上。气球上的颜色和图案与下面的土地色调形成美丽的对比。这张照片捕捉了享受这种体验的冒险感。

一只好奇的松鼠从一只泥泞的徒步靴里探出头来,背景是模糊的山脉。

提示:一双泥泞的徒步靴,靴子上系着松松的鞋带,靴子上方探出一只松鼠的头,懒洋洋地看着镜头,像鞋中的小国王。背景是山地景观。电影场景风格,高质量 DSLR 照片。

三个年轻女人站成一圈,开心地笑着。背景是夕阳,产生了镜头光斑,给画面带来了温暖的光芒。

提示:三位女性站在一起笑,一位女性在前景中稍微有些模糊。夕阳在她们身后,产生了镜头光斑和温暖的光芒,突出了她们的头发,并在背景中形成了散景效果。摄影风格是抓拍,捕捉到朋友之间真实的连接和幸福时刻。金色小时的温暖光线为图像增添了怀旧和亲密感。

Imagen 3 更好地理解自然语言、提示背后的意图,并从较长的提示中纳入小细节。模型的高级理解能力使其能够掌握多种风格。

一位短发和胡子的黑人微笑着看着镜头。背景模糊,显示出淡色的树木和建筑。

提示:一位短发和胡子的男人微笑着看着镜头。背景模糊,显示出淡色的树木和建筑。

一个人的手持着一个小粘土鸟的雕像,另一只手用雕刻工具雕刻。手上沾满了粘土灰尘。雕刻者穿着灰色的羊毛夹克和棕色与酒红色的围巾。

提示:一个人的手持着一个小粘土鸟的雕像,另一只手用雕刻工具雕刻。你可以看到雕刻者的围巾。他们的手上沾满了粘土灰尘。一张强调纹理和工艺的宏观 DSLR 照片。

一幅女性舞者的动态动作炭笔素描。素描绘制在陈旧的羊皮纸上。

提示:抽象素描:用炭笔画的模糊的表现线条和能量,捕捉到舞者动态动作的手势素描。绘制在陈旧的羊皮纸上。

一个灰色的钩编大象玩具站在草地上的土路上。大象有白色的獠牙和指甲以及黑色的眼睛。背景是模糊的绿色和棕色的植物,远处夕阳西下。

提示:在稀树草原上行走的钩编大象玩偶,专业摄影,背景模糊。

一幅动漫风格的图像,展示了一位穿着白色连衣裙的女孩站在一个广阔湖泊的岸边,手捧鲜花,仰望满是粉色云彩的天空。天空的倒影映在水面上。周围是野花覆盖的小山丘。

提示:穿白裙的女孩站在无尽的湖边,手捧鲜花,仰望满是粉色云彩的天空。天空的倒影映在水面上,形成美丽的动漫场景。周围是覆盖着野花的小山丘,增加了美感。动漫风格背景,紫蓝色调,柔和光线,暖色,梦幻氛围和浪漫情感。

一只被苔藓覆盖的木制机器人站在野花田里,伸出手给一只栖息在它手上的小蓝鸟。背景是瀑布从悬崖上流下来。

提示:一只布满开花藤蔓的风化木制机器人平静地站在野花丛中,伸出手,一只小蓝鸟栖息在它的手上。数字漫画,温暖的颜色和柔和的线条。背景是瀑布从悬崖上流下来。

它也是我们迄今为止在渲染文本方面表现最好的模型,这对于图像生成模型来说一直是一个挑战。这项能力为生成个性化生日信息、演示文稿中的标题幻灯片等带来了可能性。

一座宏伟的石制建筑入口,上方刻有“中央图书馆”字样。入口由两根柱子框架,设有一组带玻璃窗的大木门。

提示:一张庄严图书馆入口的照片,上面刻有“中央图书馆”字样。

一只用棕色纸折成的精细折纸猫头鹰,栖息在松树枝上,闭着眼睛。它的羽毛折得很精细,表情宁静。背景是绿色的模糊树叶。

提示:一只用棕色纸折成的折纸猫头鹰栖息在一棵常青树的树枝上。猫头鹰面向前方,闭着眼睛,给人一种平静的感觉。背景是模糊的绿色树叶,营造出自然和宁静的环境。

一只毡制机器人站在阳光照射的森林空地上,肩膀上停着一只毡制猫头鹰,脚边坐着一只毡制狐狸。机器人是灰色的,有大大的圆眼睛,表情有些担忧。猫头鹰有大大的橙色眼睛和棕色的羽毛。狐狸有红色的毛皮和毛茸茸的尾巴。森林地面覆盖着绿色的苔藓和落叶。

提示:一幅毡制木偶场景的照片,展现了一个宁静的自然场景,一个隐秘的森林空地,一只大而友好的圆形机器人以平版印刷风格呈现。一只猫头鹰栖息在机器人的肩膀上,一只狐狸坐在它的脚边。柔和的色彩洗涤,五种颜色和充满光线的调色板营造出一种和平和宁静的感觉,邀请人们思考和欣赏自然美景。

一幅像素艺术插图,展示了航天飞机STS-1在蓝天中发射,留下一道烟雾和火焰的轨迹。图片底部写有“STS-1”。

提示:一幅航天飞机发射的像素艺术。背景是卡纳维拉尔角的蓝天,滚滚烟雾。“STS-1”写在其下方。

由彩色羽毛组成的“光”字,置于黑色背景上。

提示:由各种彩色羽毛组成的“光”字,黑色背景。

一个完全由粘土制成的场景,描绘了一位穿着红色上衣和褐色裙子的老年女性。她正在花园的一条笔直的小径上行走,小径两旁长满了茂盛的植物。她右手拿着一个大橙色的浇水壶,正在用它给植物浇水。

提示:黏土动画场景。一个中景拍摄的老年女性。她穿着飘逸的衣服,站在茂盛的花园中,用橙色的浇水壶给植物浇水。

从今天起,Imagen 3将在ImageFX的私人预览中向部分创作者开放,并可以通过加入我们的候补名单来使用。Imagen 3即将登陆Vertex AI。

了解更多关于Imagen 3的功能。

我们与音乐界的合作

作为我们持续探索AI在艺术和音乐创作中作用的一部分,我们与YouTube合作,与一些令人惊叹的音乐家、词曲作者和制作人合作。

这些合作还为我们生成音乐技术的发展提供了信息,包括Lyria,这是我们最先进的AI音乐生成模型。

作为这项工作的一部分,我们开发了一套名为Music AI Sandbox的音乐AI工具。这些工具旨在为创意开辟新的天地,允许人们从零开始创作新的乐器部分,以新的方式转换声音等等。

我们与音乐家、词曲作者和制作人合作,研究人工智能在音乐创作过程中的激动人心的作用。

今天,我们继续与获得格莱美奖的音乐家Wyclef Jean、获得格莱美提名的词曲作者Justin Tranter和电子音乐家Marc Rebillet一起进行音乐实验——他们正在他们的YouTube频道上发布使用我们音乐AI工具创作的新演示录音。

Wyclef Jean、Justin Tranter和Marc Rebillet是首批使用Music AI Sandbox发布新演示的艺术家,每个演示现在都可以在他们的YouTube频道上收听。

从设计到部署的责任

我们不仅仅关注技术的进步,还注重负责任地进行。为此,我们采取措施应对生成技术带来的挑战,帮助人们和组织负责任地使用AI生成的内容。

对于这些技术,我们一直与创意社区和其他外部利益相关者合作,收集见解并倾听反馈,以帮助我们以安全和负责任的方式改进和部署我们的技术。

我们一直在进行安全测试,应用过滤器,设定保护措施,并将我们的安全团队置于开发中心。我们的团队还在开发工具,例如SynthID,可以在AI生成的图像、音频、文本和视频中嵌入不可见的数字水印。从今天开始,所有由Veo在VideoFX上生成的视频都将由SynthID进行水印标记。

生成AI的创意潜力是巨大的,我们迫不及待地想看看世界各地的人们如何利用我们的新模型和工具将他们的创意想法变为现实。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/674219.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能售货机的小投入大回报创业机遇

智能售货机的小投入大回报创业机遇 在当今这个快速进化的数字时代,智能售货机作为零售领域的新秀,正以其独特的便捷性和创新性逐步重塑传统零售格局。24小时不间断服务与自动化管理的结合,大幅度削减人力成本,使得智能售货机成为…

生信算法7 - 核酸序列Fasta和蛋白PDB文件读写与检索

python 3.9实现以下算法。 1. 简单的写文件和读文件 # 写 file1 open(count.txt,w) file1.write(this is a test) file1.close()# 读 file2 open(my_file) print(file2.read())2. 将列表内容写入文本文件 # 生成100-500数字列表 data [i * 100 for i in range(1, 6)] pri…

AI大模型,正在排队寻求“卖身”!请保持冷静!

AI独角兽卖身大潮,再添一员 就在上周,备受瞩目的明星企业Stability AI,这家估值接近300亿的大模型领域的佼佼者,**突然传出资金链断裂的严峻消息,并正积极寻求合并的可能性。**与此同时,媒体也透露&#x…

RetroMAE-文本embedding算法

1)输入文本经掩码操作后由编码器(Encoder)映射为隐空间中的语义向量;而后解码器(Decoder)借助语义向量将另一段独立掩码的输入文本还原为原始的输入文本 2)编码器的掩码率为15%-30%;解码器的掩码率为50%-70…

HMM地图匹配算法库Barefoot环境搭建

1.引入gps路径匹配开源项目barefoot 克隆仓库 git clone https://github.com/bmwcarit/barefoot.git打开项目执行mvn命令将项目打包到maven仓库 mvn install -DskipTests在自己的maven项目中引入barefoot依赖 <dependency><groupId>com.bmw-carit</groupId&g…

k8s 1.28.x 配置nfs

1.安装nfs&#xff0c;在每个节点上安装 yum install -y nfs-utils 2.创建共享目录(主节点上操作) mkdir -p /opt/nfs/k8s 3.编写NFS的共享配置 /opt/nfs/k8s *(rw,no_root_squash) #*代表对所有IP都开放此目录&#xff0c;rw是读写 4.启动nfs systemctl enable nfs-ser…

Flutter基础 -- Dart 语言 -- 进阶使用

目录 1. 泛型 generics 1.1 泛型使用 1.2 泛型函数 1.3 构造函数泛型 1.4 泛型限制 2. 异步 async 2.1 异步回调 then 2.2 异步等待 await 2.3 异步返回值 3. 生成器 generate &#xff08;了解&#xff09; 3.1 同步生成器 sync* 使用 sync* 的场景 总结 3.2 异…

CRM系统主要是干什么?CRM系统主要功能和作用

什么是CRM 系统&#xff1f;CRM系统到底是干什么的&#xff1f;不同的企业人员该如何利用CRM去解决他们的问题等等&#xff0c;问题太多了&#xff0c;今天来为大家详细介绍。 干货满满&#xff0c;建议收藏&#xff01;&#xff01; 首先第一个问题&#xff0c;什么是CRM系统…

Tween.js在Three.js中的应用:为3D动画添加流畅过渡

前言 在Web开发领域&#xff0c;Three.js已经成为构建精彩3D内容的首选库之一。它让开发者能够轻松地在浏览器中创建和展示复杂的3D场景。然而&#xff0c;要让这些场景栩栩如生&#xff0c;平滑的动画效果是必不可少的。这就引入了Tween.js——一个轻量级但功能强大的JavaScr…

MyBatis核心对象

MyBatis核心类对象主要有俩个&#xff1a; 1&#xff1a;对相关配置文件信息进行封装的Configuration对象 2&#xff1a;用来执行数据库操作的Executor对象。 核心对象----存储类对象Configuration Configuration对象主要有三个作用&#xff1a; 1&#xff1a;封装MyBatis…

linux进程加载和启动过程分析

我们的源代码通过预处理,编译,汇编,链接后形成可执行文件,那么当我们在终端敲下指令$ ./a.out argv1 argv2 后,操作系统是怎么将我们的可执行文件加载并运行的呢? 首先知道,计算机的操作系统的启动程序是写死在硬件上的,每次计算机上电时,都将自动加载启动程序,之后…

R语言数据分析-针对芬兰污染指数的分析与考察

1. 研究背景及意义 近年来&#xff0c;随着我国科技和经济高速发展&#xff0c;人们生活质量也随之显著提高。但是&#xff0c; 环境污染问题也日趋严重&#xff0c;给人们的生活质量和社会生产的各个方面都造成了许多不 利的影响。空气污染作为环境污染主要方面&#xff0c;更…

重生之我要精通JAVA--第七周笔记

文章目录 IO流字符流字符流原理解析flush和close方法 文件拷贝代码文件加密解密修改文件中的数据 缓冲流字节缓冲流字符缓冲流例题 转换流序列化流序列化流/对象操作输出流 反序列化流序列化流/反序列化流的细节汇总打印流字节打印流字符打印流 解压缩流压缩流Commons-io常见方…

代码随想录--哈希表--两数之和

题目 给定一个整数数组 nums 和一个目标值 target&#xff0c;请你在该数组中找出和为目标值的那 两个 整数&#xff0c;并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素不能使用两遍。 示例: 给定 nums [2, 7, 11, 15], t…

【RuoYi】如何解决Postman无法访问RuoYi中的接口数据

一、前言 最近&#xff0c;写项目要求需要将数据返回&#xff0c;指定的接口&#xff0c;并且需要使用Postman来测试接口数据&#xff0c;看是否能够请求到数据。然后项目用的是RuoYi的框架&#xff0c;RuoYi使用了SpringSecurity来做的安全框架&#xff0c;所以在访问的时候&a…

【C语言】编译与链接:深入理解程序构建过程

&#x1f525;引言 本篇将深入理解程序构建过程&#xff0c;以便于我们在编写程序的过程同时&#xff0c;理解底层是如何从程序的创建到生成可执行程序的。 &#x1f308;个人主页&#xff1a;是店小二呀 &#x1f308;C语言笔记专栏&#xff1a;C语言笔记 &#x1f308;C笔记专…

django使用fetch上传文件

在上一篇文章中&#xff0c;我包装了fetch方法&#xff0c;使其携带cookie。但是之前fetch传递的是json数据&#xff0c;现在有了一个上传文件的需求&#xff0c;因此需要进行修改&#xff1a; const sendRequest (url, method, data) > {const csrftoken Cookies.get(cs…

【Effective Python教程】(90个有效方法)笔记——第1章:培养pythonic思维——7:尽量用enumerate取代range

文章目录 第1章&#xff1a;培养pythonic思维第7条 尽量用enumerate取代range&#xff08;移位操作、位掩码&#xff09;要点enumerate函数可以用简洁的代码选代iterator&#xff0c;而且可以指出当前这轮循环的序号。不要先通过range指定下标的取值范围&#xff0c;然后用下标…

Linux eBPF:网络、系统监控和安全领域的创新

扩展 Berkeley Packet Filter&#xff08;eBPF&#xff09;是Linux内核中的一项强大技术&#xff0c;最初用于网络数据包过滤。随着时间的推移&#xff0c;eBPF的功能和应用场景不断扩展&#xff0c;如今已成为网络、系统监控和安全等领域的重要工具。eBPF可以在Linux内核中安全…

Halcon 双相机标定与拼图(一)

二、算子解释 get_calib_data camera-pose 获得基于第一个相机的第二个相机的Pose get_calib_data (CalibDataID, camera, 1, pose, RelPose2) *relative 相对 * To get the absolute pose of the second camera, its relative pose needs * to be inverted and combined…