[AI Google] Google I/O 2024: 为新一代设计的 I/O

Sundar 在舞台上,背景显示填充渐变色的 I / O 字母。

编辑注:以下是 Sundar Pichai 在 I/O 2024 上讲话的编辑版,并包含了更多在舞台上宣布的内容。查看我们收藏中的所有公告。

Google 完全进入了我们的 Gemini 时代。

在开始之前,我想反思一下我们所处的这一刻。我们已经在 AI 上投资了十多年,并在堆栈的每一层进行创新:研究、产品、基础设施,今天我们将谈论这一切。

尽管如此,我们仍处于 AI 平台转变的早期阶段。我们看到了前方的巨大机会,为创作者、开发者、初创企业,为每个人。推动这些机会的正是我们的 Gemini 时代。因此,让我们开始吧。

Gemini 时代

一年前在 I/O 舞台上,我们首次分享了关于 Gemini 的计划:一个从一开始就设计为原生多模态的前沿模型,能够跨文本、图像、视频、代码等进行推理。这标志着将任何输入转化为任何输出的一个大步骤——为新一代设计的 “I/O”。

自那以后,我们推出了首批 Gemini 模型,这是我们迄今为止最强大的模型。它们在每个多模态基准上展示了最先进的性能。两个月后,我们推出了 Gemini 1.5 Pro,在长上下文方面取得了重大突破。它可以在生产中运行 100 万个标记,持续不断,比任何其他大规模基础模型都要多。

我们希望每个人都能受益于 Gemini 的功能。因此,我们迅速行动,将这些进展分享给大家。今天,超过 150 万开发者在我们的工具中使用 Gemini 模型。你们正在使用它来调试代码,获取新见解,并构建下一代 AI 应用程序。

我们还在我们的产品中以强大的方式引入了 Gemini 的突破性功能。今天我们将展示跨搜索、照片、工作区、Android 等的示例。

产品进展

今天,我们所有有 20 亿用户的产品都使用了 Gemini。

我们还推出了新的体验,包括在移动设备上,用户可以通过应用直接与 Gemini 互动,现在可以在 Android 和 iOS 上使用。通过 Gemini Advanced 提供访问我们最强大的模型。仅在三个月内就有超过 100 万人注册尝试,并且势头强劲。

扩展搜索中的 AI 概览

Gemini 在 Google 搜索中的转变是最令人兴奋的之一。

在过去的一年中,我们在搜索生成体验中回答了数十亿个查询。人们正在以全新的方式使用搜索,提出新类型的问题、更长和更复杂的查询,甚至用照片搜索,并获得网络上最好的内容。

我们一直在实验室外测试这一体验。我们很高兴看到不仅搜索使用量增加,用户满意度也提高了。

我很高兴地宣布,本周我们将在美国全面推出这款全新改版的体验 AI 概览。我们很快将其带到更多国家。

搜索中有很多创新正在发生。感谢 Gemini,我们可以创造更强大的搜索体验,包括在我们的产品内。

推出 Ask Photos

一个例子是我们在近九年前推出的 Google 照片。自那时起,人们使用它来组织他们最重要的记忆。今天,每天上传的照片和视频超过 60 亿张。

人们喜欢使用照片搜索他们的生活。通过 Gemini,我们使这一过程变得更加容易。

假设你在停车站付款,但记不住你的车牌号。以前,你可以搜索照片中的关键词,然后翻看多年的照片,寻找车牌号。现在,你可以直接问照片。它知道经常出现的车辆,能三角定位出哪辆是你的,并告诉你车牌号。

Ask Photos 还可以帮助你更深入地搜索记忆。例如,你可能想回忆你女儿 Lucia 的早期里程碑。现在,你可以问照片:“Lucia 什么时候学会游泳的?”

你还可以进一步问更复杂的问题:“展示 Lucia 的游泳进步。”

在这里,Gemini 超越了简单的搜索,能够识别不同的上下文——从在泳池中做圈,到在海洋中浮潜,到她游泳证书上的文本和日期。照片将这些信息打包在一起,以便你能真正体验,并重新回忆那些美好的记忆。我们将在今年夏天推出 Ask Photos,并会有更多功能。

移动设备上的照片 UI,提示“展示 Lucia 的游泳进步。” 回应展示了一系列女孩在不同场景中游泳的照片。

解锁多模态和长上下文的更多知识

解锁跨格式的知识是我们从一开始就将 Gemini 构建为多模态的原因。这是一个模型,内置了所有的模态。因此,它不仅理解每种类型的输入,还能找到它们之间的联系。

多模态大大扩展了我们可以提出的问题和得到的答案。长上下文更进一步,使我们能够引入更多信息:数百页文本、数小时音频或一小时视频、整个代码库…或者,如果你愿意的话,大约 96 份 Cheesecake Factory 菜单。

对于这么多的菜单,你需要一个 100 万标记的上下文窗口,现在通过 Gemini 1.5 Pro 成为可能。开发者们以非常有趣的方式使用它。

在过去几个月中,我们一直在预览中推出具有长上下文的 Gemini 1.5 Pro。我们在翻译、编码和推理方面进行了系列质量改进。从今天开始,你将看到这些更新反映在模型中。

现在我很高兴地宣布,我们正在将改进版的 Gemini 1.5 Pro 推广给全球所有开发者。此外,今天具有 100 万上下文的 Gemini 1.5 Pro 现在直接在 Gemini Advanced 中向消费者开放。这可以在 35 种语言中使用。

在私人预览中扩展到 200 万标记

100 万标记正在开创新的可能性。这很令人兴奋,但我认为我们可以进一步推动自己。

因此,今天,我们将上下文窗口扩展到 200 万标记,并在私人预览中向开发者开放。

回顾过去的几个月,看到我们取得了多大的进展,真是令人惊讶。这代表了我们在通向无限上下文的最终目标上的下一步。

将 Gemini 1.5 Pro 带入 Workspace

到目前为止,我们讨论了两项技术进步:多模态和长上下文。每个单独都非常强大。但结合起来,它们解锁了更深的能力和更多的智能。

这在 Google Workspace 中得以实现。

人们总是在 Gmail 中搜索邮件。我们正在努力通过 Gemini 使其更强大。例如,作为父母,你希望了解有关你孩子学校的一切。Gemini 可以帮助你保持跟进。

现在我们可以让 Gemini 总结来自学校的所有最新邮件。在后台,它正在识别相关邮件,甚至分析附件,如 PDF。你会得到要点和行动项的总结。也许你本周在旅行,无法参加家长教师会的会议。会议记录有一个小时长。如果是来自 Google Meet,你可以让 Gemini 给你一个亮点。家长小组正在寻找志愿者,而你那天有空。当然,Gemini 可以草拟回复。

还有无数其他例子可以说明这如何使生活更轻松。今天,Gemini 1.5 Pro 在 Workspace Labs 中可用。Aparna 分享更多内容。

NotebookLM 中的音频输出

我们刚刚看了一个文本输出的例子。但通过多模态模型,我们可以做更多事情。

我们在这里取得了进展,还有更多内容即将到来。NotebookLM 中的音频概览展示了进展。它使用 Gemini 1.5 Pro 将你的素材生成个性化和互动的音频对话。

这就是多模态的机会。很快你就能混合和匹配输入和输出。这就是我们所说的为新一代设计的 I/O。但如果我们可以更进一步呢?

通过 AI 代理走得更远

进一步推进是我们在 AI 代理方面看到的机会。我把它们想象成展示推理、规划和记忆的智能系统。它们能够提前思考多步,并跨软件和系统工作,以代表你完成一些事情,最重要的是,在你的监督下进行。

我们仍处于早期阶段,但让我展示一下我们努力解决的用例类型。

让我们从购物开始。购买鞋子很有趣,但当它们不合适时退货就没那么有趣了。

想象一下,如果 Gemini 可以为你完成所有步骤:

搜索收件箱中的收据…

从你的电子邮件中找到订单号…

填写退货表格…

甚至安排 UPS 上门取件。

这样要容易得多,对吧?

让我们再看一个更复杂的例子。

假设你刚搬到芝加哥。你可以想象 Gemini 和 Chrome 一起帮助你做好准备——组织、推理、综合你的需求。

例如,你会想要探索这座城市,找到附近的服务——从干洗店到遛狗服务。你还需要在几十个网站上更新你的新地址。

Gemini 可以跨这些任务工作,并在需要时提示你提供更多信息——所以你始终掌控。

这一点非常重要——当我们设计这些体验时,我们正在认真思考如何以隐私、安全的方式进行,并适合所有人。

这些是简单的用例,但它们可以很好地展示我们希望通过构建智能系统来解决的问题类型,这些系统能够提前思考、推理和计划——所有这些都在你的代表下完成。

对我们的使命的意义

Gemini 的力量——具有多模态、长上下文和代理——使我们更接近我们的最终目标:使 AI 对每个人都有帮助。

我们认为这是我们在实现我们的使命方面取得最大进展的方法:组织世界的信息,跨越每个输入,使其通过任何输出都能访问,并将世界的信息与你的世界中的信息结合起来,以一种真正对你有用的方式。

开创未来

要实现 AI 的全部潜力,我们需要开创未来。Google DeepMind 团队一直在努力实现这一目标。

我们已经看到了对 1.5 Pro 和其长上下文窗口的巨大兴奋。但我们也听到了开发者的反馈,他们希望有更快、更具成本效益的解决方案。因此,明天,我们将推出 Gemini 1.5 Flash,一个为规模而构建的轻量级模型。它针对低延迟和成本至关重要的任务进行了优化。1.5 Flash 将于周二在 AI Studio 和 Vertex AI 上提供。

展望未来,我们一直希望构建一个在日常生活中有用的通用代理。Project Astra 展示了多模态理解和实时对话能力。

我们还在视频和图像生成方面取得了进展,推出了 Veo 和 Imagen 3,并推出了 Gemma 2.0,我们的下一代开放模型,用于负责任的 AI 创新。内容,请见 Demis Hassabis。

AI 时代的基础设施:介绍 Trillium

训练最先进的模型需要大量的计算能力。过去六年中,ML 计算需求增长了 100 万倍。每年,它增加十倍。

Google 是为此而生的。25 年来,我们在世界级技术基础设施上进行了投资。从支持搜索的最先进硬件到支持我们 AI 进步的定制张量处理单元。

Gemini 完全在我们的第四和第五代 TPU 上进行了训练和服务。其他领先的 AI 公司,包括 Anthropic,也在 TPU 上训练了他们的模型。

今天,我们很高兴地宣布我们的第六代 TPU,名为 Trillium。Trillium 是我们迄今为止性能最强、效率最高的 TPU,相比上一代 TPU v5e 提供了 4.7 倍的计算性能提升。

我们将在 2024 年底向我们的云客户提供 Trillium。

除了我们的 TPU,我们还自豪地提供 CPU 和 GPU 以支持任何工作负载。这包括我们上个月宣布的新 Axion 处理器,这是我们首个定制的基于 Arm 的 CPU,提供业界领先的性能和能效。

我们还自豪地成为首批提供 Nvidia 的尖端 Blackwell GPU 的云提供商之一,将于 2025 年初提供。我们很幸运与 NVIDIA 有长期合作关系,并且很高兴将 Blackwell 的突破性能力带给我们的客户。

芯片是我们集成端到端系统的基础部分。从性能优化的硬件和开放软件到灵活的消费模式。这一切都汇集在我们的 AI 超级计算机中,这是一个开创性的超级计算机架构。

企业和开发者正在使用它来解决更复杂的挑战,其效率是购买原始硬件和芯片的两倍多。我们的 AI 超级计算机的进步部分归功于我们在数据中心液冷方面的方法。

我们已经这样做了近十年,远在它成为行业最先进的技术之前。今天,我们部署的液冷系统总容量接近 1 吉瓦,并且在不断增长——这是任何其他机队容量的 70 倍左右。

这一切的基础是我们全球连接基础设施的巨大规模。我们的网络覆盖了超过 200 万英里的陆地和海底光纤:是下一个领先的云提供商的 10 倍!

我们将继续进行必要的投资,以推动 AI 创新并提供最先进的能力。

搜索最激动人心的篇章

我们最大投资和创新领域之一是我们的创始产品——搜索。25 年前,我们创建搜索是为了帮助人们理解在线上不断涌动的信息浪潮。

随着每个平台的转变,我们不断提供突破,以更好地回答你的问题。在移动端,我们解锁了新类型的问题和答案——使用更好的上下文、位置感知和实时信息。随着自然语言理解和计算机视觉的进步,我们实现了新的搜索方式,通过声音、哼唱找到你最喜欢的新歌;或者通过你在散步时看到的花的图像进行搜索。现在,你甚至可以环绕搜索那些你可能想要购买的酷炫新鞋子。尽管如此,你可以随时退货!

当然,Gemini 时代的搜索将把这一切提升到一个全新的水平,结合我们的基础设施优势、最新的 AI 能力、我们对信息质量的高标准以及我们数十年连接你与丰富网络经验的经验。结果是一个为你工作的产品。

Google 搜索是符合人类好奇心规模的生成式 AI。这是我们搜索最激动人心的篇章。阅读 Liz Reid 关于 Gemini 时代搜索的更多内容。

更智能的 Gemini 体验

Gemini 不只是一个聊天机器人;它被设计为你的个人帮助助手,可以帮助你处理复杂任务并代表你采取行动。

与 Gemini 互动应该感觉对话和直观。因此,我们宣布了一种新的 Gemini 体验,叫做 Live,它允许你使用语音与 Gemini 进行深入对话。我们还将在今年晚些时候将 2M 标记带到 Gemini Advanced,使其能够上传和分析超密集文件,如视频和长代码。Sissie Hsiao 分享更多内容。

Android 上的 Gemini

拥有全球数十亿 Android 用户,我们很高兴将 Gemini 更深地集成到用户体验中。作为你的新 AI 助手,Gemini 随时随地为你提供帮助。我们已经将 Gemini 模型集成到 Android 中,包括我们最新的设备模型:Gemini Nano with Multimodality,它处理文本、图像、音频和语音,解锁新体验,同时在设备上保持信息的私密性。Sameer Samat 分享 Android 的最新消息。

我们对 AI 的负责任态度

我们继续以大胆的态度迎接 AI 的机会,同时保持兴奋感。我们也确保我们负责任地进行。我们正在开发一种前沿技术,称为 AI 辅助红队,这借鉴了 Google DeepMind 在游戏突破中的 AlphaGo,以改进我们的模型。此外,我们已经扩展了 SynthID,我们的水印工具,使 AI 生成的内容更容易识别,扩展到两种新模式:文本和视频。James Manyika 分享更多内容。

共同创造未来

所有这些都展示了我们在采取大胆和负责任的方法使 AI 对每个人都有帮助方面的重要进展。

我们一直以来都采用 AI 优先的方法。我们数十年的研究领导力开创了许多现代突破,这些突破推动了 AI 的进步,对我们和整个行业都是如此。除此之外,我们还有:

  • 为 AI 时代打造的世界领先的基础设施
  • 由 Gemini 驱动的搜索中的尖端创新
  • 以非凡的规模提供帮助的产品——包括 15 款拥有 5 亿用户的产品
  • 以及使每个人——合作伙伴、客户、创作者和所有人——能够发明未来的平台。

这一进步仅因我们令人难以置信的开发者社区而成为可能。你们通过每天构建的体验和应用程序使这一切成为现实。因此,致所有在 Shoreline 的人以及世界各地数百万的观众,期待未来的可能性并共同创造它们。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668658.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode 101】对称二叉树

1. 题目 2. 分析 这道题比较经典。我又一次做错了,这次是花了20min都没有做出来。 最开始我的思想就是,递归比较左根节点的左子树和右根节点的右子树是否对称即可,然后觉得能解决问题了,便动手coding。哪知道,又碰到了…

23.Labview中的数值类型讨论 ---- 位(bit)、字节(byte)、I8、U8、单双精度、复数

hello,大家好,本篇向大家介绍一个最常用但最容易让人忽略和最容易犯错的知识:数值。 “数值” 这个概念在Labview中被涉及的还是很多的,几乎任何一个程序都无可避免的会用到,但我相信大家绝大多数人对数值这个概念应用…

CentOS8安装opensips 3.5

环境:阿里云 操作系统CentOS8.5 依赖包安装: libmicrohttpd cd /usr/local/src wget https://ftp.gnu.org/gnu/libmicrohttpd/libmicrohttpd-latest.tar.gz tar vzxf libmicrohttpd-latest.tar.gz cd libmicrohttpd-1.0.1/./configure make make …

【CVPR_2024】:逐元素乘积为什么会产生如此令人满意的结果?

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言论文重写星形运算一层网络推广多层网络特殊情况 W 1 W_1 W1​和/或 W 2 W_2 W2​…

Python-3.12.0文档解读-内置函数sorted()详细说明+记忆策略+常用场景+巧妙用法+综合技巧

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 Python-3.12.0文档解读详细说明 功能描述 参数说明 用法示例 备注 进阶用法 参考…

集合操作进阶:关于移除列表元素的那点事

介绍 日常开发中,难免会对集合中的元素进行移除操作,如果对这方面不熟悉的话,就可能遇到 ConcurrentModificationException,那么,如何优雅地进行元素删除?以及其它方式为什么不行? 数据初始化…

力扣--双指针15.三数之和

详细思路 排序数组:首先对数组 nums 进行排序,目的是为了方便后续使用双指针查找和避免重复结果。遍历数组:使用一个 for 循环从头遍历到倒数第三个元素。i 表示当前固定的元素。 跳过重复元素:如果当前元素 nums[i] 与前一个元素…

使用matplotlib绘制折线条形复合图

使用matplotlib绘制折线条形复合图 介绍效果代码 介绍 在数据可视化中,复合图形是一种非常有用的工具,可以同时显示多种数据类型的关系。在本篇博客中,我们将探讨如何使用 matplotlib 库来绘制包含折线图和条形图的复合图。 效果 代码 imp…

登录安全分析报告:小米官网注册

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞 …

【算法】模拟算法——数青蛙(medium)

题解:模拟算法——数青蛙(medium) 目录 1.题目2.题解3.参考代码4.总结 1.题目 题目链接:LINK 2.题解 用循环进行遍历, 如果该字符为o\o\a\k 找一下前驱字符是否存在 如果存在,前驱字符–,该字符如果不存在&#x…

STM32_IIC

1、IIC简介 I2C,即Inter IC Bus。是由Philips公司开发的一种串行通用数据总线,主要用于近距离、低速的芯片之间的通信;有两根通信线:SCL(Serial Clock)用于通信双方时钟的同步、SDA(Serial Data…

echarts渐变色与css渐变色互转(两个坐标点转角度)

前言 用于 echarts 的小伙伴都知道,他使用的渐变色写法和 css 的写法不一样。css 中直接使用角度定义渐变的方向,而 echarts 使用的是两个坐标点来进行标识方向(线性渐变)。 本文主要针对线性渐变的转换 那怎么在 css 中使用 e…

BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型

BrainGPT1,一个帮你b站点歌放视频的多模态多轮对话模型 返回论文目录 项目地址 模型地址 作者:华东师范大学,计算机科学与技术学院,智能教育研究院的小怪兽会微笑。 介绍 BrainGPT1是一个工具调用多轮对话模型,与G…

[机器学习]GPT LoRA 大模型微调,生成猫耳娘

往期热门专栏回顾 专栏描述Java项目实战介绍Java组件安装、使用;手写框架等Aws服务器实战Aws Linux服务器上操作nginx、git、JDK、VueJava微服务实战Java 微服务实战,Spring Cloud Netflix套件、Spring Cloud Alibaba套件、Seata、gateway、shadingjdbc…

BU01板卡引脚

概述 BU01 是一款高速采集卡,主要用于高带宽数据采集及传输,应用领域多为数据中 心及数据采集领域。 端口提供60Gbps 传输带宽,可兼容2 个SFP万兆网口,和1 个40GE QSFP 光 口。和主机通信采用的是PCIE 2.0 x8 模式,最…

C++哈希的应用:位图 布隆过滤器 哈希切割

目录 位图 bitset 构造空间 将某个位变为0 将某个位变为1 检查是否存在 完整代码 拓展问题一 ​编辑 拓展问题二 布隆过滤器 判断是否存在 使用场景 哈希切割 拓展问题一 拓展问题二 位图 问题:有四十个亿未排序的不重复的无符号整数,此…

算法导论 总结索引 | 第三部分 第十四章:数据结构的扩张

1、通过存储 额外信息的方法来扩张一 种标准的数据结构,然后对这种数据结构,编写新的操作来支持所需的应用。因为添加的信息 必须要能被该数据结构上的常规操作更新和维护 2、通过扩张红黑树构造出的两种数据结构:14.1介绍 一种支持一般动态…

对boot项目拆分成cloud项目的笔记

引言:这里我用的是新版本的技术栈 spring-boot-starter-parent >3.2.5 mybatis-spring-boot-starter >3.0.3 mybatis-plus-boot-starter >3.5.5 spring-cloud-dependencies …

给Docker一个辈分(备份),免得无后...

定期备份所有 Docker 镜像 Linux 脚本 创建一个名为 backup_all_docker_images.sh 的脚本文件,内容如下: #!/bin/bash# 定义变量 BACKUP_DIR"/backup/docker" TIMESTAMP$(date "%Y%m%d%H%M") BACKUP_FILE"${BACKUP_DIR}/doc…

vx小程序初学

小程序初学 在我还没接触到微信小程序之前,通常使用轮播要么手写或使用swiper插件去实现,当我接触到微信小程序之后,我看到了微信小程序的强大之处,让我为大家介绍一下吧! swiper与swiper-item一起使用可以做轮播图 …