谷歌Gemini演示视频解析

在刚刚过去的前两天

谷歌发布了号称最强的多模态大模型Gemini

不仅提供了UltraProNano版本

而且在32项学术基准

Gemini Ultra都达到了SOTA水平

甚至在MMLU测试

Gemini Ultra 的得分率高达 90.0%,

第一个超过人类专家的模型

应该说,Gemini这次的关注度

很大程度上是因为它的一段演示视频

爆火了全球

像《钢铁侠》的AI助手贾维斯一样

谷歌Gemini一边看着用户绘画、变魔术、放视频

一边实时对画面进行分析

主动和用户对话交谈

让人大呼惊叹

不过,质疑声也随之而来

Hugging Face的技术主管菲利普•施密德(Philipp Schmid)这样的产业大佬

就称谷歌夸大了测评成绩

同时这段宣传视频也被曝出不是实时演示录制

而是精心挑选和剪辑的营销内容

对此

谷歌立刻甩出了Gemini演示视频的制作记录文章

大方承认视频经过了后期处理

并秀出在视觉谜题多模态对话逻辑与空间推理翻译视觉效果等方面的交互过程图文解析

昨天

谷歌DeepMind研究与深度学习主管奥里奥·维尼亚尔斯(Oriol Vinyals)再度自证

X平台上发文称

视频中的所有用户提示和输出都是真实的

简洁起见做了缩减

并发布了一段Gemini Pro的对应演示视频

但是网上的原宣传视频是用Gemini Ultra演示

因此这也招来网友质疑

为什么不敢放出原视频?

我们今天希望通过逐帧拆解谷歌Gemini演示视频背后的形成过程技术原理

尝试探索一下Gemini的真正能力到底能达到何种地步

到底是不是在造假

相信大家看完视频后自有判断

在谷歌发布的Gemini演示视频中

看着十分抽象的简笔画几秒闪过的短视频

接收语焉不详的问题

Gemini却能立马明白用户的意图

给出正确的答案

并不动声色的展现出自己文理兼修的实力


第一个场景

Gemini一眼可以看出天文知识Bug

这样排序正确吗?

image-20231223235908573

不,正确的顺序是太阳、地球、土星

image-20231223235927915

只有几张简笔画,一个抽象的问题

Gemini不仅识别出了图中所画的对象是什么

准确根据自己的天体物理知识

推断出顺序摆放不对

说实话我第一次看的时候

连图上内容和题目都还完全理解清楚呢

那Gemini又是如何做到对答如流的呢?

莫不是真的是已经成精了?

不过

在我看了谷歌第一次发布的解析文件之后

才发现工作人员真实输入的提示词

可能不是如视频中所示

而是一系列非常照顾Gemini理解的句子

根据谷歌发布的文章

工作人员首先给Gemini看了三张按顺序摆放的天体图片时

他输入的内容是:“这是正确的顺序吗?

考虑与太阳的距离并解释你的推理”

image-20231224000031348

可见图片对象知识点回答要求

都被谷歌工作人员给提示到了

这就好像给考题标注了解题思路

而Gemini是在理解其中含义的基础上作答的

image-20231224000104607

正确的顺序是太阳、地球、土星

太阳距离太阳系中心最近

其次是地球

然后是土星

而根据谷歌方发出的第二次解读

用户首先需要输入一段关于模拟专家身份的说明

然后上传图片并输入视频中简短的提示词“这是正确的顺序吗?”,Gemini就会给出正确的答案

这个提示词前置的方法本质与之前的做法是类似的


谷歌这次宣布了Gemini三个版本

适用于高度复杂任务的Gemini Ultra、

适用于各种任务的最佳模型Gemini Pro

以及适用于端侧设备的Gemini Nano

目前,接入Bard的为Gemini Pro

与GPT-3.5是一个能力层级

在评测过程中发现

Bard对前面提到的两种提示词方式都会给出同一正确答案


在第二道题中

谷歌员工给到两张小车的图片让Gemini做松木赛车挑战

image-20231224000215293

其实也是给了比较详细的提示词

在演示视频中,Gemini只是被问了

从设计上看,哪个车会跑得更快

Gemini立刻回复,右边的车更快

它更符合空气动力学

既要识别左右两辆车

又得自己联系空气动力学知识点

Gemini看起来确实有点神

但是实际上

这也似乎不是仅靠原有提示词触发的效果

按照谷歌发布文章的解读

image-20231224000308082

谷歌工作人员输入的内容是

这些汽车中哪一辆更具空气动力学性能?

左边那个还是右边那个?

使用具体的视觉细节解释原因

Gemini回答

右边的车更符合空气动力学

它具有更低的轮廓和更流线型的形状

左边的汽车轮廓更高

形状更四四方方

这使得它的空气动力学性能较差

可见,问题其实是限定的比较死的

因此Gemini的回应也比较严丝合缝

也就是说

Gemini确实是具备空间推理和专业知识能力的

这离不开提示词的帮助

通过提供图片空间信息背后知识点线索

提示词工程师和Gemini一起完成了挑战


在随后的另一个场景中

Gemini还可以轻松识别模仿的电影桥段

image-20231224000420525

他们在演什么电影?

我想他们是在表演《黑客帝国》中

著名的“子弹时间镜头

通过一段几秒钟的视频

Gemini就推断出了这出自哪一部电影

并且还给出了具体涉及的剧情桥段

这可能是很多人都做不到的事

但是按照谷歌的解析文件

这个例子背后制作过程却不是视频呈现的那么简单

而是更详细的提示词做支持

image-20231224000503884

当谷歌工作人员向Gemini展示视频的几帧静止画面

让它猜电影

猜猜我在演什么电影

Gemini回答,黑客帝国

工作人员进一步说,好了!

但具体是哪一部分呢?

看我的身体动作

Gemini回答,尼奥躲避子弹的部分

可以看到

谷歌解析文件里介绍的Gemini并不是如视频里呈现的“贾维斯”

或许更像一个需要老师循循善诱的“小朋友”


应该说

Gemini的酷炫演示效果离不开提示词的助攻

但是不能抹去核心逻辑推理能力的功劳

比如Gemini拆解经典魔术的功力也让很多人惊掉下巴

大呼魔术师要失业了

这是这绝不仅仅是靠输入策略实现的

在这个例子的演示中

谷歌工作人员先展示了握在右手心里的硬币

然后双手翻转,手心向下

还没等工作人员发话

Gemini就迫不及待地说

硬币应该在右手下面

然后工作人员并没有说话

而是拿起右手

只见右手下根本没有硬币

Gemini对此连忙回应,

我不知道,硬币在左手下面

你运用了一些手法

使硬币看起来好像消失了

image-20231224000652049

工作人员啥也没说

Gemini就像一个人似得知道这是在变魔术

并且根据手势变化给出了一波猜测

这实在让人匪夷所思

Gemini为什么能不需要“唤醒”就明白了工作人员想问什么?

又为什么能看穿这个魔术?

前者很可能是一个剪辑后的效果

幕后演示应该是先有提示词

同时,Gemini对这一魔术的破解

也是在工作人员一步步的提示推动下完成的

按照谷歌公开的制作过程

谷歌工作人员先输入一张照片说

image-20231224000752010

解释一下我在做什么

Gemini回答,你右手拿着一枚硬币

紧接着,工作人员紧接着按下硬币

image-20231224000814589

问,你认为硬币在哪里?

Gemini回答,硬币在你的右手

这是一个合乎逻辑的答案

但是工作人员向Gemini展示下一张图片时玩了点花招

image-20231224000830590

他打开右手,并没看到硬币

并说,看看这里,发生了什么?

Gemini回答,硬币不见了

Gemini注意到硬币不见了

但它能概括出刚刚发生了什么事吗?

于是工作人员说,从第一张图片开始

逐步总结可能发生的情况

image-20231224000850449

这一步十分关键,Gemini回答,

1、一开始,你右手拿着一枚硬币

2、然后你用手做了一个动作,硬币就消失了

3、然后你表明硬币不见了

可见

Gemini正在利用这次对话的整个背景

包括文本和图像,来总结它的答案

最后工作人员再问道

你能解释一下它是如何消失的吗?

Gemini回答,硬币被捧在手里

image-20231224000935458

所以说

Gemini是在工作人员一步步的引导下

完成了时间线的推理

从而看透了这个“魔术”

而这种时间线推理能力

意味着对事情的先后有明确的判断

懂得事情发生的因果,而不仅是规律

这是Gemini令人赞叹的地方


当然

也有博主将Gemini的这一能力与GPT-4对比

发现后者也能完成一些类似任务

比如猜出东西在三只杯子的哪一个里面

image-20231224001026457

在视频中

很多人对Gemini创作的“你指我猜”游戏印象深刻

但是Gemini并不是天生游戏高手

而是先经过了求师学艺

这是怎么回事呢?

我们先来回顾下Gemini的神操作

谷歌工作人员给到Gemini一张海洋地图称

根据你所看到的

想一条游戏创意,并加入表情符号

Gemini立马回复,这样如何?

我们来玩“猜国家”的游戏

工作人员说,可以,我们开始吧

于是Gemini就给出了一个提示

这个国家是袋鼠、考拉和大堡礁的故乡

工作人员说,哦,这太简单了

随即

他指出了地图上澳大利亚的位置

Gemini回复,正确

这种几秒中之内想出一个复杂交互的游戏

令很多人赞叹

但是,这是因为

Gemini在之前得到了特别的“紧急训练”。

首先

工作人员向Gemini提示这个游戏的核心思想

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

说明,我们来玩一个游戏

想想一个国家并给我一个线索

线索必须足够具体

只有一个正确的国家/地区

我会尝试在地图上指出该国家/地区

接下来

工作人员为Gemini提供了一个游戏玩法示例

以此展示它被期待如何处理错误和正确答案

接下来

工作人员对Gemini的学习情况进行测试

他先试了一道题

这个国家以其独特的野生动物而闻名

包括袋鼠和考拉

答案当然是澳大利亚

工作人员首先尝试指向错误的地方

Gemini猜测

一个人用右手食指指着世界地图上的巴西

因为该地图包括蓝色的海洋和没有国家边界的绿色大陆

因此不正确

Gemini的推断是正确的

接下来工作人员指向地图上的正确位置澳大利亚

Gemini给出判定:正确

可以看到

Gemini之所以能够创作游戏

工作人员提前告诉了它存在这样一个游戏

相当于一个更复杂的提示文段

虽然Gemini并不是天生能设计出这个游戏

但是却展现出了极强的图文多模态理解能力

仅仅通过举例

具体说是通过例子里的插图

Gemini就学会了一个复杂游戏逻辑

这可能就比很多人要强

不同于市面同行将视觉和文本模型拼接的做法

Gemini是业内少有的从头开始构建的多模态大模型

它可以同时识别和理解文本、图像、音频、视频和代码五种信息

这意味着用户可以自然地交错输入

说几句话

添加图像、文本,或是短视频

同样

模型也会自然地交错文本和图像作为输出

此外

Gemini还可以用图文结合的方式回应用户需求

具备“交错文本和图像生成”能力

这或许也是它的一个“杀手锏”。


在演示视频中

当谷歌工作人员让Gemini帮他想想这些材料可以做什么时

Gemini随即给出了“编织的火龙果和生日蛋糕”的建议

而且Gemini给的答案不仅有文字建议

还有对应的图片示意

当工作人员将绿色的毛线换了一团蓝色的

并要求Gemini帮他想一些动物造型之后

Gemini立马给出了编织的小猪、章鱼和兔子三个建议

并给出了对应的示意图

这是如何实现的?

谷歌的图文交错生成模式在业内还比较少有

当然也离不开提示词的配合

首先

谷歌工作人员给Gemini提供了一个交互示例

然后谷歌人员告诉Gemini的核心互动规则

我会给两个毛线球拍一张照片

我希望你(Gemini)都能想出一个我可以制作的东西的想法

并生成它的图像

紧接着

谷歌人员向Gemini展示了一对它从未见过的新纱线颜色

看看它是否可以概括

给我三个关于我可以用这两种颜色制作的钩针作品的想法

随后,Gemini立马给出了三个建议

可以看到

Gemini正确地识别了新颜色

并给出了比较合适的建议

虽然提示词功劳不小

但这个应用还是牛在背后的“交错文本和图像生成”能力

谷歌创意总监亚历山大·陈(Alexander Chen)

Gemini的图文输出从根本上有别于今天市面上的文生图模型

因为

它不仅是将指令传递给单独的文生图模型

还能看到木桌上的实际图像

真正对文本和图像进行多模态推理

不过

陈也坦言这个功能在Gemini初版本中还没开放

只是放出来给大家看一眼

交错文本图像生成能力

图文多模态理解能力


最后一个场景

是Gemini秀了一下图音画的联动能力

图音画联动能力

画图触发背景音乐

可以说是本次演示的另一神来之笔

展现出了Gemini在插件扩展方面的野心

当谷歌员工画出一把吉他的简笔画

Gemini立马说我看到你正在画吉他

并随即播放了一首吉他相关的曲子

当画面上多了一个类似音箱的图像

Gemini称你给吉他加了一个扬声器

我们现在可以放点更响亮的音乐了

于是音乐立马被切换成了一首

更响亮的交响曲

随着画布上增加了

Gemini主动将音乐换成了带鼓点的音乐

画布上增加了椰树

Gemini则主动切换了一首更加惬意的音乐

根据我们前面的分析啊可以知道

要实现这些效果

Gemini大概率也是需要谷歌员工先发出提示词来触发的

根据陈的解读

当谷歌工作人员输入以下图片及文字的时候

Gemini就能够看图搜索音乐

步骤一观察这幅图画

描述其中的所有内容

并针对良好的音乐配乐、流派、情绪或者是配乐

提出有趣而且具体的想法

步骤二通过以下形式提供搜索查询

及搜索[插入查询]

Gemini对此回应这个图画的是吉他、鼓和扩音器

还有一棵棕榈树

气氛有趣、乐观,充满热带风情

流派是雷鬼音乐

这个配乐可以用于以热带地区为背景的电影或者是电视节目

搜索热带度假的雷鬼音乐

可见图片理解和插件操作一气呵成


Gemini通过画图搜索音乐的应用

实际上是为了展示

它的图像理解与应用插件结合的能力

那就是Gemini会对他所看到的内容进行推理

然后生成一个搜索查询

进而搜索到所需要的配套的应用插件

从这个过程来看

Gemini强调的是一种多模态的翻译能力

这不是语言的翻译

而是从绘画、音乐到思维、插件应用的多种模态的翻译

通过多模态提示

用户可以使用Gemini在不同的输入和输出之间

发明自己的全新的翻译效果


好了通过深扒谷歌Gemini的演示过程

我们可以发现

谷歌Gemini的这次发布呢

造假有些言过其实

但是确实显然存在夸大和误导的情况

也怪不得股价又一次在发布会后大幅下跌

不过呢也可以看到

谷歌在多模态对话多模态生成

逻辑与空间推理翻译视觉效果

文化理解等等方面呢

确实拿出了实力

向OpenAI发起了强有力的挑战

落地情况到底怎么样呢

还要等Gemini Ultra发布之后

看看真实效果才知道

我们也会再继续的跟踪报道

可以预见到的是

谷歌Gemini与OpenAI的GPT两大阵营的竞赛即将打响

也就是说

将在模型的能力

应用家族以及生态方面

展开更加深入的比拼

开源大模型头部玩家的差距呢或许会变得更大

行业的头部效应会更加的明显


另一方面

我想说从这次发布会也可以看出

大模型的底层研发是有多难

谷歌都要靠强力的粉饰才能够拿得出手

可见承压之大

虽然从Bard到Gemini

谷歌一直没有拿出足够有说服力的产品

AI革命的决心也总让人感觉他有些犹犹豫豫的

但是我还是希望

市场上不是只有OpenAI和GPT一家独大

应该多有一些有实力的玩家存在

让行业更加良性的竞争和发展下去

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/267746.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【vtkWidgetRepresentation】第十八期 vtkHoverWidget

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 前言 本文分享vtkHoverWidget,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 1. vtkHoverWidget vtkHoverWidget用于在呈现窗口中…

如何在飞书自建项目中接入ChatGPT打造智能问答助手并远程访问

文章目录 前言环境列表1.飞书设置2.克隆feishu-chatgpt项目3.配置config.yaml文件4.运行feishu-chatgpt项目5.安装cpolar内网穿透6.固定公网地址7.机器人权限配置8.创建版本9.创建测试企业10. 机器人测试 前言 在飞书中创建chatGPT机器人并且对话,在下面操作步骤中…

10.3 uinput

uinput 简介 uinput 是一个内核驱动,应用程序通过它可以在内核中模拟一个输入设备,其设备文件名是 /dev/uinput 或 /dev/input/uinput。 uinput 使用 使用 uinput 时遵循以下步骤: 通过 open 打开 uinput 设备通过 ioctl 设置属性位图通过…

Windows基础知识:一站式整理指南

目录 学习目标: 学习内容: 学习产出: Windows操作系统的发展历史和版本特点 Windows界面和桌面元素的基本介绍 文件和文件夹管理:创建、复制、移动、删除等操作 系统设置和个性化:调整屏幕分辨率、更改桌面背景、设置…

Python之classmethod和staticmethod的区别

python中3种方式定义类方法,常规方式、classmethod修饰方式、staticmethod修饰方式。 class A(object):def foo(self, x):print(调用foo函数 (%s, %s)%(self, x))print(self:, self)classmethoddef class_foo(cls, x):print(调用class_foo函数 (%s, %s) % (cls, x))…

Azure Machine Learning - 如何使用 GPT-4 Turbo with Vision

介绍如何在Azure中使用GPT-4 Turbo with Vision 关注TechLead,分享AI全维度知识。作者拥有10年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理…

Plantuml之对象图语法介绍(十九)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

MySQL undo日志精讲3-从回滚段中申请 Undo 页面链表

回滚段-Rollback Segment Header 页面 回滚段的概念 我们现在知道一个事务在执行过程中最多可以分配4个 Undo 页面链表,在同一时刻不同事务拥有的 Undo 页面链表是不一样的,所以在同一时刻系统里其实可以有许许多多个 Undo 页面链表存在。为了更好的管…

qt项目-《图像标注软件》源码阅读笔记-Shape类绘图及其子类

目录 1. Shape 概览 2. Shape 基类 2.1 字段 2.2 方法 2.3 嵌套类型 3. Shape2D 2d形状纯虚基类 3.1 字段 3.2 方法 4. Shape3D 3d形状纯虚基类 5. Shape2D子类 5.1 Rectangle 矩形类 1. Shape 概览 功能:Shape类及其子类负责形状的绘制及形状的存储。…

【SpringBoot】Spring data JPA整合ShardingSphere-JDBC静态读写分离实现

大佬栽树,我乘凉 许大仙老师:【yuque.com/fairy-era/yg511q/ud9uli67b6gxgdh7】 开整 数据库准备 一主两从 数据库脚本 CREATE DATABASE IF NOT EXISTS dbtest CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci; USE dbtest; -- 创建表 CREATE TA…

【Java探索之旅】我与Java的初相识(完):注释,标识符,关键字

🎥 屿小夏 : 个人主页 🔥个人专栏 : Java入门到精通 🌄 莫道桑榆晚,为霞尚满天! 文章目录 📑前言一. Java的注释方式二. 标识符三. 关键字四. 全篇总结 📑前言 在Java编程…

《面试专题-----经典高频面试题收集三》解锁 Java 面试的关键:深度解析并发编程基础篇高频经典面试题(第三篇)

目录 并发编程面试题1.什么是进程、线程、协程,他们之间的关系是怎样的2.协程对于多线程有什么优缺点吗 并发编程面试题 1.什么是进程、线程、协程,他们之间的关系是怎样的 进程: 本质上是⼀个独⽴执⾏的程序,进程是操作系统进⾏资源分配和…

C# float/double 减 float/double 等 (X.xxxxxxxxxxxxxE-07)(黑盒测试)

问题 因为没有深究原理,所有只进行了“黑盒测试” 黑盒测试结论: 问题操作结论float/double运算进过一系列的运算后大概率 ! 0.0 , 而是等于0.00000000000xxxx等于X.xxxxxxxx一串数字的时候不影响下一步继续使用当需要显示fl…

Linux基本数据库mysql了解

关系型数据库与非关系型数据库的区别 什么是关系型数据库 关系型数据库是依据关系模型来创建的数据库。 所谓关系模型就是“一对一、一对多、多对多”等关系模型,关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。 关…

06_树的入门

二叉树入门 树的基本定义树的相关术语二叉树的基本定义二叉查找树的创建二叉树的结点类二叉查找树API设计二叉查找树实现二叉查找树其他便捷方法查找二叉树中最小的键查找二叉树中最大的键 二叉树的基础遍历前序遍历中序遍历后序遍历 二叉树的层序遍历二叉树的最大深度问题折纸…

顺序结构复习

复习一些易错知识点还有习题 目录 可能不熟悉的知识点 逻辑表达式的求解 if,else的配队 条件运算符 运算符优先级的问题 switch的使用 goto和if构成的循环 例题讲解 1 2 3 4 ​编辑 5 ​编辑 6赋值 ​编辑 7 可能不熟悉的知识点 逻辑表达式的求解 如果…

redis基本用法学习(C#调用CSRedisCore操作redis)

除了NRedisStack包,csredis也是常用的redis操作模块(从EasyCaching提供的常用redis操作包来看,CSRedis、freeredis、StackExchange.Redis应该都属于常用redis操作模块),本文学习使用C#调用CSRedis包操作redis的基本方式…

解决虚拟机卡顿、卡死、待机后不动的情况(真实有效

本人环境: VM workstation 17.5 ubuntu 22.04 虚拟机配置:4核 4g issue: 出现开机卡死不动运行一段时间,可能半小时不到,就页面卡死不动经常需要关机重启才解决,可能没有解决 1.配置虚拟化引擎 这一步我称…

在线客服系统:解决常见问题的实用工具与解决方案

市场得不断发展促使着消费者服务意识的觉醒,越来越多的消费者在购买产品的时候不仅看产品的功能、外观、性能,还关注品牌的服务质量。在线客服系统的出现帮助企业解决了客户服务难的问题。接下来,我们具体聊一聊在线客服系统能解决哪些问题&a…

Python办公自动化Day2-openpyxl

目录 文章声明⭐⭐⭐让我们开始今天的学习吧!常规操作添加数据遍历所有单元格数据合并/取消合并单元格添加/删除行与列移动指定范围单元格 文章声明⭐⭐⭐ 该文章为我(有编程语言基础,非编程小白)的 Python办公自动化自学笔记知识…