谷歌Gemini造假始末

💡大家好,我是可夫小子,《小白玩转ChatGPT》专栏作者,关注AIGC、读书和自媒体。

在过去一年中,OpenAI ChatGPT引发了一股AI新浪潮,而谷歌则一直处于被压制的状态,迫切需要一款现象级的AI产品来证明自己的实力。

自ChatGPT发布以来,人们一直对谷歌声称的竞品Gemini模型的能力非常好奇。这款大型模型早在今年3月就传出了风声,在5月的I/O大会上进入了“即将推出”的状态。

发布

12月7日凌晨,谷歌终于发布了自家“原生多模态”(natively multimodal)大模型Gemini。谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)官宣 Gemini 1.0 版正式上线,并表示这是“谷歌迄今为止最大、能力最强的AI模型”。

与此同时,一段大约6分钟的Gemini演示视频[1],也在各个自媒体平台疯传。最个视频展示在在视频下的人工智能,不仅能听会说,还是能看得清、看得懂,丝滑的交互,让我们感觉离AGI又进了一步。

loading

质疑

收获了各方赞誉之后,然后过了一个晚上,演示视频造假的消息也成这个模型新的热度,后来谷歌也发推承认,只是在「剪辑」上,加快的反应速度。“出于本演示的目的,为了简洁起见,延迟已减少,Gemini输出也已缩短。”

loading

混淆跑分,GPT4测试标准不一致

仅仅是视频作假吗?后来有人发现,在与GPT4的对比数据中也存在玄机。

从谷歌对Gemini的宣传信息来看,他们声称Gemini在32项标准性能指标中有30项比GPT-4更优秀,取得了90%以上的高分。但实际上,差距微乎其微,而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本思维链的方法。对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。

loading

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算,在5-shot的标准下,Gemini的得分实为83.7%,比GPT-4更低。

loading

也就是说,只有当CoT(思维链)达到32个例子时,Gemini Ultra才能达到90分以上,超过GPT-4;当例子数量减少到5个时,Gemini Ultra的得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4强多少的问题,因为它们只是在不同的标准上“强”。

就像谷歌在5月份发布Palm-2的时候,也挑出了两个优于GPT-4的指标,但是后来这个大模型怎么样,大家都清楚。

斯坦福大学基础模型研究中心主任Percy Liang也谈到,虽然Gemini有很好的基准分数,但由于不知道训练数据的内容,因此很难解释这些数据。华盛顿大学计算语言学教授Emily Bender也指出,谷歌宣传Gemini是一台万能机器,是一个可用于多种不同用途的通用模型。但是谷歌却使用狭隘的基准来评估它期望用于这些不同用途的模型,这意味着它无法得到彻底的评估。

实力or造假

前两天,又有网友爆料:在谷歌 Vertex AI 平台使用该模型进行中文对话时,Gemini-Pro 直接表示自己是百度语言大模型。

loading

也就是说Google的这个年度最优的作品的中文训练语料,就直接调用百度的文心一言。之前文心一言推出来的时候,当时也被怀疑是翻译外网的文本,进行模型训练。对于美帝来说,也上演了一把出口转内销的闹剧。

但对于押宝人工智能最早,投入最高的互联网老大哥谷歌,在新的AI时代的竞争,确实有些乏力了。我们期待Gemini的更新版本,期待谷歌更多的作品。

📎

解锁更多ChatGPT、AI绘画玩法。备注:chatgpt

参考资料

[1]

演示视频: https://www.bilibili.com/video/BV12M411d7He/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/262141.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【UML】第10篇 类图(属性、操作和接口)(2/3)

目录 3.3 类的属性(Attribute) 3.3.1 可见性(Visibility) 3.3.2 属性的名称 3.3.3 数据类型 3.3.4 初始值 3.3.5 属性字符串 3.4 类的操作(Operations) 3.4.1 参数表 3.4.2 返回类型 3.5 类的职责…

浅述无人机技术在地质灾害应急救援场景中的应用

12月18日23时,甘肃临夏州积石山县发生6.2级地震,震源深度10千米,灾区电力、通信受到影响。地震发生后,无人机技术也火速应用在灾区的应急抢险中。目前,根据受灾地区实际情况,翼龙-2H应急救灾型无人机已出动…

Kafka集群架构原理(待完善)

kafka在zookeeper数据结构 controller选举 客户端同时往zookeeper写入, 第一个写入成功(临时节点), 成为leader, 当leader挂掉, 临时节点被移除, 监听机制监听下线,重新竞争leader, 客户端也能监听最新leader leader partition自平衡 leader不均匀时, 造成某个节点压力过大, …

一套rk3588 rtsp服务器推流的 github 方案及记录 -03(完结)

opencv 解码记录 解码库使用的时候发现瑞芯微以前做过解码库对ffmpeg和gstreamer的支持 然后最近实在不想再调试Rtsp浪费时间了,就从这中间找了一个比较快的方案 ffmpeg 带硬解码库编译 编译流程参考文献 https://blog.csdn.net/T__zxt/article/details/12342435…

opencv静态链接error LNK2019

opencv 3.1.0 静态库,包括以下文件 只链接opencv_world310d.lib,报错 opencv_world310d.lib(matrix.obj) : error LNK2019: 无法解析的外部符号 _ippicvsFlip_16u_I8,该符号在函数 "enum IppStatus (__stdcall*__cdecl cv::getFlipFu…

鸿蒙系列--组件介绍之基础组件

一、通用属性和文本样式 针对包含文本元素的组件(比如:Text、Span、Button、TextInput等),可以设置一些通用的文本样式,比如颜色:fontColor、大小:fontSize、样式:fontStyle、 粗细…

Spring(1)Spring从零到入门 - Spring特点,系统架构简介,两个核心概念IoC与DI(涉及管理第三方bean)

Spring(1)Spring从零到入门 - Spring特点,系统架构简介,两个核心概念IoC与DI(涉及管理第三方bean) 引入:单体服务器 "单体服务器的开发"通常指的是在一个单一的服务器上构建和部署整个…

微信小程序 动态设置状态栏样式

onLoad(options) {//修改状态栏标题wx.setNavigationBarTitle({title: 页面标题, //页面标题success: () > {}, //接口调用成功的回调函数fail: () > {}, //接口调用失败的回调函数complete: () > {} //接口调用结束的回调函数(调用成功、失败…

C# SixLabors.ImageSharp.Drawing的多种用途

生成验证码 /// <summary> /// 生成二维码 /// </summary> /// <param name"webRootPath">wwwroot目录</param> /// <param name"verifyCode">验证码</param> /// <param name"width">图片宽度</…

互联网加竞赛 python+大数据校园卡数据分析

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于yolov5的深度学习车牌识别系统实现 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;4分工作量&#xff1a;4分创新点&#xff1a;3分 该项目较为新颖&am…

德人合科技 | 设计公司文件加密系统——天锐绿盾自动智能透明加密防泄密系统

设计公司文件加密系统——天锐绿盾自动智能透明加密防泄密系统 PC端访问地址&#xff1a; www.drhchina.com 一、背景介绍 设计公司通常涉及到大量的创意作品、设计方案、客户资料等重要文件&#xff0c;这些文件往往包含公司的核心价值和商业机密。因此&#xff0c;如何确保…

@vue/cli脚手架

0_vue/cli 脚手架介绍 目标: webpack自己配置环境很麻烦, 下载vue/cli包,用vue命令创建脚手架项目 vue/cli是Vue官方提供的一个全局模块包(得到vue命令), 此包用于创建脚手架项目 脚手架是为了保证各施工过程顺利进行而搭设的工作平 vue/cli的好处 开箱即用 0配置webpack babe…

个人财务工具、密钥管理平台、在线会计软件、稍后阅读方案 | 开源专题 No.51

gethomepage/homepage Stars: 10.1k License: GPL-3.0 这个项目是一个现代化、完全静态的、快速且安全的应用程序仪表盘&#xff0c;具有超过 100 种服务和多语言翻译的集成。 快速&#xff1a;网站在构建时以静态方式生成&#xff0c;加载时间飞快。安全&#xff1a;所有对后…

全面掌握XSS漏洞攻击,实战案例从Self-XSS到账户接管,以及通过参数污染的XSS实现攻击

全面掌握XSS漏洞攻击,实战案例从Self-XSS到账户接管。 什么是跨站脚本攻击 (XSS)? 跨站脚本攻击(XSS)是一种网络安全漏洞,允许攻击者破坏用户与易受攻击的应用程序之间的交互。它允许攻击者绕过同源策略,该策略旨在将不同的网站隔离开来。XSS漏洞通常允许攻击者伪装成受…

Unity中Shader缩放矩阵

文章目录 前言一、直接相乘缩放1、在属性面板定义一个四维变量&#xff0c;用xyz分别控制在xyz轴上的缩放2、在常量缓存区申明该变量3、在顶点着色器对其进行相乘&#xff0c;来缩放变换4、我们来看看效果 二、使用矩阵乘法代替直接相乘缩放的原理1、我们按如下格式得到缩放矩阵…

【CentOS 7.9 分区】挂载硬盘为LVM操作实例

LVM与标准分区有何区别&#xff0c;如何选择 目录 1 小系统使用LVM的益处&#xff1a;2 大系统使用LVM的益处&#xff1a;3 优点&#xff1a;CentOS 7.9 挂载硬盘为LVM操作实例查看硬盘情况格式化硬盘创建PV创建VG创建LV创建文件系统并挂载自动挂载添加&#xff1a;注意用空格间…

Asp.Net Core 项目中常见中间件调用顺序

常用的 AspNetCore 项目中间件有这些&#xff0c;调用顺序如下图所示&#xff1a; 最后的 Endpoint 就是最终生成响应的中间件。 Configure调用如下&#xff1a; public void Configure(IApplicationBuilder app, IWebHostEnvironment env){if (env.IsDevelopment()){app.UseD…

HTTPS攻击是什么?应该如何应对

近期越来越多的站长以及企业网站负责人有联系反馈说最近HTTPS攻击越来越频繁&#xff0c;让业务无法正常开展从而来寻求解决方法。随着互联网的普及和电子商务的发展&#xff0c;HTTPS协议在保障网络安全方面发挥着越来越重要的作用。然而&#xff0c;HTTPS协议并非完全安全&am…

pytorch-模型预测概率值为负数

在进行ocr识别模型预测的时候&#xff0c;发现预测的结果是正确的&#xff0c;但是概率值是负数&#xff1a; net_out net(img) #torch.Size([70, 1, 41]) logit, preds net_out.max(2) #41是类别 需要对类别取最大值 preds preds.transpose(1, 0).contiguous().view(-1) …

three.js实战模拟VR全景视图

文章中使用到的案例图片都来源于&#xff1a;Humus - Textures 里面有很多免费的资源&#xff0c;可以直接下载&#xff0c;每个资源里面都提供6个不同方位的图片&#xff0c;我们通过threejs稍微处理一下&#xff0c;就能实现以下3D效果的场景了。 <template><div …