Gemini VS GPT-4,当前两大顶级AI模型实测

随着谷歌在AI军备竞赛中急起直追,“有史以来最强大模型”Gemini Advanced终于上线,AI爱好者们总算等来了一款号称能够匹敌GPT-4的大语言模型。

月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如谷歌宣传的那样和GPT-4掰手腕?

沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。

但他同时强调:

真正有趣的是,Gemini向我们展示了人工智能的未来。

Gemini比GPT-4更友善、耐心、乐于助人

Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。

如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。

在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)

紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。

Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而GPT-4则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。

更出色的AI助手

Mollick发现,在与谷歌生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。

他指出,早先的Bard与谷歌生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。

而Gemini的加入,则像是谷歌生态系统突然有了一个聪明的大脑。

它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。

但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用谷歌地图等等)。

不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。

他写道:

这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。

人工智能的“幽灵”

Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉——他很清楚大语言模型只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。

使用Gemini的过程,给了他同样的感觉。他写道:

GPT-4 is full of ghosts, Gemini is also full of ghosts.

(GPT-4充满了幽灵感,Gemini也是。)

他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。

Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。

Mollick写道:

我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。

他还总结说,Gemini的发布,表明“谷歌真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与Open AI最先进的模型相媲美:

高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。

GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/383319.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB系列之WiredTiger引擎

概述 关系型数据库MySQL有InnoDB存储引擎,存储引擎很大程度上决定着数据库的性能。 在MongoDB早期版本中,默认使用MMapV1存储引擎,其索引就是一个B-树(也称B树)。 从MongoDB 3.0开始引入WiredTiger(以下…

arduino D1 中esp8266 没有ide的库

http://arduino.esp8266.com/stable/package_esp8266com_index.json https://arduino.esp8266.com/stable/package_esp8266com_index.json 这个是官网的包地址 拿到后复制到arduino ide中 然后在开发板管理器,搜索esp,搜出来后安装 去开发板选择 然后测…

导数的几何意义【高数笔记】

1. 高数中的导数几何意义,与中学中斜率的联系 2. 导函数与导数的区别和联系又是什么 3. 导数的几何意义的题型是什么 4. 这些题型又有哪些区别 5. 点在曲线外和点在曲线上,需要注意什么 6. 法线和切线有什么关系 7. 法线是什么

MySQL数据库-索引概念及其数据结构、覆盖索引与回表查询关联、超大分页解决思路

索引是帮助mysql高效获取数据的数据结构,主要用来提高检索的效率,降低数据库的IO成本(输入输出成本(Input-Output Cost)),同时通过索引对数据进行排序也能降低数据排序的成本,降低了CPU的消耗。 Mysql的默认存储引擎InnoDB,InnoDB采用的B树的…

STM32 7-8

目录 ADC AD单通道 AD多通道 DMA DMA转运数据 DMAAD多通道 ADC AD单通道 AD.c #include "stm32f10x.h" // Device header/*** brief 初始化AD所需要的所有设备* param 无* retval 无*/ void AD_Init(void) {RCC_APB2PeriphClockCmd(RCC_AP…

sheng的学习笔记-网络爬虫scrapy框架

基础知识: scrapy介绍 何为框架,就相当于一个封装了很多功能的结构体,它帮我们把主要的结构给搭建好了,我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据,提取数据的框架,我们熟知爬虫总…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之AlphabetIndexer组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之AlphabetIndexer组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、AlphabetIndexer组件 可以与容器组件联动用于按逻辑结构快速定位容器显…

C#使用重载方法实现不同类型数据的计算

目录 一、涉及到的相关知识 1.重载的方法 2.Convert.ToInt32(String)方法 3.判断字符串是否带有小数点 二、实例 1.示例 2.生成成果 一、涉及到的相关知识 1.重载的方法 重载方法就是方法名称相同,但是每个方法中参数的数据类型、个数或顺序不同的方法。如果…

【电路】三个晶体管的声控开关电路

这种声控开关,可能是非常有用的,例如敲门声或拍手声可以激活一盏灯,灯光几秒钟后会自动关闭。另一种使用在防盗保护,如果有人想打开门或打破东西,灯就会亮起来,这表明有人在家。 该电路可以工作于任何5–1…

disql备份还原

disql备份还原 前言 本文档根据官方文档,进行整理。 一、概述 在 disql 工具中使用 BACKUP 语句你可以备份整个数据库。通常情况下,在数据库实例配置归档后输入以下语句即可备份数据库: BACKUP DATABASE BACKUPSET db_bak_01;语句执行完…

使用Cargo创建、编译与运行Rust项目

在 Rust 开发中,Cargo 是一个非常重要的工具,它负责项目的构建、管理和依赖管理。以下是如何使用 Cargo 创建、编译和运行 Rust 项目的详细步骤。 1. 创建新项目 首先确保你已经在计算机上安装了 Rust 和 Cargo。然后,在命令行中输入以下命…

【动态规划】1301. 最大得分的路径数目

作者推荐 【动态规划】【前缀和】【C算法】LCP 57. 打地鼠 本文涉及知识点 动态规划汇总 LeetCoce1301. 最大得分的路径数目 给你一个正方形字符数组 board ,你从数组最右下方的字符 ‘S’ 出发。 你的目标是到达数组最左上角的字符 ‘E’ ,数组剩余…

【Tauri】(1):使用Tauri1.5版本,进行桌面应用开发,在windows,linux进行桌面GUI应用程序开发,可以打包成功,使用 vite 最方便

1,视频地址: https://www.bilibili.com/video/BV1Pz421d7s4/ 【Tauri】(1):使用Tauri1.5版本,进行桌面应用开发,在windows,linux进行桌面GUI应用程序开发,可以打包成功&…

springboot177健身房管理系统

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…

Java图形化界面编程——弹球游戏 笔记

Java也可用于开发一些动画。所谓动画,就是间隔一定的时间(通常小于0 . 1秒 )重新绘制新的图像,两次绘制的图像之间差异较小,肉眼看起来就成了所谓的动画 。 ​ 为了实现间隔一定的时间就重新调用组件的 repaint()方法,可以借助于…

正则可视化工具:学习和编写正则表达式的利器

引言 正则表达式是一种强大的文本匹配和处理工具,但对于初学者和非专业开发者来说,编写和理解正则表达式可能是一项具有挑战性的任务。为了帮助人们更好地学习和编写正则表达式,正则可视化工具应运而生。本文将探讨正则可视化工具的优点&…

自动化AD域枚举和漏洞检测脚本

linWinPwn 是一个 bash 脚本,可自动执行许多 Active Directory 枚举和漏洞检查。该脚本基于很多现有工具实现其功能,其中包括:impacket、bloodhound、netexec、enum4linux-ng、ldapdomaindump、lsassy、smbmap、kerbrute、adidnsdump、certip…

力扣49. 字母异位词分组

Problem: 49. 字母异位词分组 文章目录 题目描述思路复杂度Code 题目描述 思路 1.我们利用一个无序映射以排序后的字符作为键、字符数组作为值; 2.每次我们从原始数组中取出一个字符串并对其进行排序,并将其添加到对应键所存的数组中; 3.创建…

OpenAI---提示词工程的6大原则

OpenAI在官方的文档里上线了Prompt engineering,也就是提示词工程指南,其中OpenAI有提到写提示词的6条大的原则,它们分别是: (1)Write clear instructions(写出清晰的指令) &#xf…

【漏洞复现】狮子鱼CMS文件上传漏洞(wxapp.php)

Nx01 产品简介 狮子鱼CMS(Content Management System)是一种网站管理系统,它旨在帮助用户更轻松地创建和管理网站。该系统拥有用户友好的界面和丰富的功能,包括页面管理、博客、新闻、产品展示等。通过简单直观的管理界面&#xf…