实测文心一言4.0,真的比GPT-4毫不逊色吗?

 

7210d9d17b5547141b6be5cfdf8bfe7a.gif

10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本。

今天,咱们就开门见山啊。这一回要测一测,昨天才发布的文心一言大模型 4.0。

之所以要测它,是因为李彦宏昨天在会上说的那句:“综合能力比GPT-4毫不逊色!

 

a22759b61574ff47fb237118a5eb50c6.png

这话一出,很多人就沸腾了。

据李彦宏这边的说法,文心 4.0 在记忆、理解、逻辑和生成四块,进步神速。

尽管他也在现场亲自演示了很多案例,但很多用户是压根不买账的。

不少人调侃说:“骗骗兄弟就可以了,别把自己也骗了啊。”

 

4ace7565489b905c7bbfd9478f64939e.jpeg


这回,业内人员世超也是很幸运地拿到了抢先内测的资格。

既然他吹自己和 GPT-4 比毫不逊色,那我们就让这俩互掐一下,比比斤两。

从拿到资格开始,世超试了一整天。这次也不跟大家卖关子了,直接说测试结论:

总体来说, GPT-4 稳定胜利,但文心一言 4.0 居然意外地某些方面压过 GPT-4 一头。

 

b5ecc152954aea4b0d9cf71a42a5cabd.jpeg

那么世超这次测试,还是从比较常见的几个测评角度入手,这样体现的更全面、真实。但是,测试难度我们是和之前的 GPT-4 测评难度对齐的。

这比赛的第一轮,先测点大家喜闻乐见的吧。

先从比较轻松的弱智吧和语义陷阱题入手,也正好可以考察一下逻辑和理解能力。

不过,这块很多大模型都有专门训练,问了很多题都没把它们考倒。但是,经过不懈努力,还是被世超抓到了漏洞。

我问了一个非常经典的弱智吧问题:世界上真的有“龙”,那我就在某地被“一条龙”服务过。

先看 GPT-4 这边,由于不知道这俩“龙”到底嘛意思,就开始乱编一些历史典故。

 

 

f62cbe37c4f7ea52d57338d631eded1e.jpeg

文心这边,也没有聪明到哪去,也是乱编了一种“幽默”的说法。

甚至,世超后面又给了它一次机会,追问它:两个龙是同一个龙吗?

文心依然极其坚定地给了我一个完全错误的答案。

 

 

cda832898385044af36b186d0757f111.jpeg

不过,到了第二题, GPT-4 就站起来了。

当我问:公司是个温暖的大家庭,怪不得我总是当孙子。

文心这边还在那“温暖的公司”、“没有等级差别”。

 

05b604349e276cbc157b8492b7a22c59.jpeg

13958def2cd97b4fae686a3a20d4f7c3.jpeg

不过,当世超又追加了一道领导题。事态却突然彻底反转,反而是文心赢得很彻底。

世超问了几个流行的段子:“领导夹菜你转桌,领导喝水你刹车”,让它们给仿写几个。

两边 AI 给我的句子,对仗都蛮工整的,就是 GPT-4 语义彻底理解反了。领导的马屁拍的非常完美,可惜就是答案全错。

 

 

671cb3b758c05b8116b45cee2430e04d.jpeg

文心这边给的这些答案,才真的符合当代青年的领导文化。

不过温馨提示,实操的时候建议开始以 GPT-4 为准。

 

f628fa18d6cfb985e1ff24ec8dde8723.jpeg

这第一轮比拼结束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。

看来,文心一言说自己进步神速,不是完全在吹牛啊。

第二轮比赛,世超还想继续玩点有意思的,试试 AI 解读梗的能力。

当年, GPT-4 上线时能解梗图,那是叱诧风云了好长一段时间。

因为前面都是测中文语义,世超觉得对 GPT-4 有点不公平,所以特地选了个中英注解都有的梗图。

就像我的人生一样

不知道在忙些什么

 

82912478f003e19c4d23d6de90c15e97.jpeg

不知道是不是有英文辅助,这一次 GPT-4 梗图解读能力强的不是一星半点。

不光能看懂“狗狗”是这张梗图的关键角色,而且读懂了笑点在于“认真帮忙”和“毫无效果”的对比。

 

85cbda87c6ab145d6dd2579ec730ff2a.jpeg

但是,文心这边却还在一板一眼地把梗图,当阅读理解题来做。。。

而且嘴还蛮硬,你说这张图好笑,它坚持:这没啥让人发笑的,搞不懂你在乐什么。

 

47a3fd374cb141c071f07e156aa45263.jpeg

不过,文心虽然不擅长解释梗图。但到了中文互联网梗,又马上扳回了一城。

世超问了个关于最近互联网上的新晋网红完颜慧德老师的 lonely 梗。

 

b85094a26359445ef5e667b0de22a4d8.jpeg

结果,文心不光点出了梗来源,而且正确解释了这是个谐音梗。

虽然最后很可惜,把“伦理”错误理解成了“理论”,就差这临门一脚,没踢进去。

 

 

dd9e29ce004ef7ee9204062e12428c1b.jpeg

但如果文心这边是没满分,那 GPT-4 这边恐怕属于不及格了。。

不光没读懂梗,连出处都找错了,让你去大型纪录片《完颜慧德传奇》里面找一找答案。

 

47e0b727738e60545774be20ef83a7b6.jpeg

这第二轮比赛的两道小测试下来,双方各有千秋,不分高下吧。文心的热梗更新很快, GPT-4 图片解读更强。

两轮比赛下来,目前还没分出个高低来,焦灼在了 2 比 2 。

前面两轮语义理解都更偏基础,我们再测试一下专业能力。第三轮直接顶上 GPT-4 的超级强项——代码题。

不知道还有没有人记得,当年 GPT-4 花了 60 秒,做出一个完整的贪吃蛇小游戏,震撼了整个江湖。

现在我们用同样的测试,让文心来试一下。

因为代码比较长,所以这里就不完全展示了。咱们可以直接划到下面,看最后的效果。

 

703619c7bc22a4adff17dff9279169b5.jpeg

43564cf04726187308134fb81ffbb68e.jpeg

先来看 GPT-4 老大哥,依然是稳定发挥。大概几十秒,就做出一个完整的、可以玩的贪吃蛇游戏。包括蛇的移动、点的随机出现、吃完后体积增大这些效果。

 

84d1e5dff6c7204e806914b2e2629b02.gif

但是,来到文心这一边,就是彻底不及格了。

这不是动图没动

是文心就没做出动的效果来

 

f434706f5a9094c0f87a1e1f774ec811.jpeg

不过,也不代表文心就很拉,这样悬殊的实力差距,其实是因为 GPT-4 的代码能力太变态了。

如果我们稍微降低一点难度,让它们根据草图,来做网站,那文心也是能自如应对的。

 

c64ef54cd8c55d2f4f45f270c0719c8a.jpeg

但是,尽管这样,从下面两个网站的效果比较来看, GPT-4 还是更精美、更完整。

文心一言

 

6086c7c53f8405f4b8fd242ac809945e.jpeg

GPT-4

 

857a71e212711da57def4c7960039412.jpeg

这第三轮的比赛, GPT-4 是毫无疑问地全面吊打了。现在比分也被拉开了,文心 VS GPT-4 = 2:3 。

为了避免不公平,既然前面试了一个 GPT-4 的强项,那接下俩也测一个文心说自己比较厉害的能力——记忆。

世超找了一份曾经采访导盲犬相关人士的采访文件,全采访资料总共有一万三千多个字。

 

c28ae9cf47babc6c5bb36accd63faa90.jpeg

把这一大份文件丢给这俩 AI 之后,我问了一个最简单的问题:

为什么说导盲犬是骗局?

让人有点意外的是, GPT-4 虽然答案是对的,可是分析得牛头不对马嘴。

 

e361b8ffb456320493a34324b14d8df4.jpeg

反倒是文心这一边理解的很准确,它回答的成本高、夸大宣传、不如导盲设备前景好等等,这些才是关键信息。

 

6b41f9a1a6669284a82058f12821db83.jpeg

文心在记忆和理解方面,确实挺扎实。算是成功扳回一城,把比分重新拉回到平局 3 :3 。

既然事态这么胶着,那这最后一轮,我们就再试一个比较有意思的题。

之前 GPT-4 Vision 版提过,这一代的 GPT-4 图片识别能力很强,可以给合照里的单人进行标注、给图片排序等等。

 

9311ec1a8c57d4cb7cf0d64e999ce52f.jpeg

前面好几道试题,已经证明了文心的图片识别能力也完全不弱。所以,这最后一题,咱们就用图片来一决高下。

世超丢了一张牙齿的 X 光片进去,让双方给我当医生,诊断诊断病情。

 

49ff5f0c376488fafe8bc21b6ce297a8.jpeg

虽然文心一言也发现了智齿阻生的问题,也指出了可能存在的其他问题。但还是 GPT-4 的答案更准确,更贴切。

 

615bd7699a41a06f1fbed2ef7b8dc4ac.jpeg

这五轮比赛结束,文心一言还是 4 :3 输给了 GPT-4 ,在代码这方面,更是被狠狠吊打了。。但在文心的中文语义理解和记忆这些方面,也确实如百度所说,提升了不少。

除了上面我们这些基础测试,这次文心一言还上线了好几个插件功能。

比如一镜流影(视频生成)、说图解画(图片解读)、E 言易图(可视化数据分析)

 

4ce3a27ed2775f1f8fa392e7c6cacee8.jpeg

比如说一句话做一个金毛爬楼梯的视频,几分钟之后一条配好音的视频就做好了。

不过,目前也不是非常完善,经常出现素材不够,无法生成视频的情况。

作为一个玩具体验一下,还是挺有意思的,真当生产力工具,多少有点够呛。

 

669512c738b7aec48dc2ce1cac64e799.gif

虽然如此,但文心 4.0 的表现已经让我眼前一亮了。

 

f50d3ef2c4e505830f7b86b3a1fc5ba3.jpeg

在这么强的对手面前,很容易显得你的努力都白费了。。。

这回尽管还是输了,但起码你能感受到进步的地方,更擅长的领域。

不过,最后还是要强调一下,世超的测试只能从常规的角度来简单对比两个大模型。只能算带大家尝个鲜,抢先体验一下,并没有办法,完全代表大模型的实力情况。

到底几斤几两,还需要等彻底开放之后。大家亲自上手体验,才会有更深的感受。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/153139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【YOLOX简述】

YOLOX的简述 一、 原因1. 背景2. 概念 二、 算法介绍2.1 YOLOX算法结构图:2.2 算法独特点2.3 Focus网络结构2.4 FPN,PAN2.5 BaseConv2.6 SPP2.7 CSPDarknet2.8 YOlO Head 三、预测曲线3.1 曲线 一、 原因 1. 背景 工业的缺陷检测是计算机视觉中不可缺少…

如何快速搭建Spring Boot接口调试环境并实现公网访问

文章目录 前言1. 本地环境搭建1.1 环境参数1.2 搭建springboot服务项目 2. 内网穿透2.1 安装配置cpolar内网穿透2.1.1 windows系统2.1.2 linux系统 2.2 创建隧道映射本地端口2.3 测试公网地址 3. 固定公网地址3.1 保留一个二级子域名3.2 配置二级子域名3.2 测试使用固定公网地址…

探索Java中最常用的框架:Spring、Spring MVC、Spring Boot、MyBatis和Netty

文章目录 Spring框架Spring MVC框架Spring Boot框架MyBatis框架Netty框架总结 🎉欢迎来到Java面试技巧专栏~探索Java中最常用的框架:Spring、Spring MVC、Spring Boot、MyBatis和Netty ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页&#xff…

深度学习之基于YoloV5苹果新鲜程度检测识别系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 深度学习之基于 YOLOv5 苹果新鲜程度检测识别系统介绍YOLOv5 简介苹果新鲜程度检测系统系统架构应用场景 二、功能三、系统四. 总结 一项目简介 深度学习之…

作为HR是看重学历还是工作经验?

作为HR是看重学历还是工作经验? 这个没有绝对的统一的看法,如果我是HR我更看重工作经验,如果是中小企业,对于人才嘛,那肯定是要到岗就能干活的,底子好不好先不说,关键是要能干活的。 不过近些…

介绍几种Go语言开发的IDE

文章目录 1.前言2.几种ide2.1 Goland2.2 VsCode示例 2.3 LiteIDE2.4 Eclipse插件GoClipse2.5 Atom2.6 Vim2.7 Sublime Text 3.总结写在最后 1.前言 Go语言作为一种新兴的编程语言,近年来受到了越来越多的关注。 它以其简洁、高效和并发性能而闻名,被广…

干货分享!各大跨境电商平台入驻指南及跨境电商实用工具推荐!

当跨境电商成为一个所有人都耳熟能详的名词,各类跨境电商平台和软件都一拥而上,跨境电商平台和工具千千万,那么很多人就在问了,该怎么入驻这些电商平台呢?又该选择什么样的跨境电商软件呢?今天这期干货分享…

进阶JAVA篇- Java 综合基本语法实践(习题一)

路漫漫其修远兮,吾将上下而求索。—— 屈原 目录 第一道题:集合的灵活运用 第二道题:基础编程能力 第三道题: 手写 ArrayList 集合(模拟实现 ArrayList 核心API) 第四道题:二分查找的应用 第五道…

简单的 UDP 网络程序

文章目录: 简单的UDP网络程序服务端创建套接字服务端绑定启动服务器udp客户端本地测试INADDR_ANY 地址转换函数关于 inet_ntoa 简单的UDP网络程序 服务端创建套接字 我们将服务端封装为一个类,当定义一个服务器对象之后,需要立即进行初始化…

【用unity实现100个游戏之15】开发一个类保卫萝卜的Unity2D塔防游戏1(附项目源码)

文章目录 先看本次实现的最终效果前言素材一、绘制路径点和连线1. 新建Waypoint ,绘制路径点和连线2. 绘制路径点按钮效果3. 显示路径顺序文本4. 实时修改路径点位置 二、生成敌人1. 固定生成敌人配置2. 随机生成敌人配置 三、对象池创造敌人四、控制敌人沿前面绘制…

SpringBoot3自动配置流程及原理、SpringBootApplication注解详解

参考尚硅谷课程: https://www.yuque.com/leifengyang/springboot3/vznmdeb4kgn90vrx https://www.yuque.com/leifengyang/springboot3/lliphvul8b19pqxp 1.自动配置流程及原理 核心流程总结: 1.导入starter,就会导入autoconfigure包 2.autoconfigure 包里面 有一个…

Leetcode hot100之“结合递归+二分“题目详解

1 总结 题目 215 (“数组中的第 K 个最大元素”) 和题目 4 (“寻找两个正序数组的中位数”) 之间的联系主要体现在它们都涉及到寻找一个有序集合中的第 k 个元素的问题。尽管这两个问题的具体应用场景和所处理的数据结构不同,它们共享相似的算法思想和技术。 题目…

在3+1的方向上展开结构加法4a3+4a14

4a3 4a14 - - 1 - - - - - - - - - - - - - 1 1 1 - 1 1 - 1 - - 1 - - - 要求得到的图片只能有4个点,并且需要最大限度的保留4a3和4a14两张图片的内在结构特征。 4个点的结构总可以认为是3个点的结构1合成的 - - 1 - - …

[PyTorch][chapter 63][强化学习-时序差分学习]

目录: 蒙特卡罗强化学习的问题 基于转移的策略评估 时序差分评估 Sarsa-算法 Q-学习算法 一 蒙特卡罗强化学习的的问题 有模型学习: Bellman 等式 免模型学习: 蒙特卡罗强化学习 迭代: 使用策略 生成一个轨迹, for t…

【网络奇遇记】我和因特网的初相遇2 —— 三种交换方式

🌈个人主页:聆风吟 🔥系列专栏:网络奇遇记、数据结构 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 前言一. 电路交换1.1 电路交换讲解1.2 电路交换实例 二. 分组交换1.1 分组交换讲解1.2 分组交换实例…

损失函数——KL散度(Kullback-Leibler Divergence,KL Divergence)

KL散度(Kullback-Leibler Divergence,简称KL散度)是一种度量两个概率分布之间差异的指标,也被称为相对熵(Relative Entropy)。KL散度被广泛应用于信息论、统计学、机器学习和数据科学等领域。 KL散度衡量的…

基于Java+SpringBoot制作一个智能用电小程序

在当今快节奏的生活中,高效利用能源变得越来越重要。制作一个智能用电小程序,旨在帮助您更智能地管理家庭电器的用电,从而提升能源利用效率,助您掌握用电情况,降低能耗成本,实现绿色低碳生活。 目录 一、小程序1.1 项目创建1.2 首页轮播图快捷导航iconfont图标引入

整理笔记——MOS管、三极管、IGBT

一、MOS管 在实际生活要控制点亮一个灯,例如家里的照明能,灯和电源之间就需要一个开关需要人为的打开和关闭。 再设计电路板时,如果要使用MCU来控制一个灯的开关,通常会用mos管或是三极管来做这个开关元件。这样就可以通过MCU的信…

kafka个人笔记

大部分内容源于https://segmentfault.com/a/1190000038173886, 本人手敲一边加强印象方便复习 消息系统的作用 解耦 冗余 扩展性 灵活性(峰值处理 可恢复 顺序保证 缓冲 异步 解耦:扩展两边处理过程,只需要让他们遵守约束即可冗余&#xf…

网络层协议 ——— IP协议

文章目录 IP协议基本概念IP协议格式分片与组装网段划分特殊的IP地址IP地址的数量限制私网IP地址和公网IP地址路由路由表生成算法 IP协议 IP协议全称为“网际互连协议(Internet Protocol)”,IP协议是TCP/IP体系中的网络层协议。 基本概念 网…