GLM-4多模态重磅更新!摸着OpenAI过河!

智谱CEO张鹏说:OpenAI摸着石头过河,我们摸着OpenAI过河
摸来摸去摸了一年,以每3-4个月升级一次基座模型的速度,智谱摸着OpenAI过河的最新成绩到底怎么样?真如所说吗?

听到GLM-4发布的当天,我就去试用了一下GLM-4,毕竟是国内 全自研第四代基座大模型GLM-4!

实际体验

我依次测试了多模态、ALL Tools、个性化智能定制功能。

多模态

首先测试其图片理解能力,上传了一张猫片:

从结果来看,它基本上理解了这个图片的内容。

上传一张更复杂的图片试试呢?图片里有几个人?几个男人几个女人?

我也是学CV的,它答不准的原因在于底层图片识别、图像分割能力的不足,还需要继续努力。

为了测试它到底是不是真的理解图片里的含义,我上传了五环的图片,它成功的告诉我这个是五环,代表世界五大洲的团结和合作,赞!

All Tools

All Tools其实代表的是模型能否理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。

我首先提了一个问题来验证联网能力:

它通过联网搜索的方式给出了答案:

总体来说,给出的内容还算不错。

我想进一步看看它的信息整合能力如何,于是让它进行表格的整理,这次等待的时间比较长,因为联网搜索了很久···,甚至还超时失败了,最终也没成功。

代码解释(CodeInterpreter)能力如何呢?先问了一下运行环境,但是无法给出准确的内存限制等,只给出了一些支持的代码或者运行库,值得注意的是,在运行的代码里本身不能联网:

为了测试基本的代码能力,我让它进行python得文件读取和保存:

画图能力如何呢?尝试一个主体进行三种风格的爆改:

怎么说呢,虽然在细节方面还不够好,比不上Dalle-3、SD或者MJ,但是已经基本能够满足要求了。可以满足给小朋友或者简单场景的绘画需求。

GLMs个性化智能体定制

这个功能其实瞄准的就是GPTs了,甚至从官方公告上来看,未来GLMs也将开放出开发者权限,并且进行收益分成(但是现在有个问题,GLM本身是不收费的,怎么盈利分成呢?可能的答案是:进行会员收费;回答里嵌套广告)

MaaS平台和API

按照智谱AI官方的说法,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)

据智谱AI CEO张鹏介绍GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。 它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

此次发布的 GLM-4,在多个评测集上性能已接近或超过GPT-3.5,个别项目上几乎持平GPT-4。其中以下四个能力更新,是 GLM-4 最大的亮点:

  • 多模态能力:推出了CogView3代,效果超过开源SD模型,逼近 DALLE-3。
  • All Tools能力:GLM-4能自主理解复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,完成复杂任务。
  • GLMs个性化智能体定制:用户可以通过智谱清言官方网站创建属于自己的GLM智能体,无需编程基础。
  • MaaS平台和API:GLM-4登陆了Maas平台,提供API访问,支持开发者内测Assistant API。

数据指标

数据集表现

MMLU(Massive Multitask Language Understanding):评估大模型的对于知识的理解,目前GLM-4是81.5分,GPT-4得分86.4分,目前能达到GPT4的94%

GSM8K(Grade School Math 8K):测试数学能力,小学数学和初中数学水平。GLM-4得分87.6,达到GPT-4的95%;

MATH:数学测试,涉及到一些较难的逻辑推理,GLM-4得分47.9,达到GPT-4的91%

BBH(Big Bench Hackathon):偏综合测试,比如翻译、语言理解、逻辑推理等内容。GLM-4得分82.3,达到GPT-4的99%水平

HellaSwag:偏常识测试,GLM-4得分85.4,达到GPT-4的90%水平

HumanEval:纯粹的编程任务。评测大模型在算法、代码、编程层面的效果。GLM-4得分72,达到GPT-4的100%水平。

指令跟随能力方面,和GPT-4相比,IFEval在Prompt提示词跟随(中文)方面达到88%,指令跟随(中文)方面达到 90%水平,超过GPT-3.5。

对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新(11月6日版本)效果。

大海捞针测试, GLM-4模型能够在128K文本长度内实现几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

展望

在 2023 年,智谱 AI 基于 GLM-130B 研发了 ChatGLM,并经过三个版本的迭代,逐渐增加了多模态理解、代码解释、网络搜索增强等新功能。

去年年初,智谱 AI 承诺要在 2023 年底实现逼近最先进的 GPT-4 性能的全栈自主创新的 GLM-4。作为一年前设定的目标,GLM-4 的性能已经有了显著提升。从标准的大模型评估角度来看,整体上已经逼近了 GPT-4。

希望国产大模型能够更进一步,我很担心未来在AI领域,又出现被掐脖子的事情~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/342057.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android14实战:调整A2DP音量曲线(五十三)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

Rust采集天气预报信息并实时更新数据

目录 一、引言 二、系统设计 三、系统实现 四、案例分析 五、结论 一、引言 随着互联网技术的发展,人们对于获取实时的天气预报信息的需求越来越强烈。Rust作为一种高效、安全的编程语言,可以用于开发各种应用,包括天气预报采集系统。本…

Unity中URP下的 额外灯 逐像素光 和 逐顶点光

文章目录 前言一、额外灯 的 逐像素灯 和 逐顶点灯1、存在额外灯的逐像素灯2、存在额外灯的逐顶点灯 二、测试这两个宏的作用1、额外灯的逐像素灯2、额外灯的逐顶点灯 前言 在之前的文章中,我们了解了 主光相关的反射计算。 Unity中URP下的SimpleLit的 Lambert漫反…

图解CART分类树评估器的参数

图解CART分类树评估器的参数

微信小程序从入门到进阶(二)

数据请求 wx.request发起网络请求&#xff0c;请求的方式主要分为两种&#xff1a; get 请求 post 请求 // get请求 // html <view><button type"primary" bindtap"onGetClick">发起 get 请求</button> </view> // js // inde…

解决报错:javax.net.ssl.SSLHandshakeException: No appropriate protocol

目录 一、场景二、报错信息三、原因四、排查五、解决 一、场景 使用对象存储进行文件上传时报错 注&#xff1a;该问题只要需要用到http的都有可能出现&#xff0c;不是只针对对象存储 二、报错信息 com.hitachivantara.hcp.common.ex.InvalidResponseException: com.hitach…

47. 全排列 II - 力扣(LeetCode)

题目描述 给定一个可包含重复数字的序列 nums &#xff0c;按任意顺序 返回所有不重复的全排列。 输入示例 nums [1,1,2]输出示例 [[1,1,2], [1,2,1], [2,1,1]]解题思路 解题代码 class Solution {List<List<Integer>> result new ArrayList<>();Deq…

外网ssh远程连接服务器

文章目录 外网ssh远程连接服务器一、前言二、配置流程1. 在服务器上安装[cpolar](https://www.cpolar.com/)客户端2. 查看版本号&#xff0c;有正常显示版本号即为安装成功3. token认证4. 简单穿透测试5. 向系统添加服务6. 启动cpolar服务7. 查看服务状态8. 登录后台&#xff0…

【STM32F103】JDY-31蓝牙模块(USART)

JDY-31 JDY-31蓝牙模块&#xff0c;就是下面这么个小玩意。某宝买大概就七八块&#xff0c;超过十块的不要买。 JDY一共有6根引脚&#xff0c;而我们想要让它工作的话只需要接两根线即可&#xff0c;那就是VCC和GND&#xff0c;给VCC接3.6V~6V的电压&#xff08;推荐是5V&…

Modbus网关BL101 既实现Modbus转MQTT,还能当串口服务器使用

随着工业4.0的迅猛发展&#xff0c;人们深刻认识到在工业生产和生活中&#xff0c;实时、可靠、安全的数据传输至关重要。在此背景下&#xff0c;高性能的工业电力数据传输解决方案——协议转换网关应运而生&#xff0c;广泛应用于工业自动化系统、远程监控和物联网应用应用环境…

【江科大】STM32:定时器中断

文章目录 TIM&#xff08;Timer&#xff09;定时器根据复杂度和应用场景分为了高级定时器、通用定时器、基本定时器三种类型基本定时器通用定数器 高级定时器 时钟&#xff08;时钟电路&#xff09;的作用是什么&#xff1a;设置定时器触发中断普通方法&#xff1a;预分频器时序…

架构篇15:高性能数据库集群-分库分表

文章目录 业务分库分表实现方法小结 上篇我们讲了“读写分离”&#xff0c;读写分离分散了数据库读写操作的压力&#xff0c;但没有分散存储压力&#xff0c;当数据量达到千万甚至上亿条的时候&#xff0c;单台数据库服务器的存储能力会成为系统的瓶颈&#xff0c;主要体现在这…

【pdf技巧】PDF文件设置打印限制

想要限制PDF文件的打印功能&#xff0c;想要限制PDF文件打印清晰度&#xff0c;都可以通过设置限制编辑来达到目的。 打开PDF编辑器&#xff0c;找到设置限制编辑的界面&#xff0c;切换到加密状态&#xff0c;然后我们就看到 有印刷许可。勾选【权限密码】输入一个PDF密码&am…

正则表达式、grep过滤工具、sed基本用法、sed基本操作指令、sed应用案例

1 案例1&#xff1a;使用正则表达式 1.1 问题 本案例要求熟悉正则表达式的编写&#xff0c;完成以下任务&#xff1a; 利用grep或egrep工具练习正则表达式的基本用法 1.2 方案 表&#xff0d;1 基本正则列表 表&#xff0d;2 扩展正则列表 1.3 步骤 实现此案例需要按照如…

aiXcoder自动跳出

在使用vscode时突然提示&#xff1a;需登录aixcoder才可以继续使用&#xff1b;如果不登录&#xff0c;一使用vscode就会自动弹出aixcoder试用界面&#xff1a; 试用&#xff1f;后面可能要收取费用&#xff0c;本着白嫖的宗旨思考&#xff1a;那么怎么恢复原来的版本呢&#x…

A 股承担着一个什么功能?

​A 股&#xff1a;中国资本市场的核心角色 A 股&#xff0c;即人民币普通股票&#xff0c;在中国资本市场中扮演着至关重要的角色。它不仅是投资者买卖交易的场所&#xff0c;更是中国经济发展的重要引擎。 首先&#xff0c;A 股为中国的企业提供了融资平台。中国有着庞大的…

天天酷跑-C语言搭建童年游戏(easyx)

游戏索引 游戏名称&#xff1a;天天酷跑 游戏介绍&#xff1a; 本游戏是在B站博主<程序员Rock>的视频指导下完成 想学的更详细的小伙伴可以移步到<程序员Rock>视频 【程序员Rock】C语言项目&#xff1a;手写天天酷跑丨大一课程设计首选项目&#xff0c;手把手带你用…

Web安全漏洞专项靶场—SQL注入—docker环境—sqli-labs靶场—详细通关指南

SQL注入—sqli-labs靶场 零、前言一、环境搭建①、VirtualBox②、Kali Linux③、Docker 二、闯关开始1、Less-1——union2、Less-2—数字型—union3、Less-3—)—union4、Less-4—")—union5、Less-5——布尔盲注6、Less-6—"—布尔盲注7、Less-7—))7.1—布尔盲注7.…

Git学习笔记(第8章):IEAD实现GitHub操作(VSCode)

目录 8.1 VSCode登录GitHub账号 8.2 创建远程库 8.3 本地库推送到远程库(push) 8.4 远程库拉取到本地库(pull) 8.5 远程库克隆到本地库(clone) 8.1 VSCode登录GitHub账号 Step1&#xff1a;安装“GitHub Pull Requests and Issues”插件 Step2&#xff1a;登录GitHub账号 …

加密项目调研的评估框架

当谈到加密货币时&#xff0c;您在决定是否投资之前需要考虑几个关键因素。无论您是刚刚开始接触新的加密项目还是正在寻求扩展您的投资组合&#xff0c;拥有一个方便的加密项目评估框架都会很有帮助。 本文将解释一个分步框架&#xff0c;以帮助您评估各种加密项目。 您如何…