国内大模型在局部能力上已超ChatGPT

9c8e2e2383db4e53817fae0bd986a4b8.jpg中文大模型正在后来居上,也必须后来居上。

 

@数科星球原创

作者丨苑晶

编辑丨大兔

从GPT3.5彻底出圈后,大模型的影响力开始蜚声国际。一段时间内,国内科技公司可谓被ChatGPT按在地上打,毫无还手之力。

彼时,很多企业还不知大模型为何物,GPT3.5就已够生成诸如营销文案、小说、诗歌等高质量的中文文本。一时间,买课小贩、租号中间商和套壳开发者大行其道。

现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。

在公开资料中,就有360、复旦大学、科大讯飞等企业表达了在中文能力上超越ChatGPT的消息。现在,时间进入2023年8月份,号称超越国外竞品的公司变得越来越多。

 

01

 

中文模型进击:ChatGPT“不香”了

 

客观地说,在GPT-3推出后,OpenAI曾经在中文文本输出中占得先机。其一经推出,便可覆盖诸如营销文案、小说和诗歌等领域的文生文需求。几个月前,这种先手优势养活了国内一众卖课达人、租号团队以及套壳聊天机器人产品。

 

不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。

 

根据第三方监测机构SimilarWeb的数据显示,ChatGPT从4月开始就呈现出了明显放缓的趋势。以至于在2023年的第二季度,人们的朋友圈内几乎没有了OpenAI的踪影。在科技圈,这被归结为竞争对手大批量涌入、垂直模型兴起和新技术迭代所导致。

 

8月初,中文大模型的“千模大战”已进入白热化阶段。以数科星球(ID:digital-planet)团队所掌握的信息来看,越来越多的企业开始关注下沉市场、并致力于推进具体行业和大模型产品的结合。

 

这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。

 

更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。

 

但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。

 

科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。

 

02

 

中文大模型变聪明的背后

 

为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。

 

除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。

 

为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。

 

在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。

683ed2431f5f4800af5a9eec0f9d093b.png

 

据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。

45dd7066ca4441ebb7979964f0dbe044.png

 

对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。

 

 

从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。

 

 

据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”

 

的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。

 

03

 

国内大模型的未来

 

放眼行业,大模型对于国内人工智能产业的意义非凡。

 

在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。

 

在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。

 

客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。

 

但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。

 

在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。

 

可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。

 

现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/64652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何构造一个安全的单例?

为什么要问这个问题? 我们知道,单例是一种很常用的设计模式,主要作用就是节省系统资源,让对象在服务器中只有一份。但是实际开发中可能有很多人压根没有写过单例这种模式,只是看过或者为了面试去写写demo熟悉一下。那…

【HTML】<input>

分类 text password number button reset submit hidden radio checkbox file image color range tel email(火狐有校验,360浏览器无校验。) url datetime(火狐、360浏览器不支持) search date、month、week、time、da…

yaml文件详解

目录 一、yaml的简介 二、yaml示例 1.编写yaml文件创建pod资源 2. 创建资源对象 3.查看创建的pod资源 4.创建service服务对外提供访问并测试 5.创建资源对象 6.查看创建的service 7.在浏览器输入 nodeIP:nodePort 即可访问 三、 获取yaml配置资源 四、将现有资源生成模…

openCV图像读取和显示

文章目录 一、imread二、namedWindow三、imshow #include <opencv2/opencv.hpp> #include <iostream>using namespace std; using namespace cv;int main(int argc,char** argv) {cv::Mat img imread("./sun.png"); //3通道 24位if (img.empty()) {std:…

Java中实现图片和Base64的互相转化

文章目录 前言一、代码二、测试三、结果 前言 公司项目中用到了实名认证此&#xff0c;采用的第三方平台。后端中用到的单项功能为身份证信息人像对比功能&#xff0c;在写demo的过程中发现&#xff0c;它们所要求的图片信息为base64编码格式。 一、代码 package com.bajiao…

zookeeper集群和kafka的相关概念就部署

目录 一、Zookeeper概述 1、Zookeeper 定义 2、Zookeeper 工作机制 3、Zookeeper 特点 4、Zookeeper 数据结构 5、Zookeeper 应用场景 &#xff08;1&#xff09;统一命名服务 &#xff08;2&#xff09;统一配置管理 &#xff08;3&#xff09;统一集群管理 &#xff08;4&a…

本地项目如何连接git远程仓库

在本地新建项目后&#xff0c;如何连接git远程仓库呢&#xff1f;步骤如下&#xff1a; 第一步&#xff0c; 首先我们在git上新建仓库&#xff0c;设置模板可勾选Readme文件。&#xff08;readme文件的创建是为了介绍所写代码的一些详细信息,为了之后更好的维护。&#xff09;…

准备三个月,终拿快手offer!薪资28k*16

昨天有VIP小伙伴给小孟说&#xff1a;拿到了快手的offer。 聊了半个小时&#xff0c;待遇还不错。准备去了&#xff01;28k&#xff0c;16薪。 快手的k3c职级可对标阿里的P7。 前面我说过&#xff1a;能去大厂就去大厂&#xff0c;有机会就去争取&#xff0c;年纪轻轻的&a…

数学建模-元胞自动机

clc clear n 300; % 定义表示森林的矩阵大小 Plight 5e-6; Pgrowth 1e-2; % 定义闪电和生长的概率 UL [n,1:n-1]; DR [2:n,1]; % 定义上左&#xff0c;下右邻居 vegzeros(n,n); % 初始化表示森林的矩阵 imh ima…

uniapp 微信小程序 echarts地图 点击显示类目

效果如图&#xff1a; 在tooltip内axisPointer内添加 label:{show:true} 即可显示“请求离婚”的标题

【C++】开源:tinyxml2解析库配置使用

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍tinyxml2解析库配置使用。 无专精则不能成&#xff0c;无涉猎则不能通。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一下&#xff0c;…

elevation mapping学习笔记2之高程图输入、输出、服务和参数配置的定义和说明

文章目录 0 引言1 话题Topics1.1 订阅subscribe1.2 发布publish 2 服务Services3 参数Parameters 0 引言 elevation mapping学习笔记1已经成功编译安装elevation mapping高程图工程&#xff0c;并运行示例turtlesim3_waffle_demo&#xff0c;在仿真环境下&#xff0c;控制带有…

【Ubuntu】安装docker,docker compose 以及部署一个docker应用

大家好&#xff01;在过去&#xff0c;已经分享了很多有关通过Docker部署应用的内容。今天&#xff0c;我将为大家详细介绍如何在Ubuntu系统上部署最新的Docker平台。 Docker是什么 Docker是一个开源的容器化平台&#xff0c;它允许您将应用程序及其所有依赖项打包到称为容器…

恒运资本:2倍牛股突然闪崩,业绩创新高股出炉,最高日赚近2亿

上半年哪些公司净利润有望创前史新高&#xff1f; 2倍牛股单季成绩环比下滑&#xff0c;早盘股价大跳水 A股半年报进入发表高峰期&#xff0c;仅8月7日晚间&#xff0c;就有超30家公司发表半年报和成绩预告状况&#xff0c;超七成净利润同比增加。净利润增速最高的是翔港科技&…

责任链模式(Chain of Responsibility)

责任链模式是一种行为设计模式&#xff0c;允许将请求沿着处理者链进行发送。收到请求后&#xff0c;每个处理者均可对请求进行处理&#xff0c;或将其传递给链上的下个处理者。职责链模式使多个对象都有机会处理请求&#xff0c;从而避免请求的发送者和接受者之间的耦合关系。…

Activity启动过程详解(Android 12源码分析)

Activity的启动方式 启动一个Activity&#xff0c;通常有两种情况&#xff0c;一种是在应用内部启动Activity&#xff0c;另一种是Launcher启动 1、应用内启动 通过startActivity来启动Activity 启动流程&#xff1a; 一、Activity启动的发起 二、Activity的管理——ATMS 三、…

【AGC】付费下载上架下载后无法安装问题

【关键字】 AGC、付费下载、应用安装 【问题描述】 有开发者反馈用户下载后无法安装&#xff0c;采用未接入sdk&#xff0c;直接勾选付费-产品上架的方案&#xff0c;以前其他产品是能够正常安装的&#xff0c;现在不知道为啥。 报错信息&#xff1a;付费后显示“订单创建失…

Centos 从0搭建grafana和Prometheus 服务以及问题解决

下载 虚拟机下载 https://customerconnect.vmware.com/en/downloads/info/slug/desktop_end_user_computing/vmware_workstation_player/17_0 cenos 镜像下载 https://www.centos.org/download/ grafana 服务下载 https://grafana.com/grafana/download/7.4.0?platformlinux …

SpringBoot 2.1.7.RELEASE + Activiti 5.18.0 喂饭级练习手册

环境准备 win10 eclipse 2023-03 eclipse Activiti插件 Mysql 5.x Activiti的作用等不再赘叙&#xff0c;直接上代码和细节 POM <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId>…

Matplotlib引领数据图表绘制

Matplotlib引领数据图表绘制 前言图像得组成画图设置 figure设置标题设置坐标轴设置 label 和 legend添加注释使用子图中文乱码解决保存图形显示图形条形图直方图散点图饼状图 总结 前言 在数据科学领域&#xff0c;数据可视化是一种强大的工具&#xff0c;能够将复杂的数据转…