IDC最新报告,7大维度11家大模型厂商比拼,唯一全优是谁?

如果考试题太简单,学渣也能拿一百昏。在 AI 圈,我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平?是高考题吗?当然不是!

也有些人认为,在各种 Benchmark 榜单上,谁排第一谁最强。

其实并非如此,有时候,越「权威」的榜单就越容易被策略性刷榜。

因此,模型的「强」不能只是在某个 Benchmark 上排名第一,而是要在多个维度上都很能打。

近日,全球领先的国际数据公司(IDC) 最新发布的大模型实测报告《中国大模型市场主流产品评估,2024》从基础能力到应用能力 7 大维度对 11 家大模型厂商的 16 款市场主流产品进行实测。

报告显示,百度文心大模型整体竞争力位于领先水平,产品能力处于第一梯队,是唯一一家在 7 大维度上均为优势厂商的企业。文心一言、文心一格在问答理解类、推理类、创作表达类、数学类、代码类等基础能力,toC 通用场景类、toB 特定行业类等应用能力等 7 大维度均具备领先优势。其他评测厂商中,阿里获 6 项优势维度,OpenAI GPT-4 和商汤分获 5 项。

图片

IDC《中国大模型市场主流产品评估,2024》

要知道这份实测报告不同于以往的评测榜单:

首先,IDC 成立了专门的产品测试团队、邀请外部专家团队,在审核委员会的监督下,保证了评估结果的真实度。

其次,测试的全面性。在 IDC 列出的厂商里,有很多我们熟悉的公司,国外厂商如 OpenAI;国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产品参与了本次评估。从这可以看出,IDC 集结的这批模型中,可谓是高手云集,想要在这当中拔得头筹,没有两把刷子是不可能占据一席之地的。

除了涵盖众多厂商,IDC 测试题目也涵盖方方面面,分为基础能力和应用能力两个大类共 7 个维度:基础能力包括问答理解类、推理类、创作表达类、数学类、代码类;应用能力主要包含 toC 通用场景类和 toB 特定行业类,每一类单独计分。

图片

IDC 题目类型

7 项维度,主流大模型全面大比武

过去一年,说 AI 领域是「百模大战」一点也不为过。特别是国内,从科技巨头到创业公司都推出了自己的大模型产品。

此次 IDC,就对业内知名的主流基础大模型产品进行了评比。

从 IDC 报告的结果来看,百度文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产品位于第一梯队;紧随其后的是百川、智谱、昆仑万维位于第二梯队;联汇、云知声、云从科技暂列第三梯队。

图片

细分来看,在 IDC 评测的 7 个维度上,百度文心大模型在每一项指标上都被列为优势厂商,没有短板,可以说是一位全能选手。其他厂商的大模型均未拿到全优,在一个或多个方面存在短板。阿里获得 6 项优势维度排名第二,OpenAI GPT-4 和商汤获得 5 项优势排名第三。举例来说,排名靠前的 OpenAI 以及阿里在数学类题目上不及百度,商汤在 toC 通用场景类题目上落选。

从实际的模型效果和迭代速度来看,文心大模型在文档 / 长文能力、检索增强、创作智能体等技术和产品创新上比较可圈可点。

拆解基础能力

图片

IDC 咨询发布的基础大模型产品实测结果

百度、GPT-4、阿里、商汤在问答理解类被列为优势厂商。这类题目主要考察模型理解和回答人类问题的能力,IDC 从常识、专业知识、多语言、多模态、角色扮演 + 多轮对话、安全陷阱进行考察。

在安全陷阱这个细分维度,只有百度文心大模型入选。我们推测,这是因为百度在大模型安全问题上进行了全面的研究,确保服务安全。一直以来围绕大模型讨论最多的就是安全和隐私,IDC 的结果表明当前安全陷阱问题仅有少数产品能够识别地较好,需要进一步的优化。

如今大模型的发展方向朝着多模态前进,不但要求大模型在文本上表现良好,在图像、语音等多个方面也要拿出成绩。百度在多模态和角色扮演 + 多轮对话上也表现优异。

推理类题目主要考察大模型基于已知信息推出新结论的思维方式。百度在归纳推理、类比推理两项指标上入选优势厂商。归纳和类比推理通常涉及抽象和高级思维能力,这就需要模型在进行推理时,应能处理并整合来自不同源的信息,包括直接数据和推断出的隐含信息,从而确保模型推理的准确性。

随着生成式 AI 的快速发展,创作表达成为大模型一较高下的赛道。一篇文章只写了开头不知该如何续写、不会起标题…… 这时大模型都能帮你完成。我们以文本风格迁移为例, 这项任务要求模型必须准确理解原始文本的内容和意图,这是风格转换的基础。模型需要识别和理解不同的写作风格,这要求模型能够区分例如学术文本、商业报告、新闻报道或口语等不同类型的语言风格。模型在理解原文内容和目标风格的基础上,生成的文本需要保持一致性和连贯性等等。这些都对大模型背后的技术提出了很高的要求。

这一维度的比较结果表明百度在内容创作、生成质量和速度等方面展现出优势,这将在数字内容市场中具有更强的竞争力。

从 IDC 的测试来看,国产大模型在问题解答、推理和创作表达上的成熟度在逐步升高。但在数学和代码这两个基础能力维度上得分率整体较低。

一直以来,大模型被划分为数学上的「差等生」。在数学任务上,大模型不仅需要逻辑推理能力,还需要对问题有很好的解析和理解、抽象出各个问题的逻辑关系,最后给出准确的答案。IDC 报告显示,百度大模型在数学类任务上体现出较强的体系化思维、逻辑思维和抽象思维能力。

代码能力是评估大模型理解、逻辑、推理、生成等综合能力的体现,其已成为程序员辅助编程的必备助手。在代码类所有 6 个细分维度中,百度均入围优势厂商,在代码生成、编程翻译、代码补全、代码纠错等多个方面表现优异。

应用能力评估

除了基础能力,IDC 还对大模型的应用能力进行了全方位测评,主要包括两个方面:面向普通用户服务 ToC,以及面向企业用户服务 ToB。

在 ToC 类场景下,入选的厂商非常少,但百度在这两项指标上均入选。评测结果显示,百度文心大模型、GPT-4 等在搜索、写邮件、文生表图等办公场景下具备优势,此外文心大模型在衣食住行、生活服务、闲聊创意等生活助手场景中被选为优势厂商。

在 toB 特定行业类任务上,文心大模型已经在金融、法律、科研等多个行业落地。GPT-4 在工业、零售电商等落地较好。

技术是通用大模型立身之本

许多人都是从 2022 年底 ChatGPT 发布之后才听过大模型一词。

但其实 ChatGPT 这类大模型产品的爆火背后是 NLP 领域多年技术积累的结果,而这个过程中国科技公司如百度等也从未缺席。

例如,百度早在 2019 年 3 月,就发布了文心大模型 1.0 版,现已升级到文心大模型 4.0 版,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上都有着显著提升。

这些提升靠什么做到的?主要是百度在芯片、框架、模型和应用上的全栈布局,尤其是飞桨深度学习平台和文心大模型的联合优化。

具体来说,在训练方面,百度采用块状稀疏掩码注意力计算、超长序列分片并行、灵活批次虚拟流水并行、并行计算与通信深度联合优化等技术,提高模型整体训练效率和性能;在推理部署方面,百度创新了 INT4 无损量化加速、注意力机制协同优化、精调模型集约化部署、异构多芯混部推理等技术,在模型精度、推理性能、部署成本等方面均取得了较好成果。

相比 2023 年文心一言发布时,文心大模型训练效率提升到当时的 5.1 倍,推理性能提升到 105 倍。

反映到用户数据上,2024 百度 Create AI 开发者大会的最新数据显示,文心一言累计用户规模已达 2 亿,日均调用量也达到了 2 亿。

增效降本的实际应用

大模型不仅掀起了一场 AI 技术变革,还在一定程度上重塑了我们的生产和生活方式,提高了生产力。

在大模型应用落地过程中,效果、效率和成本都很重要,我们需要从实际应用的场景需求出发,选择最适合的模型。从研发侧来说,需要持续不断进行高效、低成本的模型生产;在应用侧,则需要充分发挥按需调度的原则,利用任务需求的不同设计多模型的组合推理机制。

在 IDC 评测报告中,我们可以看到百度文心大模型在 toC 和 toB 应用场景中均有出色表现。这源于百度在大模型应用落地中的两个关键考量:一方面是高效低成本的模型生产;另一方面是多模型推理。

高效低成本模型生产方面,百度研制了大小模型协同的训练机制,可以有效进行知识继承,高效生产高质量小模型,也可以利用小模型实现对比增强,帮助大模型的训练。同时,建设了种子模型矩阵,数据提质与增强机制,以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。高效低成本模型生产机制,助力应用速度更快、成本更低、效果更好。

多模型推理方面,百度研发了基于反馈学习的端到端多模型推理技术,构建了智能路由模型,进行端到端反馈学习,充分发挥不同模型处理不同任务的能力,达到效果、效率和成本的最佳平衡。

基于上述两方面的设计,文心大模型已经发展出基础模型应用、智能体模式应用、多模态应用等多种创新应用模式,真正地把大模型能力转化成了生产力的提升。

例如在行业落地上,百度智能云推出千帆大模型平台,以一站式企业级大模型开发及服务运行平台服务大众。2024 年 5 月底,百度宣布文心大模型的两款主力模型 ERNIE Speed、ERNIE Lite 免费。截至目前,包括国家电网、浦发银行、中国航天、吉利、长安汽车、泰康保险、TCL、上海辞书出版社、荣耀、三星、蔚来汽车、南方电网、山东港、汽车之家、毕马威等都成为百度文心大模型的用户和合作伙伴。文心大模型已经拥有中国最广泛的产业落地规模。

结语

除了 IDC 这份报告,我们也关注到文心大模型和文心一言在近期多个评测的不俗表现。

不久之前,清华的《SuperBench 大模型综合能力评测报告》共评测了 14 个海内外具有代表性的模型,结果显示文心一言 4.0 表现亮眼,作为国内头部模型,与国际一流模型水平接近。

沙利文发布的《2024 年中国大模型能力评测》报告显示百度文心一言稳居国产大模型首位,拿下了数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一。

回顾从 2012 年开始的深度学习革命,百度就一直看重 AI 技术的发展与应用。一直到这波大模型浪潮,百度率先推出国产大模型产品,并不断迭代技术、推进落地应用。而经过一年半的「百模大战」,大模型进入了拼落地应用的阶段。这个过程中,百度大模型的生成质量、生成速度与使用成本也许会成为这场战争的胜负手。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/707567.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ai 人工智能免费网站免费生成图片生成ppt

豆包 Kimi.ai - 帮你看更大的世界 生成ppt 讯飞智文 - AI在线生成PPT、Word 大家如有其它免费的欢迎推荐!!!

动力学仿真平台:让模型配置与仿真测试更高效!

背景概述 动力学仿真平台是一种基于计算机技术的模拟工具,旨在模拟和分析物理系统中的动力学行为。通过建立数学模型,并借助高效的数值计算方法来模拟复杂系统的运动规律,为科研、设计、工程等领域提供重要的决策支持。动力学仿真平台的重要性…

图像算法之镜头畸变

桶形畸变(Barrel Distortion): 桶形畸变是一种常见于广角镜头的畸变类型。在桶形畸变中,图像的中心区域被向外拉伸,使得直线在图像边缘部分显得向内弯曲,看起来像一个桶。这种畸变之所以发生,是…

Linux操作系统学习路线

本文来自Qwen2大模型: Linux操作系统的全面学习是一个渐进的过程,涵盖从基础知识到高级特性的多个阶段。以下是一份详细的Linux操作系统学习路线图,包括各个阶段的学习目标、建议的学习资源和实践步骤。 1. Linux 基础知识与安装 学习目标&a…

CD工具awx之清单Inventory,管理应用与主机的多对多关系

一、什么是清单 它决定的是一个应用部署到哪些目标机,清单管理的是应用(组)关联了哪些主机(目标机)。 1、新建清单 2、新建组 3、关联主机 新增主机或关联已有的主机 新主机 现有主机 服务关联主机完成&#xf…

ElementPlus国际化(将组件的默认语言改为中文)

文章目录 1. Element-plus的默认语言2. 编辑 main.js 文件3. 效果(以分页条组件为例) 1. Element-plus的默认语言 Element-plus的默认语言是英语,可修改为其它语言 2. 编辑 main.js 文件 import {createApp} from vue import ElementPlus …

deepin V23 RC2 正式发布!

deepin 是一款基于 Linux 的开源桌面操作系统,今天 deepin V23 RC2 正式发布,欢迎体验与反馈!感谢每一位 deepiner 提供想法与建议,让我们一起为打造美观易用、安全可靠的开源操作系统而努力! 【功能新增与优化】 新增…

电脑自带录屏在哪?电脑录屏,4个详细方法

在现代社会中,越来越多的人需要在电脑上录制视频,比如录制游戏操作、制作教学视频、演示文稿等等。因此,电脑录屏成为了一项非常重要的功能。那么电脑自带录屏在哪?本文将带领大家看看可以使用哪些方法进行录屏。 录屏方法一&…

CC攻击的有效应对方案

随着互联网的发展,网络安全问题愈发突出。CC攻击(Challenge Collapsar Attack),一种针对Web应用程序的分布式拒绝服务(DDoS)攻击方式,已经成为许多网络管理员和网站拥有者不得不面对的重大挑战。…

什么?项目经理也算经理?

今天偶然看到一个有意思的问题:“如何破解项目经理的无权、无利、有责的现状”? 乍看有点费解,细想还挺有意思,这不禁引发了我的思考,项目经理到底算不算经理? 从管理学的角度来看,根据亨利法约…

电信网关配置管理系统 del_file.php 前台RCE漏洞复现

0x01 产品简介 中国电信集团有限公司(英文名称“China Telecom”、简称“中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴。电信网关配置管理系统是一个用于管理和配置电信网络中网关设备的软件系统。它可以帮助网络管理员实现对网关设备的远…

笔记本电脑怎么连接无线网WiFi?4个连接方法分享!

“我新买了一台笔记本电脑,现在不知道怎么操作才能连接无线网。有朋友知道应该怎么操作吗?希望大家给我分享一下简单的方法。” 在数字化飞速发展的今天,笔记本电脑作为我们日常生活与工作中不可或缺的工具,其无线连接功能的重要性…

五分钟看完WWDC24

大家好,我是小编阿文。欢迎您关注我们,经常分享有关Android出海,iOS出海,App市场政策实时更新,互金市场投放策略,最新互金新闻资讯等文章,期待与您共航世界之海。 北京时间6月11日凌晨1点&…

智能化六面体大米装袋机:如何助力提升包装效率与质量

在快节奏的现代社会,高效、精准的包装设备对于提升大米产业的生产效率与产品质量至关重要。近年来,随着科技的不断进步,智能化六面体大米装袋机凭借其较好的性能和便捷的操作,逐渐成为大米加工企业的新宠。星派将深入探讨智能化六…

管理十大定律:深度解析与实际应用

在复杂多变的企业管理环境中,掌握并运用一些基本的定律和规律,对于提升管理效率、优化资源配置具有至关重要的作用。 1、马太效应 定律解析:马太效应描述了资源分配中的一种累积优势现象,即强者愈强,弱者愈弱。这源…

化学品危险性分类鉴定报告 危化品危险性分类

一、化学品危险性分类报告: 按照国务院令 第591号 《危险化学品安全管理条例》、原十部委公告 2015年 第5号 《危险化学品目录(2015版)》、原安监总局令 第60号《化学品物理危险性鉴定与分类管理办法》和原安监总局令 第53号《危险化学品登记…

KTH4603 3D Hall传感器在强磁入侵检测中的应用

背景介绍 电子系统一直面临强磁干扰的威胁,保护这些设备免受强磁干扰成为一个重要课题。非法者通过施加强磁意图篡改或干扰它们,窃取产品或服务。强磁场可以对电子设备产生严重的影响,包括但不限于:数据损坏、功能故障、安全隐患…

2024脑卒中评估量表分享

常笑医学整理了5个常用的脑卒中评估量表,供临床医护工作人员参考。 Essen脑卒中风险评分量表-常笑医学网​ (完整量表请点击量表名称查看) Essen脑卒中风险评估量表,是一个简便、易于临床操作的9分量表,是根据氯吡格雷…

锂电池航空运输报告办理 UN38.3电池报告

锂电池航空运输报告办理 锂电池航空运输报告,通常指的是UN38.3测试报告,这是联合国针对危险品运输制定的《联合国危险物品运输试验和标准手册》的第3部分38.3款的要求。UN38.3测试报告证明锂电池在运输过程中的安全性,包括高度模拟、高低温循…

键盘、鼠标、轴体选购指南

起因 买了块27寸的屏幕msi,一旦入坑爬不起来了。 这不是要配个键盘么。 鼠标的左键也不够灵敏,不知道是电池不足还是使用时间太久,也萌生换的念头。有一个重要原因也是跟电脑和鼠标垫整体不搭。 搜集信息 原本的一个键盘是ikbc国产牌子&am…