一、大模型解析(LLM、MLLM、GLM)
基础概念:
Transformer:ChatGPT的核心结构是Transformer,这是一种采用自注意力机制的深度学习模型。通过自注意力机制,Transformer能够理解输入文本的上下文信息,并生成具有上下文依赖性的输出。
ChatGPT-4o(LLM、MLLM)VS智谱AI(GLM)
ChatGPT-4o
尽管多模态大型语言模型 (MLLM ) 已经存在相当长一段时间了,但 GPT-4o 似乎是第一个真正跨四种不同模态的原生模型:音频、视频、图像和文本。
ChatGPT-4o 是一种一体化模型,采用多式联运输入、多式联运输出。
大型语言模型 (LLM) 是序列到序列模型(输入是序列,输出也是序列),通常接收文本并输出其他文本。
而MLLM能够处理多种类型(如文本、音频、视频等)的数据作为输入,在架构上,MLLM通常包括编码器、连接器以及大型语言模型(LLM)。编码器用于处理不同模态的数据,连接器将这些数据整合到LLM中进行进一步处理,可以输出多种形态的结果。
构建通用人工智能 (AGI) 或超级人工智能 (ASI) 的道路上,多模态性起着至关重要的作用,因为人类之所以成为今天的智慧生物,很大程度上归功于我们能够处理多种形式的数据并理解它以驾驭我们的世界。
AGI(通用人工智能)是指一种能够在各个领域和任务中表现出与人类相媲美或超越的智能水平的计算机系统。AGI不仅仅局限于特定的任务或领域,而是具备广泛的认知能力,能够执行任何智能生物能做的智能任务。这意味着AGI系统能够像人类一样广泛地感知、学习、推理和解决问题,具有人类级别的智能和自主性。
实现AGI被视为AI领域最大的技术挑战之一,包括但不限于多模态交互、伦理和社会考量。
智谱AI
智谱AI是一家专注于自然语言处理和多模态人工智能的公司,成立于2019年6月,源自清华大学计算机系技术成果。该公司致力于打造新一代认知智能大模型,并在此领域取得了显著的进展。
2020年,智谱AI开始了GLM预训练架构的研发,并训练了百亿参数模型GLM-10B("B"代表的是模型的参数规模)。2021年,公司利用MoE架构成功训练出万亿稀疏模型,于次年合作研发了双语千亿级超大规模预训练模型GLM-130B,并基于此千亿基座模型开始打造大模型平台及产品矩阵。
GLM(Guided Language Model)和GPT(Generative Pre-trained Transformer)是两种不同的自然语言处理模型,它们在架构、训练方式、应用领域等方面有显著的区别。
架构和训练过程:
GLM:GLM的具体架构细节可能与ChatGPT有所不同,尤其是在处理长篇对话和维持上下文方面。GLM主要基于生成式对抗网络(GAN),具有强大的生成能力。此外,GLM在预训练和微调阶段都有优势,并且采用了空白填充目标、空白顺序、空白表示、2D位置编码等设计选择来提高模型性能。
GPT:GPT主要基于变换器(Transformer)架构,具有强大的语言理解能力。它使用单向的注意力机制,能够捕捉NLU任务中上下文词之间的依赖关系。
应用领域和优缺点:
GLM:GLM在总结信息、内容抽取、复杂推理、代码生成等多个应用场景实现了复杂长文本能力。它还具备数据分析功能,可以进行高效的数据分析。
GPT:GPT在阅读理解、文本生成等方面表现出色,但在某些情况下可能无法完全捕捉NLU任务中的上下文依赖关系。
性能对比:
GLM-4:GLM-4的性能已经接近GPT-4,两者在多个测评中分数相近,显示出各有千秋的特点。GLM-4在阅读理解方面只比GPT-4低5分,这是已知国产大模型取得的最好分数。
其他相关信息:
BERT:与BERT相比,GLM在预训练和微调阶段都有优势。而GPT则更擅长于生成新的文本。
BERT(Bidirectional Encoder Representations from Transformers)是由Google开发的一种预训练语言模型,主要用于自然语言处理(NLP)任务。它基于Transformer结构,特别是其编码器部分进行了扩展,以理解文本的上下文。
BERT的核心特点是其双向训练机制。在传统的语言模型中,通常只考虑单向的上下文信息,而BERT则同时考虑左侧和右侧的上下文信息,这使得模型能够更好地理解句子的全局含义。这种双向的预训练方法不仅提高了模型对文本的理解能力,还显著提升了多项NLP任务的性能。
二、8个模型3项能力测评分析
1.长文本理解能力测评:
[中文大模型基准测评2024年4月报告.pdf]
测试报告全文约4.5万字。
正确答案:1、未提及;2、71.9分
Prompt:
基于这份《中文大模型基准测评2024年4月报告》:
\1. 报告中提到了“多模态大模型Gemini”,请从文档中提取并总结其关键特性和潜在应用场景。如果没有提及,简洁说明。
\2. 请根据报告内容,在SuperCLUE基准测试中,“文心一言” 得分是?
**豆包:**1正确,2正确。 | **讯飞星火:**1正确,2不精准。 |
---|---|
**文心一言:**1正确,2错误。 | **kimi:**1正确,2错误。 |
---|---|
**Claude:**1正确,2错误。 | **chatgpt:**1错,2不精准。 |
---|---|
**智谱:**1错误,2错误。 | **天工:**上传文件后直接总结内容,对话无法提供回答。 |
---|---|
小结及评分:
在这次测试中,豆包处理长文档和提取信息的能力表现得最为出色。这种能力对于各种应用场景,如数据分析、内容审核、信息检索等,都非常重要。如果你需要一个工具来帮你处理长文章或报告,豆包是个不错的选择。
模型名称 | 豆包 | 讯飞星火 | 文心一言 | kimi | Claude | ChatGPT | 智谱 | 天工 |
---|---|---|---|---|---|---|---|---|
得分 | 8 | 6 | 4 | 4 | 4 | 2 | 0 | 0 |
token 限制 | 128k | 未提及看说明 | 2.8 万字 | 200 万字 | 200k | 128k | 128k | 15 万字 |
说明
由于讯飞星火的相关介绍中没有明确指出其支持的上下文长度限制,因此选取了书籍《人工智能:现代方法》Stuart J. Russell和Peter Norvig合著,作为测试材料,内容约200万字。
测试中,选取了书中的最后一段和中段内容作为测试点,设计了相关问题。测试过程如图所示:
测试结果中,讯飞星火AI模型都能够准确引用书中的信息,回答与书中描述保持一致,这表明讯飞星火在提取长文本方面具有较高的准确性和可靠性。
尽管讯飞星火的相关介绍中未提及支持的最大上下文长度,但通过测试,我们发现它能够处理并准确提取目前AI领域中已知的最大文本长度。
2.逻辑思维能力测评:
**问题1(答案红色)**问题2(答案75公里) | |
---|---|
ChatGPT:
问题1在第一遍测试中回答错误,第2次测试加入限制条件(最后一位无法看到第一位的帽子颜色),经过分析后,讲过拆分,一步一步解析,回答正确;问题2回答正确,解题逻辑清晰
Claude:
全部正确,逻辑条理清晰。
kimi:
问题1错误;问题2正确,但解题过程些许繁琐。
讯飞星火:
全部正确,逻辑条理清晰
文心一言:
全部正确,过程逻辑条理清晰,解释充分
天工:
全部正确,逻辑条理清晰
豆包:
全部正确,问题2解释的过程更加简单明了
智谱:
全部正确,问题2解题过于繁琐
小结及评分:
在问题1中,豆包的解释是最简单、最通俗的;kimi是错误的;其他模型问答很多,会让人觉得繁琐。
在问题2中,豆包和ChatGPT的回答是比较简洁明了的。
模型名称 | 豆包 | Claude | 讯飞星火 | 天工 | 文心一言 | ChatGPT | 智谱 | kimi |
---|---|---|---|---|---|---|---|---|
得分 | 8 | 7 | 7 | 7 | 7 | 6 | 5 | 5 |
3.文字生成与创作能力测评:
**问题:**根据“某公司拖欠员工工资不发,当老赖,引起社会各界人士强烈不满”为主题,创作一篇200字爆款文案。要求标题醒目,内容铿锵有力,引发共鸣,且易传播。
ChatGPT | Claude |
---|---|
kimi | 讯飞星火 |
---|---|
文心一言 | 天工 |
---|---|
豆包 | 智谱 |
---|---|
小结及评分:
Claude和天工的文案是最富有情绪的;kimi、ChatGPT、讯飞星火在字数上差不多,但文案过去平淡;豆包、智谱、文心一言在字数上就不够。
模型名称 | Claude | 天工 | kimi | ChatGPT | 讯飞星火 | 豆包 | 智谱 | 文心一言 |
---|---|---|---|---|---|---|---|---|
得分 | 8 | 8 | 6 | 5 | 4 | 3 | 3 | 3 |
三、整体8个大模型综合能力对比:
每个模型都有自身的强项及弱项,根据自身需求去选择大模型来针对性使用。
四、结语:
大模型已经卷到上百款了,测评下来发现像GPT、文心一言、kimi这样的AI大模型工具都有点相似。因为他们背后的核心都是数据和深度学习。
它们通过分析大量的文本数据来学习语言模式,这就好像我们学习一门新语言一样,需要大量的练习和重复。所以,当它们处理类似的语言任务时,它们的反应和表现就会有一定的相似性。这些工具都是为了解决类似的问题而设计的。比如自动生成文本、翻译、理解语言意图等。所以,它们在处理这些任务时,都会采取一些通用的策略和方法。但这并不意味着它们是完全一样的!每个模型都有它的独到之处,比如在某个特定领域的表现可能会更出色。这就好像同样是画家,有的人擅长画风景,有的人擅长画人物一样。
每一个模型都有着其各自的优势所在以及相对薄弱的方面,我们需要依据自身的实际需求去挑选合适的大模型,从而进行有针对性的运用。
五、注意:
本测评报告旨在提供一个关于各AI大模型性能的参考视角。然而,由于数据来源的单一性,本报告的结论可能无法全面反映所有模型在不同应用场景下的实际表现。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。