2024 年 19 种最佳大型语言模型

大型语言模型是 2023 年生成式人工智能热潮背后的推动力。然而,它们已经存在了一段时间了。

LLM是黑盒 AI 系统,它使用深度学习对超大数据集进行处理,以理解和生成新文本。现代 LLM 开始成型于 2014 年,当时一篇题为“通过联合学习对齐和翻译的神经机器翻译”的研究论文中引入了注意力机制(一种旨在模仿人类认知注意力的机器学习技术)。2017 年,另一篇论文“注意力就是你所需要的”中引入了 Transformer 模型,这种注意力机制得到了进一步完善。

当今一些最著名的语言模型都是基于 transformer 模型的,包括生成式预训练 transformer 系列LLM 和来自 transformer 的双向编码器表示 (BERT)。

ChatGPT运行在 OpenAI 的一组语言模型上,在 2022 年发布后仅两个月就吸引了超过 1 亿用户。此后,许多竞争模型相继发布。其中一些属于谷歌和微软等大公司;另一些则是开源的。

以下是当今最相关的一些大型语言模型。它们进行自然语言处理并影响未来模型的架构。

BERT

BERT是 Google 于 2018 年推出的 LLM 系列。BERT 是一种基于 Transformer 的模型,可以将数据序列转换为其他数据序列。BERT 的架构是 Transformer 编码器的堆栈,具有 3.42 亿个参数。BERT 在大量数据上进行了预训练,然后进行了微调以执行特定任务以及自然语言推理和句子文本相似性。它被用于提高 Google 搜索 2019 年迭代中的查询理解能力。

Claude

Claude 法学硕士专注于体质人工智能,它以一系列原则为指导塑造人工智能输出,这些原则有助于它所支持的人工智能助手有用、无害且准确。Claude 由 Anthropic 公司创建。Claude 法学硕士的最新版本是 Claude 3.0。

Cohere

Cohere 是一个企业 AI 平台,提供多种 LLM,包括 Command、Rerank 和 Embed。这些LLM 可以根据特定公司的用例进行定制训练和微调。创建 Cohere LLM 的公司是由《Attention Is All You Need》的作者之一创立的。Cohere 的优势之一是它不依赖于单一云——不像 OpenAI 那样依赖于 Microsoft Azure。

Ernie

Ernie 是百度的大型语言模型,为 Ernie 4.0 聊天机器人提供支持。该机器人于 2023 年 8 月发布,已拥有超过 4500 万用户。据传 Ernie 拥有 10 万亿个参数。该机器人最适合普通话,但也能够处理其他语言。

Falcon 40B

Falcon 40B 是一种基于 Transformer 的因果解码器专用模型,由技术创新研究所开发。它是开源的,并基于英语数据进行训练。该模型还有两个较小的版本:Falcon 1B 和 Falcon 7B(10 亿和 70 亿个参数)。亚马逊已在Amazon SageMaker上提供 Falcon 40B 。它也可以在 GitHub 上免费获取。

Gemini

Gemini是 Google 的 LLM 系列,为该公司的同名聊天机器人提供支持。该模型取代了 Palm 为聊天机器人提供支持,在模型切换后,聊天机器人从 Bard 更名为 Gemini。Gemini 模型是多模式的,这意味着它们可以处理图像、音频和视频以及文本。Gemini 还集成在许多 Google 应用程序和产品中。它有三种尺寸——Ultra、Pro 和 Nano。Ultra 是最大、功能最强大的模型,Pro 是中端模型,Nano 是最小的模型,专为提高设备上任务的效率而设计。Gemini 在大多数评估基准上都优于 GPT-4。

Gemma

Gemma是 Google 的开源语言模型系列,使用与 Gemini 相同的资源进行训练。Gemma 有两种规模——20 亿参数模型和 70 亿参数模型。Gemma 模型可以在个人电脑本地运行,并且在多个评估基准上超越了类似规模的 Llama 2 模型。

GPT-3

GPT-3是 OpenAI 于 2020 年发布的大型语言模型,拥有超过 1750 亿个参数。GPT-3 采用仅解码器的 Transformer 架构。2022 年 9 月,微软宣布独家使用 GPT-3 的底层模型。GPT-3 比其前身大 10 倍。GPT-3 的训练数据包括 Common Crawl、WebText2、Books1、Books2 和 Wikipedia。

GPT-3 是 OpenAI 公开参数计数的 GPT 系列模型中的最后一款。GPT 系列于 2018 年首次推出,当时 OpenAI 发表了一篇论文《通过生成式预训练提高语言理解能力》。

GPT-3.5

GPT-3.5 是 GPT-3 的升级版,参数更少。GPT-3.5 使用来自人类反馈的强化学习进行了微调。GPT-3.5 是支持 ChatGPT 的 GPT 版本。据 OpenAI 称,有几种模型,其中 GPT-3.5 turbo 是最强大的。GPT-3.5 的训练数据延伸到 2021 年 9 月。

它也曾被集成到 Bing 搜索引擎中,但后来被 GPT-4 取代。

GPT-4

GPT-4是OpenAI 的 GPT 系列中最大的模型,于 2023 年发布。与其他模型一样,它也是基于 Transformer 的模型。与其他模型不同的是,它的参数数量尚未向公众公布,尽管有传言称该模型的参数数量超过 170 万亿。OpenAI 将 GPT-4 描述为多模态模型,这意味着它可以处理和生成语言和图像,而不仅限于语言。GPT-4 还引入了系统消息,让用户可以指定语调和任务。

GPT-4 在多项学术考试中表现出了与人类水平相当的表现。在该模型发布时,有人猜测 GPT-4 已经接近通用人工智能(AGI),这意味着它与人类一样聪明甚至比人类更聪明。GPT-4 为 Microsoft Bing 搜索提供支持,可在 ChatGPT Plus 中使用,最终将集成到 Microsoft Office 产品中。

GPT-4o

GPT-4 Omni(GPT-4o)是 OpenAI 的 GPT-4 继任者,与之前的模型相比有多项改进。GPT-4o 为 ChatGPT 创造了更自然的人机交互,是一个大型多模态模型,接受音频、图像和文本等各种输入。对话让用户可以像在正常的人类对话中一样参与,实时互动还可以捕捉情绪。GPT-4o 可以在交互过程中查看照片或屏幕并提出相关问题。

GPT-4o 的响应时间仅为 232 毫秒,与人类的响应时间相似,比 GPT-4 Turbo 更快。GPT-4o 模型是免费的,将提供给开发者和客户产品。

Lamda

Lamda(对话应用语言模型)是 Google Brain 于 2021 年发布的 LLM 系列。Lamda 使用了仅解码器的转换器语言模型,并在大量文本语料库上进行了预训练。2022 年,当时的谷歌工程师 Blake Lemoine 公开声称该程序具有感知能力, LaMDA 引起了广泛关注。它建立在 Seq2Seq 架构上。

Llama

大型语言模型 Meta AI (Llama) 是 Meta 于 2023 年发布的 LLM。最大版本的大小为 650 亿个参数。Llama 最初发布给经批准的研究人员和开发人员,但现在已开源。Llama 的规模较小,使用、测试和实验所需的计算能力较少。

Llama 使用转换器架构,并在各种公共数据源上进行训练,包括 CommonCrawl、GitHub、Wikipedia 和 Project Gutenberg 的网页。Llama 被有效泄露并衍生出许多后代,包括 Vicuna 和 Orca。

Mistral

Mistral 是一个 70 亿参数的语言模型,在所有评估基准上都优于 Llama 类似规模的语言模型。Mistral 还拥有一个经过微调的模型,专门用于遵循指令。其较小的尺寸使其能够实现自托管,并具有出色的业务性能。它是根据 Apache 2.0 许可证发布的。

Orca

Orca 由微软开发,拥有 130 亿个参数,这意味着它足够小,可以在笔记本电脑上运行。它旨在通过模仿 LLM 实现的推理过程来改进其他开源模型所取得的进步。Orca 以明显更少的参数实现了与 GPT-4 相同的性能,并且在许多任务上与 GPT-3.5 相当。Orca 建立在 130 亿个参数版本的 LLaMA 之上。

Pathways

Pathways 语言模型是谷歌推出的一款基于 5400 亿参数转换器的模型,为它的 AI 聊天机器人Bard提供支持。该模型在多个TPU 4 Pod(谷歌为机器学习定制的硬件)上进行训练。Palm 擅长推理任务,例如编码、数学、分类和问答。Palm 还擅长将复杂任务分解为更简单的子任务。

PaLM 的名称源自 Google 的一项研究计划,该计划旨在构建 Pathways,最终创建一个单一模型,作为多种用例的基础。Palm 有多个经过微调的版本,包括用于生命科学和医疗信息的 Med-Palm 2 以及用于网络安全部署以加快威胁分析的 Sec-Palm。

Phi-1

Phi-1 是微软推出的一款基于 Transformer 的语言模型。Phi-1 仅包含 13 亿个参数,在一系列教科书级数据上训练了四天。Phi-1 是使用更高质量数据和合成数据进行训练的小型模型趋势的一个例子。

特斯拉前人工智能总监、OpenAI 员工 Andrej Karpathy 在推文中写道:“我们可能会看到更多富有创意的缩减工作量的做法:优先考虑数据质量和多样性而不是数量,生成更多的合成数据,以及小型但功能强大的专家模型。”

Phi-1 专注于Python编码,由于规模较小,通用能力较差。

StableLM

StableLM 是 Stability AI 开发的一系列开源语言模型,该公司是图像生成器 Stable Diffusion 的幕后推手。截至撰写本文时,已有 30 亿和 70 亿参数模型可用,150 亿、300 亿、650 亿和 1750 亿参数模型正在开发中。StableLM 的目标是透明、可访问且支持性强。

Vicuna 33B

Vicuna 是另一个有影响力的开源 LLM,源自 Llama。它由 LMSYS 开发,并使用 sharegpt.com 的数据进行了微调。根据几个基准测试,它比 GPT-4 更小、功能更弱,但对于其大小的模型来说,它表现不错。Vicuna 只有 330 亿个参数,而 GPT-4 有数万亿个参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707014.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

妙用OSGraph:发掘GitHub知识图谱上的开源故事

作者:范志东 1. 何为OSGraph? OSGraph (Open Source Graph) 是一个开源图谱关系洞察工具,基于GitHub开源数据全域图谱,实现开发者行为、项目社区生态的分析洞察。可以为开发者、项目Owner、开源布道师、社区运营等提供简洁直观的…

手机如何扫描拍照?方法分享

手机如何扫描拍照?在数字化时代,手机扫描拍照软件已经成为我们日常生活和工作中不可或缺的工具。无论是快速识别纸质文档,还是将照片中的文字转化为可编辑的文本,这些软件都为我们提供了极大的便利。然而,市面上的手机…

msvcp110.dll有什么解决方案,msvcp110.dll几种方法详细步骤教程

本文旨在探讨如何应对电脑出现 vcruntime140_1.dll 无法继续执行代码错误提示的问题。同时,将阐释该文件的作用,列举常见的错误问题,并提供一些在修复 vcruntime140_1.dll 时的注意事项,以避免在解决过程中引发其他问题。接下来&a…

【网络安全】【深度学习】【入侵检测】SDN模拟网络入侵攻击并检测,实时检测,深度学习【一】

文章目录 1. 前言2. Mininet 和 Ryu 的区别2.1 Mininet2.2 Ryu2.3 总结 3. 模拟攻击3.1 环境准备3.2 创建 Mininet 网络拓扑3.2 启动 Ryu 控制器3.3 模拟网络攻击3.4 捕获流量 4. 实时异常检测4.1 在 Ryu 控制器中4.2 在 h2 机器上的实验结果4.3 深度学习模型部署上h2机器 帮助…

如何获知lib cell的用途

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 除了databook可以查询cell的用途外,还可以通过在pr工具中获取lib cell属性的方法知晓其用途。 ICC2: report_attribute -app -class lib_cell SDFFXXX 通过看is_…

【大数据】计算引擎:Spark核心概念

目录 前言 1.什么是Spark 2.核心概念 2.1.Spark如何拉高计算性能 2.2.RDD 2.3.Stage 3.运行流程 前言 本文是作者大数据系列中的一文,专栏地址: https://blog.csdn.net/joker_zjn/category_12631789.html?spm1001.2014.3001.5482 该系列会成体…

【递归、搜索与回溯】综合练习一

综合练习一 1.找出所有子集的异或总和再求和2.全排列 II3.电话号码的字母组合4.括号生成 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1.找…

2024年【四川省安全员C证】免费试题及四川省安全员C证考试技巧

题库来源:安全生产模拟考试一点通公众号小程序 四川省安全员C证免费试题是安全生产模拟考试一点通总题库中生成的一套四川省安全员C证考试技巧,安全生产模拟考试一点通上四川省安全员C证作业手机同步练习。2024年【四川省安全员C证】免费试题及四川省安…

linux搭建sftp服务

1. 添加用户及用户组 使用 groupadd sftpgroup 添加sftpgroup 用户组; 使用useradd -G sftpgroup -s /sbin/nologin cmssftp给sftpgroup 添加cmssftp用户; 使用passwd cmssftp给用户cmssftp进行设置密码(默认为:654321)。具体如下图所示: 2.…

云原生Kubernetes系列项目实战-k8s集群+高可用负载均衡层+防火墙

一、Kubernetes 区域可采用 Kubeadm 方式进行安装: 名称主机部署服务master192.168.91.10docker、kubeadm、kubelet、kubectl、flannelnode01192.168.91.11docker、kubeadm、kubelet、kubectl、flannelnode02192.168.91.20docker、kubeadm、kubelet、kubectl、flan…

文心一言 VS 讯飞星火 VS chatgpt (280)-- 算法导论20.4 1题

一、假设 CONNECTED-COMPONENTS 作用于一个无向图 G(V,E),这里V{a,b,c,d,e,f,g,h,i,j,k},且 E 中的边以如下的顺序处理:(d…

在Lua解释器中注册自定义函数库

本文目录 1、引言2、注册原理3、实例4、程序验证 文章对应视频教程: 暂无,可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在现代软件开发中,Lua因其轻量级、高效和可嵌入性而被广泛使用。作为一种灵活的脚本语言…

使用uniapp设置tabbar的角标和移除tabbar的角标

使用场景描述 在一进入到小程序的时候就要将用户在购物车中添加的商品总数&#xff0c;要以角标的形式显示在tababr中。 代码实现 //index.vue<script setup> import { onLoad } from dcloudio/uni-apponLoad(()>{uni.setTabBarBadge({index: 1,text: 5 //为了实现…

电商开发者必读:微店商品详情API接口全解析

微店作为一个流行的电商平台&#xff0c;提供了丰富的API接口供开发者使用。详细介绍商品详情API接口的使用方法&#xff0c;帮助开发者快速获取商品信息&#xff0c;实现商品信息的自动化展示和管理。 1. 接口简介 微店商品详情API接口允许开发者通过商品ID获取商品的详细信…

如何使用 Midjourney换脸,将一个人面部复制并粘贴到任意人身上

嘿&#xff0c;想不想将一个人的面部随意粘贴到任意人身上&#xff1f;现在开始教学如何使用 Discord 中的Midjourney Bot 实现&#xff0c;这就是“COPY A FACE”这个超酷的功能&#xff0c;它能帮你一键把脸贴到任何图片上。用到的是一个叫“InsightFace”的开源Discord机器人…

防止数据泄露的软件哪家强?四款防泄密软件助您安心守护企业机密

在信息化时代&#xff0c;企业数据安全成为了关乎生死存亡的关键因素。 数据泄露事件频发&#xff0c;选择一款高效可靠的防泄密软件变得尤为重要。 以下是六款市场上备受推崇的防泄密软件&#xff0c;它们以各自的优势为企业数据安全保驾护航。 1. 域智盾软件 软件以其全面…

Threejs-09、贴图的加载与环境遮蔽强度设置

1、创建文理加载器 let textureLoader new THREE.TextureLoader();2、加载贴图 // 加载文理 let texture textureLoader.load("./img/image.png") // 加载ao贴图 let aoMap textureLoader.load("./img/image.png");3、创建一个平面 let planeGeomet…

预告|博睿数据将受邀出席GOPS全球运维大会北京站!

GOPS全球运维大会作为国内外运维领域最具影响力的技术盛会之一&#xff0c;旨在汇聚全球运维精英&#xff0c;分享运维领域的前沿技术、实践经验与创新理念。6月28日&#xff0c;博睿数据&#xff08;bonree.com&#xff0c;股票代码688229&#xff09;将受邀出席第二十三届 GO…

cdh中的zookeeper怎么配置zoo.cfg

你手动改了zoo.cfg目录是不会生效的&#xff0c;因为是cdh在管控&#xff0c;所以只能通过cdh修改。 首先打开cdh。 xxx:7180 点击zookeeper 选配置&#xff0c;然后选高级 在右边找&#xff0c;有一个就是zoo.cfg&#xff0c;可以点击右边的感叹号。然后在里面编辑的就会直…

ChatGPT中文镜像网站分享

ChatGPT 是什么&#xff1f; ChatGPT 是 OpenAI 开发的一款基于生成预训练变换器&#xff08;GPT&#xff09;架构的大型语言模型。主要通过机器学习生成文本&#xff0c;能够执行包括问答、文章撰写、翻译等多种文本生成任务。截至 2023 年初&#xff0c;ChatGPT 的月活跃用户…