2024年度最佳大型语言模型(LLMs)汇总

大型语言模型(LLMs)是人工智能文本处理的主要类型,也现在最流行的人工智能应用形态。ChatGPT是迄今为止最著名的使用LLM的工具,它由OpenAI的GPT模型的特别调整版本提供动力。但还有许多其他聊天机器人和文本生成器,包括从Google Bard和Anthropic的Claude到Writesonic和Jasper,它们都是建立在LLMs之上的。

自2010年代末以来,众多的LLM一直在研究实验室中酝酿,如果不是ChatGPT的出现,它们可能还会继续待在实验室里孤芳自赏,但在ChatGPT发布并展示出色实力后,它们也冲出实验室,进入了现实世界。 有些 LLM 已经开发了多年,有些则迅速发展起来以赶上最新的炒作周期,还有更多的是开源研究工具。

2024年最佳LLMs

目前大概有几十个主要的LLMs,还有数百个由于某种原因而具有争议的,将它们全部列出几乎是不可能的,而且无论如何,由于LLMs的发展速度很快,它可能会在几天内过时。

对于“最佳”这个词,我们不妨持保留态度:我已经试图通过提供一个最重要、最有趣和最流行的 LLM(和 LMM)列表来缩小范围,而不一定是那些在基准测试中表现优异的(尽管其中大多数是这样)。 我还主要关注您可以使用的 LLM,而不是那些超级有趣的研究论文的主题,因为我们喜欢在这里保持实用性。

在开始之前还有最后一件事:很多人工智能应用都没有列出它们所依赖的LLM。有些我们可以猜测,或者从他们的营销材料中可以清楚地看出,但对于大多数应用,我们只是不知道。这就是为什么你会在下面的表格中看到“未披露”——这只是意味着我们不知道任何使用LLM的主要应用,尽管可能有一些应用使用了它。

LLM

开发者

热门应用

参数数量

访问方式

GPT

OpenAI

Microsoft, Duolingo, Stripe, Zapier, Dropbox, ChatGPT

175 billion+

API

Gemini

Google

Some queries on Bard 

Nano: 1.8 & 3.25 billion; others unknown

API

PaLM 2

Google

Google Bard, Docs, Gmail, and other Google apps

340 billion

API

Llama 2

Meta

未披露

7, 13, and 70 billion

Open source

Vicuna

LMSYS Org

Chatbot Arena

7, 13, and 33 billion

Open source

Claude 2

Anthropic

Slack, Notion, Zoom

Unknown

API

Stable Beluga

Stability AI

未披露

7, 13, and 70 billion

Open source

StableLM

Stability

未披露

7, 13, and 70 billion

Open source

Coral

Cohere

HyperWrite, Jasper, Notion, LongShot

未知

API

Falcon

Technology Innovation Institute

未披露

1.3, 7.5, 40, and 180 billion

Open source

MPT

Mosaic

未披露

7 and 30 billion

Open source

Mixtral 8x7B

Mistral AI

未披露

46.7 billion

Open source

XGen-7B

SalesforceSalesforce

未披露

7 billion

Open source

Grok

xAI

Grok Chatbot

未知

聊天机器人


什么是LLM?

LLM,或大型语言模型,是一种通用的人工智能文本生成器,是所有人工智能聊天机器人和人工智能写作生成器的后台系统。

LLMs具有超级的自动完成能力。除去花哨的界面和其他变通方法,他们所做的更本任务是接受一个提示,并使用一串貌似合理的后续文本生成一个答案。建立在LLMs之上的聊天机器人不会寻找关键词,以便他们可以用固定答案回答,相反,他们会尽最大努力理解被问到的问题,并适当地回答。

这就是LLM真正厉害的原因:相同的模型(有或没有一点额外的培训)可以用来回答客户的询问,撰写营销材料,总结会议记录,以及做很多其他的事情。

LLMs是如何工作的?

早期的LLM,比如GPT-1,在生成几句话后就会崩溃,开始生成无意义的句子,但如今的LLM,比如GPT-4,可以生成数千个有意义的单词。

为了达到这个目的,LLMs在巨大的语料库上进行了训练。不同的LLM之间的细节略有不同,这取决于开发人员在充分获得他们正在使用的材料的权利方面有多仔细,但作为一般规则,你可以假设他们在相当于整个公共互联网和每本已出版的主要书籍上进行了训练。这就是为什么LLMs可以生成在如此广泛的主题上听起来如此权威的文本。

从这些训练数据中,LLM能够使用高维向量来模拟不同单词(或者实际上是单词的一部分,称为标记)之间的关系。这是所有事情变得非常复杂和数学化的地方,但基本原理是每个单独的标记都有一个唯一的ID,相似的概念被分组在一起。然后,这被用来生成一个神经网络,一种基于人脑工作方式的多层算法,这是每个LLM的核心。

神经网络有一个输入层,一个输出层和多个隐藏层,每个隐藏层都有多个节点。正是这些节点计算了输入之后应该出现什么单词,不同的节点有不同的权重。例如,如果输入字符串包含单词“Apple”,神经网络将不得不决定接下来应该出现“Mac”或“iPad”之类的单词,或者“pie”或“crumble”之类的单词,或者完全是其他的单词。当我们谈论LLM有多少参数时,我们基本上是在比较底层神经网络中有多少层和节点。一般来说,节点越多,模型能够理解和生成的文本就越复杂。

当然,在开放的互联网上训练的人工智能模型几乎没有方向,听起来就像噩梦一样。它可能也不会非常有用,所以在这一点上,LLMs进行了进一步的培训和微调,以引导它们生成安全和有用的响应。其中一个主要的工作方式是通过调整不同节点的权重,尽管还有其他方面。

Infographic showing how natural language processing works

所有这些都是说,虽然LLMs是黑盒子,但它们内部发生的事情并不神奇。一旦你对它们的工作方式有了一点了解,就很容易理解为什么它们如此擅长回答某些类型的问题。这也很容易理解为什么它们倾向于编造(或产生幻觉)随机的事情。

LLMs可以用于什么?

LLM 之所以强大,主要是因为它们能够被推广到许多不同的情境和用途。相同的核心 LLM(有时稍微调整一下)可以用于完成许多不同的任务。虽然它们所做的一切都是基于生成文本,但它们被提示执行任务的具体方式会改变它们所具有的特性。

以下是LLMs通常用于的一些任务:

  • 通用聊天机器人(如ChatGPT和Google Bard)
  • 根据您的业务文档和数据进行培训的客户服务聊天机器人
  • 将文本从一种语言翻译成另一种语言
  • 将文本转换为计算机代码或将一种语言转换为另一种语言。
  • 生成社交媒体帖子、博客文章和其他营销文案
  • 情绪分析
  • 调节内容
  • 校对和编辑写作
  • 数据分析

还有成百上千的其他事情,我们还只是处在当前人工智能革命的早期。

但也有许多LLMs做不到的事情,但其他类AI模型可以做到。

  • 解释图片
  • 生成图像
  • 在不同格式之间转换文件
  • 在网上搜索
  • 执行数学和其他逻辑操作

当然,有些LLM和聊天机器人可以做这些事情,但在大多数情况下,会有另一个AI服务介入协助,当一个模型处理几种不同类型的输入时,它实际上不再被认为是一个大型模型,而是成为一个叫做多模态大型模型(large multimodal model)的东西(尽管在某种程度上,它只是语义)。

有了这些背景知识,让我们转向 LLM 本身。

2024年最佳LLMs

GPT

OpenAI Playground with a modified system prompt.

  • 开发人员:OpenAI
  • 参数:超过1750亿
  • 访问:API

OpenAI的生成式预训练Transformer(GPT)模型开启了最新的人工智能炒作周期。目前有两个主要模型:GPT-3.5-turbo和GPT-4。GPT是一个带有API的通用LLM,它被各种各样的公司使用,包括微软、Duolingo、Stripe、Descript、Dropbox和Zapier,为无数不同的工具提供动力。不过,ChatGPT可能是其能力最受欢迎的演示。

你也可以将Zapier连接到GPT或ChatGPT,这样你就可以直接从技术栈中的其他应用程序中使用GPT。这里有更多关于如何自动化ChatGPT的信息,或者你可以从这些预制工作流之一开始。

Gemini
  • 开发人员:谷歌
  • 参数:Nano有18亿和32.5亿版本,其他未知
  • 访问:API

谷歌Gemini是谷歌的人工智能模型家族。三个模型-Gemini Nano,Gemini Pro和Gemini Ultra-旨在不同设备上运行,从智能手机到专用服务器。虽然能够生成像LLM一样的文本,但Gemini模型也能够处理图像、音频、视频、代码和其他类型的信息。

Gemini Pro现在为谷歌聊天机器人Bard的一些查询提供动力,并通过谷歌AI Studio或Vertex AI向开发人员提供。Gemini Nano和Ultra将于2024年推出。

PaLM 2

Bard, the best ChatGPT alternative for connecting to Google apps

  • 开发人员:谷歌
  • 参数:3400亿
  • 访问:API

PaLM 2是谷歌的LLM,专为自然语言任务设计,支持Google Bard上的大多数查询,以及谷歌在Docs和Gmail等应用程序中的许多其他AI功能。

Llama 2

Using Llama 2 with Llama Chat

  • Meta 开发人员:元
  • 参数:70亿、130亿和700亿
  • 访问:开源

Llama 2是Meta(Facebook和Instagram的母公司)的一个开源LLM系列,它是最流行和最强大的开源LLM之一,你可以从Github上下载源代码,因为它对研究和商业用途是免费的,许多其他的LLM都以Llama 2为基础。

Vicuna
  • 开发人员:LMSYS Org
  • -参数:70亿、130亿和330亿
  • -访问:开源

Vicuna是一个基于Meta的Llama LLM构建的开源聊天机器人,它被广泛用于人工智能研究,并作为Chatbot Arena的一部分,Chatbot Arena是由LMSYS运营的聊天机器人基准。

Claude 2

Claude, the best AI chatbot with a long conversation history

  • 开发人员:Anthropic 
  • 参数:未知
  • 访问:API

Claude 2可以说是GPT最重要的竞争对手之一。它旨在为企业客户提供有用、诚实、无害和关键的安全使用。因此,Slack、Notion和Zoom等公司都与Anthropic合作。

与所有其他专有LLM一样, Claude 2只能作为API提供,尽管它可以根据您的数据进行进一步培训,并根据您的需要进行微调。您还可以将Claude连接到Zapier,以便从所有其他应用程序中自动执行Claude 。以下是一些预制的工作流,以帮助您开始。

Stable Beluga and StableLM
  • 开发人员:Stability AI
  • 参数:70亿、130亿和700亿
  • 访问:开源

Stability AI是Stable Diffusion背后的团队,它是最好的AI图像生成器之一,他们还发布了几个基于Llama的开源LLM,包括Stable Beluga和StableLM,尽管它们远不及图像生成器受欢迎。

Coral
  • 开发人员:Cohere
  • 参数:未知
  • 访问:API

与Claude 2一样,Cohere的Coral LLM是为企业用户设计的。它同样提供了一个API,并允许组织在其自己的数据上训练模型的版本,以便能够准确地回答客户的查询。

Falcon
  • Developer: Technology Innovation Institute开发商:技术创新研究所
  • 参数:13亿、75亿、400亿和1800亿
  • 访问:开源

Falcon是一个开源的LLM家族,在各种AI基准测试中表现良好。它拥有高达1800亿个参数的模型,并在某些任务中优于PaLM 2、Llama 2和GPT-3.5。它在允许的Apache 2.0许可下发布,因此适合商业和研究用途。

MPT
  • 开发人员:
  • 参数:70亿、300亿
  • 访问:开源

Mosaic的MPT-7B和MPT-30B LLM是两个更强大、更受欢迎、更商业化的LLM。有趣的是,它们不是建立在Meta的Llama模型之上,与许多其他开源模型不同。MPT-30B的性能优于原始的GPT-3,并以Apache 2.0许可证发布,就像Falcon一样。有几个不同的版本可供选择,对聊天等进行微调,最有趣的是,一个7B版本的微调用于生成长篇小说。

Mixtral 8x7B
  • 开发人员:Mistral
  • 参数:467亿
  • 访问:开源

Mistral的Mixtral 8x7B使用一系列子系统来有效地超越更大的模型.尽管有显著更少的参数(因此能够运行得更快或在更弱的硬件上),它能够超越Llama-70B并匹配或击败GPT-3.5.它也是在Apache 2.0许可下发布的.

XGen-7B
  • 开发商人员:Salesforce
  • 参数:70亿
  • 访问:开源

Salesforce的XGen-7B并不是一个特别强大或流行的开源模型,它的性能与其他拥有70亿个参数的开源模型差不多。但我仍然认为它值得包括在内,因为它突出了有多少大型科技公司拥有人工智能和机器学习部门,可以开发和推出自己的LLM。

Grok
  • 开发人员:xAI
  • 参数:未知
  • 访问:聊天机器人

Grok,一个根据X(前身为Twitter)的数据训练的聊天机器人,并不真正能凭借自身的优点在这个列表上占据一席之地,因为它还没有被广泛使用,也不是特别好。尽管如此,我在这里列出它是因为它是由埃隆·马斯克(Elon Musk)创办的人工智能公司xAI开发的。虽然它可能不会在人工智能领域掀起波澜,但它仍然得到了大量的媒体报道,所以它的存在值得知道。

为什么会有这么多的LLMs?

直到一两年前,LLM还局限于研究实验室和人工智能会议的技术演示。现在,它们为无数的应用程序和聊天机器人提供动力,并且有数百种不同的模型可供您自己运行(如果您有计算机技能)。我们是如何走到这一步的?

有几个因素在起作用。其中一些主要的因素是:

  • 通过GPT-3和ChatGPT,OpenAI证明了人工智能研究已经达到了可以用来构建实用工具的地步,因此许多其他公司也开始这样做。
  • LLM需要大量的计算能力来训练,但基于现有的算力能力,通常可以在几周或几个月内完成。
  • 有很多开源模型可以重新训练或适应新模型,而无需开发一个全新的模型。
  • 人工智能公司投入了大量资金,因此对于任何拥有技能和知识的人来说,都有很大的激励来开发任何类型的LLM来这样做。

未来LLMs的期望是什么

我认为在不久的将来,我们将看到更多的LLM,特别是来自大型科技公司。亚马逊、IBM、英特尔和NVIDIA都在开发、测试或提供给客户使用的LLM。它们不像我上面列出的模型那么热门,普通人也不太可能直接使用它们,但我认为,期待大型企业开始广泛部署它们是合理的。

我还认为,我们将看到更多高效的LLM,专门用于智能手机和其他轻量级设备。谷歌已经在Gemini Nano上暗示了这一点,它在Google Pixel Pro 8上运行了一些功能。Mistral的Mixtral 8x7B等开发表明,一些技术使小型LLM能够与大型LLM有效竞争。

另一个即将到来的大事是大型多模态模型(large multimodal models or LMMs 即 LMMs)。这些模型将文本生成与其他模态相结合,如图像和音频,因此您可以询问聊天机器人在图像中发生了什么,或者让它用音频回答。GPT-4 Vision(GPT-4V)和谷歌的Gemini模型是第一个可能被广泛部署的LMM中的两个,但我们肯定会看到更多。

三年前,我绝对不认为我们会有像ChatGPT这样强大的人工智能,也许几年后,我们会有通用人工智能(AGI)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/468352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

机器学习_正则化

文章目录 代价函数 如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。 下图是一个回归问题的例子: 第一个模型是一个线性模型&#xf…

Anaconda下载以前的旧版本

由于Anaconda新的版本,可能不太适合我们当前开发,我们需要下载历史版本 访问Anaconda官网的历史版本下载页面: https://repo.anaconda.com/archive/

PostgreSQL开发与实战(7)多版本并发控制1

作者:太阳 一、 表系统字段几个比较重要概念 1.1 tuple tuple表示表中的数据行,在MySQL中用row表示。 在表数据页中,主要分为普通的数据元祖和TOAST元祖。以下是一个普通数据元祖的结构,主要由三部分组成:HeapTupl…

如何进行软件安全性测试?CMA、CNAS软件安全测试报告获取

软件安全性测试是保障软件应用安全的重要手段,通过对软件系统的安全性进行全面评估和检测,以确保软件能够抵御各种潜在的安全威胁和风险。那么如何进行软件安全性测试?CMA、CNAS软件安全测试报告又该如何获取呢? 软件安全性测试是一种基于黑盒测试的方…

数据可视化-ECharts Html项目实战(3)

在之前的文章中,我们学习了如何创建堆积折线图,饼图以及较难的瀑布图并更改图标标题。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。 …

C#类型转换

C#类型转换 隐式类型转换 类型转换从根本上说是类型铸造,或者说是把数据从一种类型转换为另一种类型。在 C# 中,类型铸造有两种形式: 隐式类型转换 - 这些转换是 C# 默认的以安全方式进行的转换, 不会导致数据丢失。例如,从小的…

深入理解与实践AB测试:从理论到实战案例解析

一、引言 在互联网产品优化和运营策略制定中,AB测试(也称为分组测试或随机化对照实验)是一种科学且严谨的方法。它通过将用户群体随机分配至不同的实验组(通常是A组和B组),对比不同版本的产品或策略对关键…

CMake+vcpkg+VS2022配置github上的cmake开源项目外部库

我们以采用 GitHub 上的开源库 cuda-bundle-adjustment 为例,其不能直接用vcpkg进行安装,只能通过cmake编译后链接到VS2022。 将 cuda-bundle-adjustment 库通过 CMake 编译链接到 Visual Studio 2022 步骤操作: 克隆存储库:使用…

【实验01 扩展实验】C#桌面项目:简易计算器

【实验要求】 (1)新建一个C#桌面项目Calc,实现简易计算器功能,界面如图1所示。 (2)计算方式:通过点击对应的按钮,输入第1个数(可以是整数或实数)&#xff0c…

呵护地球不止一小时 食品行业如何为地球减负

“关爱地球,熄灯一小时”。作为全世界规模最大的应对气候变化行动之一,“地球一小时”自2007年进入中国以来,一直广受关注,社会各界竞相支持并参与。2024年,该活动以“为地球献出一小时”为主题,呼吁社会各界以实际行动为地球减负。 作为与大众日常生活息息相关的食品企业该如何…

【C++】堆区空间的申请和释放--- 2024.3.19

目录 C和C的区别(申请堆区空间)C中的new和delete结束语 C和C的区别(申请堆区空间) 在c语言中,在遇到需要申请一块堆区空间时,我们往往会使用malloc申请,使用free进行释放,但是为什么…

BUUCTF-Ezsql1

1.打开靶机 打开第一个链接 2.万能密码 使用万能密码:a or 1 # 密码为随意 第二个用kali打开 3.ssh连接靶机 ssh ctf284490d0-7600-4c65-9160-5ced02f45633.node5.buuoj.cn -p 28191 由题可知密码为123456 4.找到并修改index.php文件 找到index.php文件 #内容如…

Trait与生命周期

原文链接:(*∇`*) 咦,又好了~ Rust – xiaocr_bloghttp://www.xiaocr.fun/index.php/2024/03/18/trait%E4%B8%8E%E7%94%9F%E5%91%BD%E5%91%A8%E6%9C%9F/ 目录 Trait 定义trait 默认实现 trait作为参数 Trait Bound语法 通过指定多个 trait bound …

【C++】内存管理和模板基础(new、delete、类及函数模板)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:http://t.csdnimg.cn/eCa5z 目录 内存分布 C内存管理方式 new/delete操作内置类型 new和delete操作自定义类型 operator new与operator d…

Cesium:绘制一个 3DTiles 对象的外包盒顶点

作者:CSDN @ _乐多_ 本文将介绍如何使用 Cesium 引擎根据模型的中心坐标,半轴信息,绘制一个 3DTiles 对象的外包盒顶点。 外包盒是一个定向包围盒(Oriented Bounding Box),它由一个中心点(center)和一个包含半轴(halfAxes)组成。半轴由一个3x3的矩阵表示,这个矩阵…

Apache Dolphinscheduler - 无需重启 Master-Server 停止疯狂刷日志解决方案

记录的是一个 3.0 比较难搞的问题,相信不少使用过 3.0 的用户都遇到过 Master 服务中存在一些工作流或者任务流一直不停的死循环的问题,导致疯狂刷日志。不过本人到现在也没找到最关键的触发原因,只是看到一些连锁反应带来的结果…… 影响因素…

qmldir的理解

目录结构: 文件内容 qmldir中: module QtLocaion plugin declarative_location classname QtLocationDeclarativeModule typeinfo plugins.qmltypes 其中: QtLocaion必须与qmldir所在的文件夹名字一样 plugin 后面的declarative_location 为…

SHELL——条件判断语句练习

目录 一、练习题目 二、解答过程 1、判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检查次磁盘剩余空间。 安装邮件服务 配置邮件服务 编写脚本work1.sh 添加计划任务 2、判断web服务是否运行:…

项目中遇到的sql问题记录

有一张表,表结构及数据如下: INSERT INTO test.test_approve(approve_no, tra_date, tablename, part_dt) VALUES (approve001, 2021-02-18 00:00:00, tableA, 2024-03-18); INSERT INTO test.test_approve(approve_no, tra_date, tablename, part_dt) …

【Linux】日常使用命令(三)

文章目录 **cal 命令****date 命令****bc 命令****Linux下玩小游戏**: cal 命令 功能描述: cal 命令用于显示日历。 常用选项: -3:显示前一个月、当前月和下一个月的日历。-y:显示整年的日历。 常用示例: # 示例 1: 显示当前月的日历 cal# …