最流行的开源 LLM (大语言模型)整理

本文对国内外公司、科研机构等组织开源的 LLM 进行了全面的整理。

Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。

所谓"语言模型",就是只用来处理语言文字(或者符号体系)的 AI 模型,发现其中的规律,可以根据提示 (prompt),自动生成符合这些规律的内容。

LLM 通常基于神经网络模型,使用大规模的语料库进行训练,比如使用互联网上的海量文本数据。这些模型通常拥有数十亿到数万亿个参数,能够处理各种自然语言处理任务,如自然语言生成、文本分类、文本摘要、机器翻译、语音识别等。

LLaMA


由 Meta(Facebook)公司发布,是一套优秀的预训练模型,现在很多LLM都是基于此模型。
此模型的特点是参数体量小(7billion/13billion/33billion/65billion),而训练token多(1.2Trillion),并且仅使用公开可用的数据集进行训练。
参数小使得模型可用较少的资源就可以完成相关的微调和使用,从而推动了 alpaca 等模型的诞生。
各模型在“常识推理”任务中的零样本(Zero-shot)性能表现:

LLaMA :https://github.com/facebookresearch/llama

Alpaca


斯坦福团队基于上面的 LLaMA 7B 和 Text-davinci-003 训练得来,过程如下:

可以看到, Alpaca 在 LLaMA 的基础上仅仅使用了 Self-Instruct 框架和Text-davinci-003 训练出来的 52k 数据,就训练出了处理一个优秀的模型,这里可以极大的体现出指令微调的威力(fine-tuned)。
Alpaca:https://crfm.stanford.edu/2023/03/13/alpaca.html

Self-Instruct


Self-Instruct 非常优秀,这里也专门介绍一下:它使用了几乎不需要人工标注的方法,实现了预训练语言模型与指令对齐。它很好的解决 ChatGPT 三步训练中两步需要人工参与的问题,这就大大降低了门槛。
ChatGPT 三步如下图:


这里简单介绍下Self-Instruct的过程:
1. 初始设定一个手动编写的指令任务的种子池(比如 175 个),用于指导整个生成。
2. 提示模型生成新任务的指令(取随机 8 条指令用来提示,如果有新的指令已加入池子,其中 2 条会取非初始种子池中的指令)
3. 任务分类
4. 提示模型为新任务生成指令
5. 过滤掉重复(0.7 关联度以上)和无效(包含图片等不合适的),合格的加入任务池
6. 多次重复以上过程

Self-Instruct :《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》https://arxiv.org/pdf/2212.10560.pdf

Vicuna


Vicuna是伯克利主导的团队训练出来的模型,基于 Alpaca 发展而来。从当前来看,可能是开源里和ChatGPT最接近(上面有提到当前在Arena 评测上分数排名第一),而 13b 版本训练成本仅 300 刀。
团队训练的数据集主要是来从自http://ShareGPT.com 上爬取用户分享的对话,并过滤掉不合适的和低质量的,最后留下了大概 70K 对话样本;然后增强了 Alpaca 提供的训练脚本,有针对性的加强了多轮对话和长序列。
下图是他们的项目过程(数据、训练、demo 服务、效果评价):


其中效果评价部分,团队是将每个模型的输出组合成每个问题的单个提示,将提示发送到 GPT-4,由 GPT-4 评估哪个模型提供更好的响应。
下图是团队总结的几个模型的对比情况:

Mini GPT-4


由沙特大学推出的支持视觉信息的多模态 LLM,主要是基于BLIP-2+上文提到的Vicuma+一层映射层。
团队在 4 张 A100 上基于 5 百万对齐的【图片-文本对】数据训练了 10 个小时,然后团队再用模型本身和 chatgpt 结合起来去训练了 3500 对高质量的【图片-文本对】数据,然后在单 A100 上进行了 7 分钟的微调(finetuning )。

此模型可以在线使用体验,也可以自行部署,相关数据集都已经开源,根据实操经验,在云服务上进行部署消耗并不大,主要时间花费是下载(几十 G 数据)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/21346.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于DBSCAN密度聚类的风电-负荷场景削减方法

​目录 ​ 1 主要内容 基于密度聚类的数据预处理: 场景提取: 算法流程: 2 部分程序 3 程序结果 4 下载链接 1 主要内容 该程序复现文章《氢能支撑的风-燃气耦合低碳微网容量优化配置研究》第三章内容,实现的是基于DBSCAN…

八股文大全

八股文大全 1. 基础篇1.1 网络基础1.1.1 TCP 三次握手1.1.2 TCP四次挥手![在这里插入图片描述](https://img-blog.csdnimg.cn/90a6997e8d414c84b499167c99da0397.png)1.1.3 TCP常见面试题 1. 基础篇 1.1 网络基础 1.1.1 TCP 三次握手 三次握手过程: 客户端——发…

开心档之MySQL 数据类型

目录 MySQL 数据类型 数值类型 日期和时间类型 字符串类型 MySQL 中定义数据字段的类型对你数据库的优化是非常重要的。 MySQL 支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。 数值类型 MySQL 支持所有标准 SQL 数值数据类型…

【信息安全案例】——信息内容安全(学习笔记)

📖 前言:在数字化时代,信息内容安全问题越来越引起人们的关注。信息内容安全主要包括对数据的机密性、完整性和可用性的保护,以及对用户隐私的保护等方面。针对信息内容安全的威胁,采取科学有效的安全措施和技术手段至…

面试京东失败,再看看2年前的面试题,根本不是一个难度···

刚从京东走出来,被二面难到了,我记得学长两年前去面试的时候,问的问题都特别简单,咋现在难度高了这么多。面试前我也刷过很多的题和看过很多资料,后来想想,这年头网上资料泛滥,测试面试文档更是…

从零玩转设计模式之外观模式-waiguanmos

title: 从零玩转设计模式之外观模式 date: 2022-12-12 15:49:05.322 updated: 2022-12-23 15:34:40.394 url: https://www.yby6.com/archives/waiguanmos categories: - 设计模式 tags: - 设计模式 什么是外观模式 外观模式是一种软件设计模式,它提供了一种将多个…

FastAPI 的路由介绍及使用

上一篇文章中,我介绍了 FastAPI 框架的安装和 HelloWorld 项目搭建方式。本文将介绍如何使用 Router 路由处理 FastAPI 中的请求。 什么是路由 路由 Router 就像是一个流水线上的线长,协调生产,下达命令给不同的组长进行分工,然…

Android实例——拼图游戏

拼图游戏 项目简介权限adapterPictureListAdapterPuzzleAdapter beanItemBean PresenterIPuzzlePresenterPuzzlePresenterImpl uiIGameCallback utilsConstantImagesUtilsScreenUtils ViewMainActivityPuzzleActivity 布局activity_main.xmlactivity_puzzle.xml 项目简介 选择…

手写西瓜书bp神经网络 mnist10 c#版本

本文根据西瓜书第五章中给出的公式编写,书中给出了全连接神经网络的实现逻辑,本文在此基础上编写了Mnist10手写10个数字的案例,网上也有一些其他手写的例子参考。demo使用unity进行编写,方便且易于查错。 该案例仅作为学习&#x…

ROS学习(1)——ROS1和ROS2的区别

因为机器人是一个系统工程,它包括了机械臂结构,电子电路,驱动程序,通信框架,组装集成,调试和各种感知决策算法等方面,任何一个人甚至是一个公司都不可能完成机器人系统的研发工作 。但是我们又希…

TMP的阴影性能如何

1)TMP的阴影性能如何 ​2)CommandBuffer.DrawMeshInstanced无法画阴影问题 3)Unity编辑器在Require大量加载Lua文件时,经常报出not enough memory 4)场景制作的时候,2D资源受后处理调色影响比较大 这是第33…

数据结构:栈和队列

朋友们、伙计们,我们又见面了,本期来给大家解读一下栈和队列方面的相关知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精通…

面试了一个00后,绝对能称为是内卷届的天花板

前言 公司前段缺人,也面了不少测试,结果竟然没有一个合适的。一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资也不低,面试的人很多,但平均水平很让人失望。令我印象最深的是一个00后测试员&#xf…

期刊介绍|骨科老牌期刊,无版面费,审稿极速,毕业不二之选!

今天给大家介绍一本中药方面的期刊:JOURNAL OF ORTHOPAEDIC RESEARCH 一、基本信息 1、期刊名称:JOURNAL OF ORTHOPAEDIC RESEARCH; 2、期刊ISSN: 0736-0266; 3、研究方向:医学-整形外科; 4、出版社&#x…

Maven多环境配置与使用、跳过测试的三种方法

文章目录 1 多环境开发步骤1:父工程配置多个环境,并指定默认激活环境步骤2:执行安装查看env_dep环境是否生效步骤3:切换默认环境为生产环境步骤4:执行安装并查看env_pro环境是否生效步骤5:命令行实现环境切换步骤6:执行安装并查看env_test环境是否生效 2 跳过测试方式1:IDEA工具…

(转载)从0开始学matlab(第9天)—第一阶段总结

1.编程实例 下面的例子将向大家介绍如何用 MATLAB 解决问题。 例1 温度转换程序 问题: 设计一个 MATLAB 程序,读取一个华氏温度的输入,输出开尔文温度。 答案: 华氏温度和开尔文温度的转换关系式可在物理学课本中找到。其关系式…

JVM面试题(一)

JVM内存分哪几个区,每个区的作用是什么? java虚拟机主要分为以下几个区: JVM中方法区和堆空间是线程共享的,而虚拟机栈、本地方法栈、程序计数器是线程独享的。 (1)方法区: a. 有时候也成为永久代,在该区内…

电极法测污水常规五参数(PH、电导率、溶解氧、温度、浊度)

检测水质常规五参数的意义: pH:地表水水质中pH值的变化会影响藻类对氧气的摄入能力及动物对食物的摄取敏感度; 电导率:主要是测水的导电性,监测水体中总的离子浓度。包含了各种化学物质、重金属、杂质等等各种导电性物…

低代码,或将颠覆开发行业?

前言 传统的软件开发过程往往需要耗费大量的时间和精力,因为开发人员需编写复杂的代码以完成各种功能。 低代码行业的发展,正好解决了这个问题,让复杂的代码编写一去不复返了。 文章目录 前言引入强大的平台总结 引入 低代码平台 是一种通过可…

超级独角兽 Databricks 的崛起之路

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。 然而,他…