2023年发布的25个开源大型语言模型总结

大型语言模型(llm)是一种人工智能(AI),在大量文本和代码数据集上进行训练。它们可以用于各种任务,包括生成文本、翻译语言和编写不同类型的创意内容。

今年开始,人们对开源LLM越来越感兴趣。这些模型是在开源许可下发布的,这意味着任何人都可以使用、修改和分发它们。这使得研究人员、开发人员和企业都可以尝试LLM,并为它们开发新的应用程序。

使用开源llm有很多好处。首先它们通常比专业的LLM更价便宜。并且它们更加透明,这意味着研究人员可以研究它们是如何工作的以及它们是如何做出决定的。最主要的是它们更加灵活,可以针对不同的任务进行定制。

本文总结了当前可用的开源llm的全部(几乎全部)列表,以及有关其许可选项和源代码存储库的信息,希望对你有所帮助

SAIL 7B

基于LLaMa的搜索增强

参数: 7B

许可类型: GPL-3.0

发布日期: 2023年5月

论文: SAIL — Search Augmented Instruction Learning

Guanaco

采用高效微调方法QLoRA发布的LLM模型

参数: 65B

许可类型: MIT

发布日期: 2023年5月

论文: QLoRA — Efficient Finetuning of Quantized LLMs

RMKV

与transformer的LLM性能相当的RNN模型

参数: 100M–14B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Scaling RNN to 1.5B and Reach Transformer LM Performance

MPT-7B

MosaicML的基础系列模型

参数: 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: MPT-7B — A New Standard for Open-Source, Commercially Usable LLMs

OpenLLaMa

在RedPajama数据集上训练的Meta AI的LLaMA 7B的另一个开源复制。

参数:3,7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Meet OpenLLaMA — An Open-Source Reproduction of Meta AI’s LLaMA Large Language Model

RedPajama-INCITE

基于RedPajama数据集上训练的指令调整和聊天Pythia模型。

参数:3B, 7B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: RedPajama-INCITE family of models including base, instruction-tuned & chat models

h2oGPT

H2O的微调框架和文档问答功能的聊天机器人UI

参数:12B,30B

许可类型:Apache 2.0

发布日期: 2023年5月

论文: Building the World’s Best Open-Source Large Language Model: H2O.ai’s Journey

FastChat-T5

通过微调Flan-t5-xl对从ShareGPT收集的用户共享对话进行训练的聊天机器人

参数:3B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: FastChat-T5 — our compact and commercial-friendly chatbot!

GPT4All

用于训练和部署强大的定制llm的完整工具系统

参数:7–13B

许可类型:MIT

发布日期: 2023年4月

论文: GPT4All: An ecosystem of open-source on-edge large language models.

MiniGPT-4

基于BLIP-2和Vicuna LLM的Visual LLM模型

参数:13B

许可类型:BSD-3-Clause

发布日期: 2023年4月

论文: MiniGPT-4 — Enhancing Vision-Language Understanding withAdvanced Large Language Models

StableLM

StableLM的LLM模型系列

参数:7B

许可类型:CC BY-NC-SA-4.0

发布日期: 2023年4月

论文: Stability AI Launches the First of its StableLM Suite of Language Models

BloomZ

通过多任务微调实现跨语言泛化

参数:176B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Cross-lingual Generalization through Multitask Finetuning

Dolly

Pythia 12B LLM在Databricks ML平台上训练的模型

参数:12B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Free Dolly — Introducing the World’s First Truly Open Instruction-Tuned LLM

Baize Chatbot

基于LLaMa的开源聊天模型

参数:30B

许可类型:GPL-3.0 license

发布日期: 2023年4月

论文: Baize — An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

ColossalChat

由ColossalAI开源发布的一个完整的RLHF流程训练的模型

参数:N/A

许可类型:Apache 2.0

发布日期: 2023年4月

论文: ColossalChat — An Open-Source Solution for Cloning ChatGPT With a Complete RLHF Pipeline

Lit LLaMa

来自Lightning AI的LLaMA的开源实现

参数:13B

许可类型:Apache 2.0

发布日期: 2023年4月

论文: Why We’re Building Lit-LLaMA

Cerebras-GPT

开放的,计算效率高的,大型语言模型

参数:111M-13B

许可类型:Apache 2.0

发布日期:2023年3月

论文: Cerebras-GPT — Open Compute-Optimal Language ModelsTrained on the Cerebras Wafer-Scale Cluster

Open Flamingo

Deepmind的Flamingo模型的开源实现

参数:9B

许可类型:MIT License

发布日期: 2023年3月

论文: Openflamingo — An Open-source Framework For Training Vision-language Models With In-context Learning

Chat GLM

使用开放式双语(中英文)双向密集预训练模型

参数:6B-130B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: GLM-130B: An Open Bilingual Pre-trained Model

DLite

通过微调Alpaca数据集上最小的GPT-2模型

参数:124M

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Introducing DLite, a Lightweight ChatGPT-Like Model Based on Dolly

Alpaca 7B

描述:斯坦福大学发布的指令遵循LLaMA模型

参数:7B

许可类型:Apache 2.0

发布日期: 2023年3月

论文: Alpaca — A Strong, Replicable Instruction-Following Model

Flan UL2

在预训练的UL2检查点上训练Flan 20B模型。

参数:20B

许可类型:MIT License

发布日期: 2023年3月

论文: A New Open Source Flan 20B with UL2

Flan-T5

T5在各种数据集上的指令微调,提高预训练语言模型的可用性

参数:60M–11B

许可类型:Apache 2.0

发布日期: 2023年2月

论文: Scaling Instruction-Finetuned Language Models

总结

最后再补充2个刚刚发布的模型,一个是llama-2,这个我们文章也在前几天介绍了微调和使用的方法。另外一个就是昨天刚看到的新闻,stabilityai发布的 FreeWilly2,它是在 Llama2 70B 上微调的结果,目前在open_llm_leaderboard上排第一。

开源大型语言模型正在迅速发展,开源社区发布了许多模型。这些模型为开发人员、研究人员和爱好者提供了一个非常大机会,可以在没有专有系统的情况下试验尖端的语言技术。随着越来越多的组织和个人为这些模型的发展做出贡献,我们可以期待看到更强大、更容易使用和更创新的语言模型,它们将塑造自然语言处理的未来。

https://avoid.overfit.cn/post/5c7d723571254111815fc08eb05f79c1

作者:Manikanth

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/46537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HCIA练习2

目录 第一步 启动eNSP,搭建如图所示的拓扑结构 第二步 进行子网的划分 ​第三步 从第二步划分的16个网段中,选择14个网段进行使用 第四步 对路由器各个端口进行IP配置 第五步 对每个路由器的环回接口进行配置 第六步 对路由器进行静态路由配…

Redis 命令介绍

文章目录 Redis字符串操作命令哈希操作命令列表操作命令set集合sorted set 有序集合通用命令 在Java中操作Redis🍐 ❤️ 🚩4.1 Redis的Java客户端 🍐4.2 Spring Data Redis使用方式 ✏️环境搭建步骤1). 导入Spring Data Redis的maven坐标2).…

基于SpringBoot+Vue的“智慧食堂”系统设计与实现(源码+LW+部署文档等)

博主介绍: 大家好,我是一名在Java圈混迹十余年的程序员,精通Java编程语言,同时也熟练掌握微信小程序、Python和Android等技术,能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

ARM寄存器组织

一、寄存器二、ARM寄存器三、专用寄存器四、CPSR寄存器 一、寄存器 概念 寄存器是处理器内部的存储器,没有地址 作用 一般用于暂时存放参与运算的数据和运算结果 分类 包括通用寄存器、专用寄存器、控制寄存器 二、ARM寄存器 注 在某个特定模式下只能使用当前模…

Mac m1 下eclipse下载及jdk环境变量配置

一、安装eclipse 1、下载eclipse Eclipse downloads - Select a mirror | The Eclipse Foundation 此版本为m1芯片适用版本 2、下载后下一步安装即可 安装成功后,可以看到图标: 二、安装jdk 1、下载jdk 下载此版本即可,下载完成之后一直…

Django模型将模型注释同步到数据库

1、安装django-comment-migrate库 pip install django-comment-migrate 2、将库注册到settings.py文件中 INSTALLED_APPS [...django_comment_migrate, # 表注释... ] 3、加注释 3.1、给模型(表)加注释 在模型的class Meta中编辑 verbose_name&…

Spring Cloud+Spring Boot+Mybatis+uniapp+前后端分离实现知识付费平台免费搭建

Java版知识付费-轻松拥有知识付费平台 多种直播形式,全面满足直播场景需求 公开课、小班课、独立直播间等类型,满足讲师个性化直播场景需求;低延迟、双向视频,亲密互动,无论是互动、答疑,还是打赏、带货、…

【Postman】Newman安装与环境配置完整版(内含安装过程中遇到的问题与解决方案)

文章目录 概要Newman安装三步走一、nodejs安装与环境配置1、安装2、环境配置 二、安装newman1、步骤2、问题与解决方案 三、安装newman-reporter-html 概要 Newman:一款基于nodejs开发的可以运行Postman脚本的工具,并且可以生成测试报告。本文介绍了New…

【docker】docker部署mysql

目录 一、步骤二、说明三、示例 一、步骤 1.搜索mysql镜像 2.拉取mysql镜像 3.创建容器 4.操作容器中的mysql 二、说明 1.容器内的网络服务和外部机器不能直接通信 2.容器中部署的mysql端口3306不能被外部机器和宿主机直接通信 3.外部机器和宿主机之间可以直接通信 4.宿主机和…

管理类联考——数学——趣味篇——可视化

Manim: 一个数学可视化的动画引擎 官网:https://3b1b.github.io/manim/index.html 名词解析 python3.7是python语言的解释器, 运行python程序的环境必备品. 这个没啥说的,大家都能懂. 虽然官方建议3.7,但是我用3.8发现也没问题.考虑未来的历史进程,大伙最好还是装…

力扣题库刷题笔记75--颜色分类

1、题目如下: 2、个人Pyhon代码实现如下: 第一种思路是取巧,通过计数0、1、2的个数,去替换nums 备注第10行代码在本地可以跑过,但是力扣跑不过,所以就用了第10-16行代码进行替换 第二种思路是通过冒泡排序去…

小程序创建

1,下载HBuilder X ;(3.8.7) HBuilderX-高效极客技巧 2,下载模板(不选云服务的); 3,运行-运行到小程序模拟器; 4,安装小程序开发工具; 5,选择稳定版-windows64版&…

springboot集成

maven配置 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency> <dependency><groupId>org.apache.commons</groupId><artifactId>…

【GPT4结对编程】word文档导出功能GPT4来实现

需求背景 最近产品增加了一个导出word文档的需求&#xff0c;之前有导出过pdf格式、excel格式、csv格式&#xff0c;但还没导出过word文档。 开源框架调研 我们的后端服务主要是用golang&#xff0c;因此首先想到的是golang相关的开源工具&#xff0c;找到2个。 unioffice …

第二天 kali代理配置

文章目录 环境一、虚拟机网络模式&#xff08;1&#xff09;NAT&#xff08;2&#xff09;NAT模式&#xff08;3&#xff09;桥接模式&#xff08;4&#xff09;仅主机模式&#xff08;5&#xff09;总结 二、配置代理&#xff08;桥接模式&#xff09;1、基础设置2、虚拟机浏览…

【iOS】Cocoapods的安装以及使用

文章目录 前言一、Cocoapods的作用二、安装Cocoapods三、使用Cocoapods总结 前言 最近笔者在仿写天气预报App时用到了api调用数据&#xff0c;一般的基本数据类型我们用Xcode中自带的框架就可以转换得到。但是在和风天气api中的图标的格式为svg格式。 似乎iOS13之后Xcode中可…

kafka面试题

kafka基本概念 Producer 生产者&#xff1a;负责将消息发送到 BrokerConsumer 消费者&#xff1a;从 Broker 接收消息Consumer Group 消费者组&#xff1a;由多个 Consumer 组成。消费者组内每个消费者负责消费不同分区的数据&#xff0c;一个分区只能由一个组内消费者消费&am…

Linux常用命令——dris命令

在线Linux命令查询工具 dris 显示和清空目录堆栈中的内容 补充说明 dris命令用于显示和清空目录堆栈中的内容。 语法 dris(选项)选项 n&#xff1a;显示从左边算起第n笔的目录&#xff1b; -n&#xff1a;显示从右边算起第n笔的目录&#xff1b; -l&#xff1a;显示目录…

2023年深圳杯数学建模 D题 基于机理的致伤工具推断

致伤工具的推断一直是法医工作中的热点和难点。由于作用位置、作用方式的不同&#xff0c;相同的致伤工具在人体组织上会形成不同的损伤形态&#xff0c;不同的致伤工具也可能形成相同的损伤形态。致伤工具品种繁多、形态各异&#xff0c;但大致可分为两类&#xff1a;锐器&…

项目——负载均衡在线OJ

目录 项目介绍开发环境所用技术项目宏观结构编写思路1. 编写compile_server1.1 编译模块编写1.2 运行功能1.3compile_runner 编译与运行1.4 编写compile_server.cpp调用compile_run模块&#xff0c;形成网络服务 2. 编写基于MVC的oj_server2.1 oj_server.cpp的编写2.2 oj_model…