5个顶级开源法学硕士大型语言模型 (LLM)

5个顶级开源法学硕士大型语言模型 (LLM)。

在这里插入图片描述

在快速发展的人工智能 (AI) 世界中,大型语言模型 (LLM) 已成为推动创新并重塑我们与技术交互方式的基石。

随着这些模型变得越来越复杂,人们越来越重视对它们的访问的民主化。 尤其是开源模型,在这种民主化过程中发挥着关键作用,为研究人员、开发人员和爱好者提供了深入研究其复杂性、针对特定任务进行微调、甚至在其基础上进行构建的机会。

在这里插入图片描述

在这篇博客中,我们将探讨一些在人工智能社区掀起波澜的顶级开源法学硕士,每一个都带来了其独特的优势和能力。

  1. 骆驼2
    https://ai.meta.com/llama/

在快速发展的人工智能 (AI) 世界中,大型语言模型 (LLM) 已成为推动创新并重塑我们与技术交互方式的基石。

随着这些模型变得越来越复杂,人们越来越重视对它们的访问的民主化。 尤其是开源模型,在这种民主化过程中发挥着关键作用,为研究人员、开发人员和爱好者提供了深入研究其复杂性、针对特定任务进行微调、甚至在其基础上进行构建的机会。

在这篇博客中,我们将探讨一些在人工智能社区掀起波澜的顶级开源法学硕士,每一个都带来了其独特的优势和能力。

  1. 骆驼2
    了解 Llama 2:开始构建所需的一切
    Meta 的 Llama 2 是其 AI 模型系列的突破性补充。 这不仅仅是另一种模式;它是一种模式。 它旨在为一系列最先进的应用提供动力。 Llama 2 的训练数据庞大且多样,使其比其前身有了显着的进步。 这种训练的多样性确保了 Llama 2 不仅是一个渐进式的改进,而且是迈向人工智能驱动交互的未来的里程碑式的一步。

Meta 和 Microsoft 之间的合作拓展了 Llama 2 的视野。该开源模型现已在 Azure 和 Windows 等平台上得到支持,旨在为开发人员和组织提供创建生成式 AI 驱动体验的工具。 这种合作伙伴关系强调了两家公司致力于让人工智能对所有人更容易访问和开放。

Llama 2 不仅仅是原始 Llama 型号的继承者; 它代表了聊天机器人领域的范式转变。 虽然第一个 Llama 模型在生成文本和代码方面具有革命性,但其可用性受到限制以防止滥用。 另一方面,《骆驼 2》将吸引更广泛的观众。 它针对 AWS、Azure 和 Hugging Face 的 AI 模型托管平台等平台进行了优化。 此外,通过 Meta 与 Microsoft 的合作,Llama 2 不仅将在 Windows 上大放异彩,而且还将在采用高通 Snapdragon 片上系统的设备上大放异彩。

安全是 Llama 2 设计的核心。 认识到早期大型语言模型(例如 GPT)所面临的挑战(有时会产生误导性或有害内容),Meta 采取了广泛的措施来确保 Llama 2 的可靠性。 该模型经过严格的训练,以最大限度地减少“幻觉”、错误信息和偏见。

LLaMa 2 的主要特点:

多样化的训练数据: Llama 2 的训练数据既广泛又多样,确保了全面的理解和表现。
与微软的合作: Llama 2支持Azure、Windows等平台,扩大了其应用范围。
开放可用性: 与前作不同的是,Llama 2 面向更广泛的受众,可以在多个平台上进行微调。
以安全为中心的设计: Meta 强调安全性,确保 Llama 2 产生准确可靠的结果,同时最大限度地减少有害输出。
优化版本: Llama 2 有两个主要版本 - Llama 2 和 Llama 2-Chat,后者专为双向对话而设计。 这些版本的复杂性从 7 亿到 70 亿个参数不等。
强化培训: Llama 2 使用 1.4 万个代币进行训练,比原始 Llama 的 XNUMX 万亿个代币有了显着增加。

  1. Bloom
    https://huggingface.co/bigscience/bloom

在快速发展的人工智能 (AI) 世界中,大型语言模型 (LLM) 已成为推动创新并重塑我们与技术交互方式的基石。

随着这些模型变得越来越复杂,人们越来越重视对它们的访问的民主化。 尤其是开源模型,在这种民主化过程中发挥着关键作用,为研究人员、开发人员和爱好者提供了深入研究其复杂性、针对特定任务进行微调、甚至在其基础上进行构建的机会。

在这篇博客中,我们将探讨一些在人工智能社区掀起波澜的顶级开源法学硕士,每一个都带来了其独特的优势和能力。

  1. 骆驼2
    了解 Llama 2:开始构建所需的一切
    Meta 的 Llama 2 是其 AI 模型系列的突破性补充。 这不仅仅是另一种模式;它是一种模式。 它旨在为一系列最先进的应用提供动力。 Llama 2 的训练数据庞大且多样,使其比其前身有了显着的进步。 这种训练的多样性确保了 Llama 2 不仅是一个渐进式的改进,而且是迈向人工智能驱动交互的未来的里程碑式的一步。

Meta 和 Microsoft 之间的合作拓展了 Llama 2 的视野。该开源模型现已在 Azure 和 Windows 等平台上得到支持,旨在为开发人员和组织提供创建生成式 AI 驱动体验的工具。 这种合作伙伴关系强调了两家公司致力于让人工智能对所有人更容易访问和开放。

Llama 2 不仅仅是原始 Llama 型号的继承者; 它代表了聊天机器人领域的范式转变。 虽然第一个 Llama 模型在生成文本和代码方面具有革命性,但其可用性受到限制以防止滥用。 另一方面,《骆驼 2》将吸引更广泛的观众。 它针对 AWS、Azure 和 Hugging Face 的 AI 模型托管平台等平台进行了优化。 此外,通过 Meta 与 Microsoft 的合作,Llama 2 不仅将在 Windows 上大放异彩,而且还将在采用高通 Snapdragon 片上系统的设备上大放异彩。

安全是 Llama 2 设计的核心。 认识到早期大型语言模型(例如 GPT)所面临的挑战(有时会产生误导性或有害内容),Meta 采取了广泛的措施来确保 Llama 2 的可靠性。 该模型经过严格的训练,以最大限度地减少“幻觉”、错误信息和偏见。

LLaMa 2 的主要特点:

多样化的训练数据: Llama 2 的训练数据既广泛又多样,确保了全面的理解和表现。
与微软的合作: Llama 2支持Azure、Windows等平台,扩大了其应用范围。
开放可用性: 与前作不同的是,Llama 2 面向更广泛的受众,可以在多个平台上进行微调。
以安全为中心的设计: Meta 强调安全性,确保 Llama 2 产生准确可靠的结果,同时最大限度地减少有害输出。
优化版本: Llama 2 有两个主要版本 - Llama 2 和 Llama 2-Chat,后者专为双向对话而设计。 这些版本的复杂性从 7 亿到 70 亿个参数不等。
强化培训: Llama 2 使用 1.4 万个代币进行训练,比原始 Llama 的 XNUMX 万亿个代币有了显着增加。
2. Bloom
开源 Bloom AI 简介
2022 年,经过来自 70 多个国家的志愿者和 Hugging Face 专家的全球通力合作,BLOOM 项目揭开了面纱。 这个大型语言模型 (LLM) 是通过长达一年的计划创建的,专为自回归文本生成而设计,能够扩展给定的文本提示。 它利用大量的计算能力对大量文本数据进行了训练。

BLOOM 的首次亮相是让生成式人工智能技术变得更容易获得的重要一步。 作为一个开源 LLM,它拥有 176 亿个参数,使其成为同类中最强大的之一。 BLOOM 能够熟练地跨 46 种语言和 13 种编程语言生成连贯且精确的文本。

该项目强调透明度,允许公众访问其源代码和培训数据。 这种开放性需要对模型进行持续的检查、利用和增强。

BLOOM 可通过 Hugging Face 平台免费访问,是人工智能协作创新的证明。

Bloom 的主要特点:

多语种能力: BLOOM 精通生成 46 种语言和 13 种编程语言的文本,展示了其广泛的语言范围。
开源访问: 该模型的源代码和训练数据是公开的,促进了透明度和协作改进。
自回归文本生成: BLOOM 旨在从给定提示继续文本,擅长扩展和完成文本序列。
海量参数计数: BLOOM 拥有 176 亿个参数,是现有最强大的开源法学硕士之一。
全球合作: 该项目历时一年,由 70 多个国家的志愿者和 Hugging Face 研究人员贡献力量。
免费使用: 用户可以通过Hugging Face生态系统免费访问和使用BLOOM,增强其在AI领域的民主化。
工业规模培训: 该模型使用大量计算资源对大量文本数据进行了训练,确保了稳健的性能。

  1. MPT-7B
    https://www.mosaicml.com/blog/mpt-7b

MosaicML Foundations 推出了最新的开源 LLM MPT-7B,为这一领域做出了重大贡献。 MPT-7B 是 MosaicML Pretrained Transformer 的缩写,是一种 GPT 风格的仅解码器变压器模型。 该模型拥有多项增强功能,包括性能优化的层实现和确保更高训练稳定性的架构更改。

MPT-7B 的一个突出特点是它在包含 1 万亿个文本和代码标记的广泛数据集上进行训练。 这项严格的培训在 MosaicML 平台上进行,历时 9.5 天。

MPT-7B 的开源性质使其成为商业应用的宝贵工具。 它有可能对企业和组织的预测分析和决策过程产生重大影响。

除了基本模型之外,MosaicML Foundations 还发布了针对特定任务量身定制的专用模型,例如用于执行简短指令的 MPT-7B-Instruct、用于生成对话的 MPT-7B-Chat 以及 MPT-7B-StoryWriter-65k+用于长篇故事创作。

MPT-7B 的开发过程非常全面,MosaicML 团队在几周内管理了从数据准备到部署的所有阶段。 数据来自不同的存储库,团队利用 EleutherAI 的 GPT-NeoX 和 20B 分词器等工具来确保多样化和全面的培训组合。

MPT-7B 主要特性概述:

商业许可: MPT-7B 已获得商业用途许可,这使其成为企业的宝贵资产。
广泛的培训数据: 该模型拥有在包含 1 万亿个代币的庞大数据集上进行训练的能力。
长输入处理: MPT-7B 旨在毫不妥协地处理极长的输入。
速度和效率: 该模型针对快速训练和推理进行了优化,确保及时获得结果。
开源代码: MPT-7B 配备高效的开源训练代码,提高透明度和易用性。
比较卓越: MPT-7B 已展现出优于 7B-20B 系列中其他开源型号的优势,其质量可与 LLaMA-7B 相媲美。


  1. https://falconllm.tii.ae/

Falcon LLM 是一个迅速升至 LLM 层次结构顶端的模式。 Falcon LLM,特别是 Falcon-40B,是一个基础 LLM,配备 40 亿个参数,并接受了令人印象深刻的 3 万亿个代币的训练。 它作为仅自回归解码器模型运行,这本质上意味着它根据前面的标记来预测序列中的后续标记。 这种架构让人想起 GPT 模型。 值得注意的是,Falcon 的架构展示了优于 GPT-75 的性能,仅用 XNUMX% 的训练计算预算即可实现这一壮举,并且在推理过程中所需的计算量显着减少。

科创院团队在Falcon的开发过程中非常重视数据质量。 认识到法学硕士对训练数据质量的敏感性,他们构建了一个可扩展到数万个 CPU 核心的数据管道。 这可以通过广泛的过滤和重复数据删除过程实现快速处理和从网络中提取高质量内容。

除了Falcon-40B之外,TII还推出了其他版本,包括Falcon-7B,它拥有7亿个参数,并接受了1,500万亿个代币的训练。 还有专门的模型,如 Falcon-40B-Instruct 和 Falcon-7B-Instruct,专为特定任务量身定制。

训练 Falcon-40B 是一个广泛的过程。 该模型在 RefinedWeb 数据集上进行训练,这是一个由 TII 构建的大型英语网络数据集。 该数据集建立在 CommonCrawl 之上,并经过严格的过滤以确保质量。 模型准备好后,将根据多个开源基准进行验证,包括 EAI Harness、HELM 和 BigBench。

Falcon LLM 的主要特点概述:

广泛的参数: Falcon-40B配备40亿个参数,保证全面的学习和性能。
仅自回归解码器模型: 这种架构允许 Falcon 根据先前的令牌来预测后续令牌,类似于 GPT 模型。
杰出的表现: Falcon 的性能优于 GPT-3,同时仅利用了 75% 的训练计算预算。
高质量的数据管道: TII 的数据管道确保从网络中提取高质量的内容,这对于模型的训练至关重要。
多种型号: 除了 Falcon-40B 之外,TII 还提供 Falcon-7B 和 Falcon-40B-Instruct 和 Falcon-7B-Instruct 等专用型号。
开源可用性: Falcon LLM 一直是开源的,促进了人工智能领域的可访问性和包容性。

  1. 骆驼毛-13B
    https://lmsys.org/blog/2023-03-30-vicuna/

随着 Vicuna-13B 的推出,LMSYS ORG 在开源法学硕士领域取得了重大进展。 这个开源聊天机器人已经过对来自 ShareGPT 的用户共享对话进行微调 LLaMA 的精心训练。 以GPT-4为评委的初步评估表明,Vicuna-13B达到了OpenAI ChatGPT、Google Bard等知名模型90%以上的质量。

令人印象深刻的是,Vicuna-13B 在超过 90% 的情况下优于其他著名模型,例如 LLaMA 和斯坦福羊驼。 Vicuna-13B 的整个训练过程花费了大约 300 美元。 对于那些有兴趣探索其功能的人,代码、权重和在线演示已公开发布,用于非商业目的。

Vicuna-13B 模型已经过 70 万个用户共享的 ChatGPT 对话的微调,使其能够生成更详细、结构良好的响应。 这些响应的质量与 ChatGPT 相当。 然而,评估聊天机器人是一项复杂的工作。 随着 GPT-4 的进步,人们越来越好奇它作为基准生成和性能评估的自动化评估框架的潜力。 初步研究结果表明,GPT-4 在比较聊天机器人响应时可以产生一致的排名和详细的评估。 基于GPT-4的初步评估表明,Vicuna达到了Bard/ChatGPT等模型90%的能力。

Vicuna-13B 主要特性概述:

开源性质: Vicuna-13B 可供公众访问,促进透明度和社区参与。
广泛的培训数据: 该模型已经过 70 万个用户共享对话的训练,确保全面理解不同的交互。
竞争表现: Vicuna-13B 的性能与 ChatGPT 和 Google Bard 等行业领导者相当。
具有成本效益的培训: Vicuna-13B 的整个训练过程的成本较低,约为 300 美元。
LLaMA 上的微调: 该模型已在 LLaMA 上进行了微调,确保增强的性能和响应质量。
在线演示可用性: 交互式在线演示可供用户测试和体验 Vicuna-13B 的功能。
大型语言模型的扩展领域
大型语言模型的领域广阔且不断扩展,每个新模型都突破了可能性的界限。 本博客中讨论的法学硕士的开源性质不仅展示了人工智能社区的协作精神,还为未来的创新铺平了道路。

这些模型,从 Vicuna 令人印象深刻的聊天机器人功能到 Falcon 卓越的性能指标,代表了当前 LLM 技术的巅峰。 随着我们继续见证该领域的快速进步,很明显开源模型将在塑造人工智能的未来方面发挥至关重要的作用。

无论您是经验丰富的研究人员、初露头角的人工智能爱好者,还是对这些模型的潜力感到好奇的人,现在都是深入研究并探索它们提供的巨大可能性的最佳时机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/397325.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

算法面试八股文『 模型详解篇 』

说在前面 这是本系列的第二篇博客,主要是整理了一些经典模型的原理和结构,面试有时候也会问到这些模型的细节,因此都是需要十分熟悉的。光看原理还不够,最好是能用代码试着复现,可以看看李沐老师深度学习的教材&#…

线程池:优化多线程管理的利器

引言 同步和异步想必各位都有了解,同步简单来说就是一件事做完再去做下一件;异步则是不用等一件事做完,就可以去做另一件事,当一件事完成后可以收到对应的通知;异步一般应用于一些耗时较长的操作,比如大型…

量子计算:数据安全难题

当今数字技术面临的最大挑战之一是安全系统和数据。为此,人们设计了复杂的算法来加密数据并通过称为对称加密的框架来保护数据。虽然这已被证明是成功的,但量子计算的进步(利用量子力学比传统计算机更快地解决复杂问题)可能会彻底…

Flink的单元测试介绍及示例

本文详细的介绍了Flink的单元测试,分为有状态、无状态以及作业的测试,特别是针对无状态的单元测试给出了常见的使用示例。 本文除了maven依赖外,没有其他依赖。 一、Flink测试概述 Apache Flink 同样提供了在测试金字塔的多个级别上测试应用程…

离谱,华为食堂也要搞末位淘汰

华为饭堂 末位淘汰 今天逛职场 App,无意间翻到一篇帖子: 点开图片之前,我还以为只是普通的争霸赛被网友解读为末位淘汰。 点开图片后我却发现 ... 可以看出,是深圳华为的行政部做的海报,里面清晰写到:员工的…

QT-地形3D

QT-地形3D 一、 演示效果二、关键程序三、下载链接 一、 演示效果 二、关键程序 #include "ShaderProgram.h"namespace t3d::core {void ShaderProgram::init() {initializeOpenGLFunctions();loadShaders(); }void ShaderProgram::addShader(const QString &fil…

如何使用Docker搭建YesPlayMusic网易云音乐播放器并发布至公网访问

文章目录 1. 安装Docker2. 本地安装部署YesPlayMusic3. 安装cpolar内网穿透4. 固定YesPlayMusic公网地址 本篇文章讲解如何使用Docker搭建YesPlayMusic网易云音乐播放器,并且结合cpolar内网穿透实现公网访问音乐播放器。 YesPlayMusic是一款优秀的个人音乐播放器&am…

JS逆向进阶篇【去哪儿旅行登录】【中篇-滑动轨迹破解补浏览器环境破参数】

目录: 每篇前言:0、整体分析1、逆向轨迹snapshot(1)分析:(2)Python轨迹生成:(3)AES加密:(4)轨迹加密:&#xf…

springcloud:1.Eureka详细讲解

Eureka 是 Netflix 开源的一个服务注册和发现工具,被广泛应用于微服务架构中。作为微服务架构中的核心组件之一,Eureka 提供了服务注册、发现和失效剔除等功能,帮助构建弹性、高可用的分布式系统。在现代软件开发领域,使用 Eureka 可以有效地管理和监控服务实例,实现服务之…

Qt Creator在#include第三方库不带.h后缀的文件时,没有智能提示和自动补全

1、问题截图 OSG文件目录下有很多头文件(均不带.h后缀),Qt Creator可以识别到OSG目录,但是OSG目录下的所有头文件识别不到 2、原因 找到原因是因为Qt Creator开启了ClanCodeModel插件导致的 3、解决方法 1、在Qt Creator中…

GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。 植根于计算革命的丰富历史&#xff…

OpenCV人脸检测案例实战

人脸检测是一种计算机视觉技术,旨在识别图像或视频中的人脸。这项技术的基本内容包括使用特定的算法和模型来定位和识别人脸,通常涉及在图像中寻找面部特征,如眼睛、鼻子、嘴巴等,以便准确地确定人脸的位置和边界。人脸检测技术的…

LeetCode JS专栏刷题笔记(一)

一、前言 LeetCode 在前不久出了一个 JavaScript 专栏,这个专栏一个目的是为了非前端工程师学习 JS,另一个是为了前端工程师提升 JS 能力。 因此在这个专栏中,基本不涉及什么具体算法问题,都是一些 JS 的入门语法与常见的 JS 面…

安卓游戏开发之图形渲染技术优劣分析

一、引言 随着移动设备的普及和性能的提升,安卓游戏开发已经成为一个热门领域。在安卓游戏开发中,图形渲染技术是关键的一环。本文将对安卓游戏开发中常用的图形渲染技术进行分析,比较它们的优劣,并探讨它们在不同应用场景下的适用…

从零开始:开发多商户商城APP的技术指南

当下,电子商务正在飞速发展,多商户商城APP的需求也与日俱增。本篇文章,小编将为大家深度详解如何开发多商户商城APP。 1.确定功能需求 在着手开发多商户商城APP之前,首先需要明确功能需求。这包括但不限于: -用户注…

如何在CentOS安装SQL Server数据库并实现无公网ip环境远程连接

文章目录 前言1. 安装sql server2. 局域网测试连接3. 安装cpolar内网穿透4. 将sqlserver映射到公网5. 公网远程连接6.固定连接公网地址7.使用固定公网地址连接 前言 简单几步实现在Linux centos环境下安装部署sql server数据库,并结合cpolar内网穿透工具&#xff0…

MongoDB文档插入

文章目录 MongoDB文档插入对比增删改查文档插入 MongoDB写安全机制非确认式写入 MongoDB文档查询参数说明查询操作符比较查询操作符逻辑查询操作符元素查询操作符数组查询操作符 模糊查询区别:$regex操作符中的option选项 MongoDB游标介绍游标函数手动迭代游标示例游标介绍 Mon…

揭秘智能商品计划管理系统:为何服装企业老板争相引入?

在如今日新月异的商业环境中,服装企业老板们纷纷将目光转向了一种名为“智能商品计划管理系统”的创新工具。这种系统不仅具有高度的自动化和智能化特性,还能显著提升企业的运营效率、减少库存积压,并帮助企业在激烈的市场竞争中占据优势地位…

xilinx除法器的使用

平台:Vivado2018.3. 芯片:xcku115-flva1517-2-i (active) 最近学习使用了xilinx除法器,在使用过程中出现了很多次除法器的结果和我预计的结果不一致,特此记录学习一下。 参考文件:pg151.下载地址 pg151-div-gen.pdf …

简单了解一下加密算法

1.1单向散列算法 单向散列函数算法也称 Hash(哈希)算法,是一种将任意长度的消息压缩到某一固定长度(消 息摘要)的函数(该过程不可逆)。Hash 函数可用于数字签名、消息的完整性检测、消息起源的认 证检测等。常见的散列算法有MD5 、SHA 、RIPE-MD 、HAVAL 、N-Hash等…