鼓吹开源无前途,Meta却开源了Llama 3模型,无需注册在线即可使用

Meta AI一直是人工智能领域开源领域的领导者,一边是OpenAI鼓吹闭源才是人工智能大模型的未来,但是Meta AI却开源了自己的Llama 3大模型,且Llama 3开源模型支持80亿与700亿参数,而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网直接使用,且支持无需注册登陆即可使用,简直是开箱即用。

动图封面

Meta AI Llama3

Llama 3 模型简介

Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善

Llama 3模型与其他模型参数对比

在 Llama 3 的开发过程中,为了优化现实场景的性能。Meta AI开发了一套新的高质量人类评估数据集。此数据集包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。

Claude Sonnet、Mistral Medium 和 GPT-3.5 对比结果

为了打造更加强大的Llama 3大模型,Meta AI分别在模型架构、预训练数据、扩大预训练和指令微调四个方面进行了创新调整。

模型架构

Llama 3 中选择了相对标准的仅解码器 Transformer 架构。与 Llama 2 相比,Llama 3 使用具有 128K 标记词汇表的标记器,可以更有效地对语言进行编码,从而显著提高模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上采用了分组查询注意力 机制(GQA)。不得不说,transformer依然是大模型的天下。

预训练数据集

为了提高训练效果,除了Meta AI自行设计的数据集外,Llama 3训练数据集比 Llama 2 使用的数据集大七倍,并且包含四倍多的代码。为了多语言模型,超过 5% 的 Llama 3 预训练数据集由涵盖 30 多种语言的高质量非英语数据组成。为了确保 Llama 3 接受最高质量数据的训练,Meta AI开发了一系列数据过滤器,包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器等等,以便得到更加高质量的预训练数据集。

扩大预训练规模

为了训练最大参数的 Llama 3 模型,Meta AI使用数据并行化、模​型并行化和管道并行化的方式对模型进行训练。当同时在 16K GPU 上进行训练时,可实现每个 GPU 超过 400 TFLOPS 的计算利用率。且Meta AI设计了自动检测错误规则,自动纠正规则,让模型总体有效训练时间超过95%,其效率比Llama 2 大大提高了3倍之多。

模型性能对比

指令微调

通过监督微调(SFT)、拒绝采样、近端策略优化(PPO)和直接策略优化(DPO)的组合方法进行模型的微调,让Llama 3 模型在推理以及编码性能上得到了大大的提升。通过 PPO 和 DPO 从偏好排名数据中学习也极大地提高了 Llama 3 在推理和编码任务上的性能。如果你向模型提出一个它难以回答的推理问题,该模型有时会产生正确的推理轨迹,得到正确的答案。

Llama 3 模型使用

Llama 3 模型将在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上推出。可以直接在以上平台上直接使用Llama 3 模型,当然也可以直接在Meta AI的官网直接使用,且无需任何登陆注册步骤,只要能登陆网站,就可以使用。

系统安全设计规则

Llama 3 模型的使用直接在Meta AI官网使用,其官网使用的就是Llama 3模型。

Meta AI使用Llama3

Llama 3 模型虽然没有说支持中文,但是当你输入中文跟他聊天时,模型依然可以正常回答。

Llama 3 示例

但是回答的是英文,若让模型翻译成中文,或者中文回答,模型依然可以用中文回答,但是网站上立马就转换成了英文。要不是立马截图,还真以为模型不懂中文。

中文回答截图

Meta 认为,开源其模型可以促进社区驱动的创新,使开发人员能够在技术的基础上进行开发和改进。开源模型展示了对技术的透明度和信任,使用户能够了解模型的工作原理并做出明智的决策。Meta 旨在通过开源模型,加速人工智能研发进程,造福更广泛的人工智能社区。开源模型减少了重复工作,因为开发人员可以在现有模型的基础上进行构建,而不是从头开始。

你觉得开源是未来,还是闭源?

Meta AI

https://ai.meta.com/blog/meta-llama-3/
https://www.meta.ai/
https://llama.meta.com/docs/get-started/
更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技
微信中复制如下链接,打开,免费使用chatgpt
 
https://wx2.expostar.cn/qz/pages/manor/index?id=1137&share_from_id=79482&sid=24

Llama 3 模型已经开源,任何人都可以使用Llama 3 模型开发自己的应用,且Meta AI官方提供了详细说明,可以按照相关说明进行Llama 3 模型的开发使用。

 动画详解transformer  在线教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/585310.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

webpack3升级webpack4遇到的各种问题汇总

webpack3升级webpack4遇到的各种问题汇总 问题1 var outputNamecompilation.mainTemplate.applyPluginWaterfull(asset-path,outputOptions.filename,{......)TypeError: compilation.mainTemplate.applyPluginsWaterfall is not a function解决方法 html-webpack-plugin 版…

机器学习实战-聚类算法

聚类算法是一种无监督学习的算法,用于将数据集中的数据分成不同的聚类或组。聚类算法是数据挖掘和机器学习领域中常见的技术之一,具有广泛的应用。 以下是聚类算法的一些知识点: 聚类算法的目的是将数据集划分为不同的组,使得组内…

【酱浦菌-爬虫项目】爬取百度文库文档

1. 首先,定义了一个变量url,指向百度文库的搜索接口 ‘https://wenku.baidu.com/gsearch/rec/pcviewdocrec’。 2. 然后,设置了请求参数data,包括文档ID(docId)和查询关键词(query)。…

【蓝桥杯C++A组省三 | 一场勇敢的征途与致19岁的信】

随着4.13西大四楼考场的倒计时结束… 就这样蓝桥杯落幕了 省三的名次既满足又不甘心,但又确乎说得上是19岁途中的又一枚勋章 从去年得知,纠结是否要报名、到寒假开始战战兢兢地准备、陆续开始创作博客,记录好题和成长……感谢你们的关注&…

Flask表单详解

Flask表单详解 概述跨站请求伪造保护表单类把表单渲染成HTML在视图函数中处理表单重定向和用户会话Flash消息 概述 尽管 Flask 的请求对象提供的信息足够用于处理 Web 表单,但有些任务很单调,而且要重复操作。比如,生成表单的 HTML 代码和验…

偏自相关系数的等价定义

第k个回归系数的值 原始定义

将两个YOLO格式的数据集合并,并保持相同类别

1. 需求分析 最近在做两个YOLO格式的数据集合并,第一个数据集包含了第二个数据集的类别,但是相应的类别id对应不住,需要修改第二个数据集的类别标签与第一个数据集对应住。 2. 修改第二个数据集标签对应 2.1 实现思路 导入所需的库&#x…

CCF-CSP真题题解:201409-2 画图

201409-2 画图 #include <iostream> #include <cstring> #include <algorithm> using namespace std;const int N 110;int n; bool a[N][N];int main() {scanf("%d", &n);while (n--) {int x1, y1, x2, y2;scanf("%d%d%d%d", &…

R语言的学习——day1

将数据框中某一列数据改成行名 代码 结果

社交媒体数据恢复:Skype国内、际版

恢复已删除的Skype聊天记录可能需要一些操作&#xff0c;但请注意&#xff0c;这不一定总是可行的&#xff0c;并且可能需要一些技术知识。以下是一些步骤&#xff0c;您可以尝试恢复您的Skype聊天记录&#xff1a; 1. 检查备份&#xff1a; - 如果您有Skype备份&#xff0…

Ollama配置webui连接大预言模型

Ollama配置Web UI连接大预言模型 默认ollama安装后&#xff0c;chat对话只有命令行界面&#xff0c;交互体验较差。借助open-webui可以通过web界面连接ollama&#xff0c;从而实现类似chatgpt式的web交互体验。 使用家用PC实践记录如下&#xff1a; 1. 环境配置 本次使用的操作…

智能私信软件:转化率提升的神器

在数字化营销领域&#xff0c;利用智能私信软件策略提升转化率已经成为一种不可忽视的趋势。随着人工智能技术的发展&#xff0c;这些软件变得越来越智能&#xff0c;能够根据用户的行为和偏好提供个性化的沟通体验。在这篇文章中&#xff0c;我们将探讨如何有效地运用智能私信…

启明云端2.4寸屏+ESP32-S3+小型智能调速电动家用除草机案例 触控三档调速,能显示电压故障码

今天给大家分享个启明云端2.4寸屏ESP32-S3小型智能调速电动家用除草机案例&#xff0c;国外有草坪文化&#xff0c;这个机器能智能触控三档调速&#xff0c;带屏能显示电压故障码&#xff0c;数显档位&#xff08;3档最大&#xff09;&#xff0c;触控屏&#xff0c;长按3秒就能…

git 的迁移

现象是gitlab经常会挂掉&#xff0c;linux会显示磁盘空间不足&#xff0c;实际上&#xff0c;我们linux某个目录的空间是4T。这个空间应该是足够的。猜测是gitlab的安装目录不对导致的空间不足。 1、查找原因 用rpm 安装gitlab会有自己的目录&#xff0c;很多安装文件会在opt…

Android binder死亡通知机制

在Andorid 的binder系统中&#xff0c;当Bn端由于种种原因死亡时&#xff0c;需要通知Bp端&#xff0c;Bp端感知Bn端死亡后&#xff0c;做相应的处理。 使用 Bp需要先注册一个死亡通知&#xff0c;当Bn端死亡时&#xff0c;回调到Bp端。 1&#xff0c;java代码注册死亡通知 …

使用硬盘对拷方法将数据无损转移到另一个硬盘!

硬盘对拷&#xff0c;其实就是磁盘克隆&#xff0c;很多人喜欢将其说成对拷&#xff0c;或者硬盘复制等&#xff0c;但不管怎么说&#xff0c;他们的目的都是一个&#xff0c;想要把原硬盘上的全部数据&#xff08;包括系统、程序、个人文件、隐藏配置数据等&#xff09;都无损…

mysql基础知识汇总

本文自行整理&#xff0c;只做学习记忆之用&#xff0c;若有不当之处请指出 一、数据库三层结构 &#xff08;1&#xff09;所谓安装Mysql数据库&#xff0c;就是在主机安装一个数据库管理系统(DBMS),这个管理程序可以管理多个数据库。DBMS(database manage system) &#xf…

【JVM】简述类加载器及双亲委派机制

双亲委派模型&#xff0c;是加载class文件的一种机制。在介绍双亲委派模型之前&#xff0c;我需要先介绍几种类加载器&#xff08;Class Loader&#xff09;。 1&#xff0c;类加载器 Bootstrap&#xff0c;加载lib/rt.jar&#xff0c;charset.jar等中的核心类&#xff0c;由…

港口数据复杂不知道如何监控?来试试FineVis所展现的智慧港口看板

一、智慧港口是什么 智慧港口代表着港口建设的未来趋势和发展方向。以信息物理系统为框架&#xff0c;智慧港口通过创新应用高新技术&#xff0c;实现了物流供给方和需求方之间的沟通&#xff0c;并将它们融入集疏运一体化系统中。这种系统极大地提升了港口及其相关物流园区对…

ospf路由过滤及策略实验

目录 一、实验拓扑 二、实验要求 三、实验思路 四、实验步骤 1、配置IP 2、配置RIP协议和OSPF协议 3、在R2上做双向路由引入 &#xff08;1&#xff09;进入到rip协议的1进程中引入ospf &#xff08;2&#xff09;进入到ospf协议的1进程中引入rip 4、在R2上使用acl和…