新火种AI|号称“史上最强大开源模型”的Llama3,凭什么价值百亿美金?

作者:小岩

编辑:彩云

4月19日,Facebook母公司Meta重磅推出了Llama3。

即便大家现在对于大厂和巨头频繁迭代AI模型的行为已经见怪不怪,Meta的Llama3仍旧显得与众不同,因为这是迄今最强大的开源AI模型。

Meta推出了重磅级产品Llama,显然是剑有所指的,其中的寓意也很明显,即是要在激烈的行业竞争中追赶领先者OpenAI。由此,我们也能看出Mata在AI领域的雄心壮志。

成为最强开源模型,Llama3究竟是怎样炼成的?

之所以说Llama3是“最强开源”,是因为它在模型架构,预训练数据,扩大预训练规模以及指令微调方面都做出了重要的调教。

在模型架构方面,Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama 2 相比,Llama 3更进行了几项关键改进。Llama 3 使用了一个 128K token 的 tokenizer,它能更有效地编码语言,从而大幅提高模型性能;Meta还在 8B 和 70B 大小的模型中都采用了分组查询关注,以便提高Llama3的运行效率;此外,Meta还在8192 个 token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。

训练数据方面,Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型且高质量的训练数据集。根据数据现实,Llama 3 在超过 15T 的 token 上进行了预训练,训练数据集是 Llama 2 的7倍,包含的代码数量达到了Llama 2 的4倍。为了应对多语言使用情况,Llama 3 的预训练数据集中有超过5%的部分是高质量的非英语数据,涵盖 30 多种语言。而为了确保Llama 3始终在最高质量的数据上进行训练,Meta还开发了一系列数据过滤管道,诸如启发式过滤器,NSFW 过滤器,语义重复数据删除方法,文本分类器等,以便更好的预测数据质量。与此同时,Meta还进行了大量实验,确保 Llama 3 在各种使用情况下都能表现出色,包括琐事问题,STEM,编码,历史知识等。

在扩大预训练规模方面,为了让Llama 3 模型有效利用预训练数据,Meta 为下游基准评估制定了一系列详细的 scaling laws。这些 scaling laws 使他们能够选择最佳的数据组合,并就如何更好地使用训练计算做出最佳决定。更重要的是,在实际训练模型之前,scaling laws允许他们预测最大模型在关键任务上的性能,这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在指令微调方面,为了在聊天用例中充分释放预训练模型的潜力,Meta 对指令微调方法进行了创新,在后期训练方法中结合了监督微调(SFT),拒绝采样,近似策略优化(PPO)以及直接策略优化(DPO)。

官方表示即将推出400B+版本...开源的400B+足够令人期待。

此次Llama3的发布,还有一点惹人瞩目,那就是Meta官方表示,即将在不久的未来推出400B+版本。

Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他们后续还将推出更多版本,其中就包括模型参数超过 400B 的 Llama 3 版本,这一版本目前仍在训练中。

在接下来的几个月中,Meta会持续推出新功能:届时会有更多的模态;更长的上下文窗口;更多不同大小版本的模型;更强的性能等。关于Llama 3研究论文也一应推出。

另外,Llama 3 模型将很快会在AWS,Databricks,Google Cloud,Hugging Face,Kaggle,IBM WatsonX,Microsoft Azure,NVIDIA NIM 以及Snowflake 上提供,并得到 AMD,AWS,Dell,Intel,NVIDIA 以及Qualcomm 硬件平台的支持。

当然,大家最期待的,还是即将推出的,参数超过400B+的版本。目前Llama3模型的最强参数是70B。这个数据已经十分优秀了,完全有能力和GPT-4-Turbo,Mistral-Large,Claude3-Opus相媲美。不过,相较于巨头的最强模型,仍旧存在不小的差距。这也是大家如此期待400B+版本的重要原因。

400B+的版本仍在训练中,单就目前释放出的评测结果来看已经非常强了,堪称Llama开源size中的“超大杯选手”。据悉,该模型的训练成本会达到1亿美元。 目前我们还不清楚Meta是否会开源“超大杯”。一旦开源,对于国内的大模型公司来说无疑是个重大利好。相信在此之后,也会有很多公司争先跟上,推出后续的应用。但凡事都有两面,对于OpenAI,Anthropic,Mistral,Google这些巨头而言,这未必是个好消息。

“开源大模型”时代以来,AI会越来越失控吗?

AI大模型如雨后春笋般不断冒出,大家在见识到AI愈发强大,愈发智能的同时,也会感知到危机感。

AI是否会变得越来越失控?

对此,Meta CEO 马可.扎克伯格也在最近接受的访谈中表达了自己的观点。他认为,AI的定位应该在于“一项非常基础性的技术”。它的存在应该像计算机一样,将催生一系列全新的应用。人们之所以会诞生AI会失控,很大程度上是因为它发展的速度太快了,一时之间我们无法适应。

但在扎克伯格看来,这种情况不太可能发生,因为这其中存在很多物理方面的限制。但有一点毋庸置疑:AI将真正改变我们的工作方式,为人们提供创新的工具去做不同的事情。它将使人们能够更自由地追求他们真正想做的事情。

事实上,我们无法预知AI未来的发展路径究竟是怎样的,是会真的造福人类,还是会给人类带来灾难。但有一点值得肯定:开源的AI系统确实有助于建立一个更公平,更平衡竞技场。如果开源的机制可以运作成功,那应该会成为大家所期待的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/564225.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis从入门到精通(二十一)Redis最佳实践(二)mset、pipeline、慢查询优化、内存划分

文章目录 前言7.2 批处理优化7.2.1 命令执行流程7.2.2 mset7.2.3 Pipeline7.2.4 集群下的批处理7.2.4.1 问题与解决方案7.2.4.2 基于Spring的串行化执行 7.3 服务器端优化7.3.1 持久化配置7.3.2 慢查询优化7.3.2.1 什么是慢查询7.3.2.2 如何查看慢查询 7.3.3 命令及安全配置7.3…

智慧安防边缘计算硬件AI智能分析网关V4算法启停的操作步骤

TSINGSEE青犀视频智能分析网关V4内置了近40种AI算法模型,支持对接入的视频图像进行人、车、物、行为等实时检测分析,上报识别结果,并能进行语音告警播放。硬件管理平台支持RTSP、GB28181协议、以及厂家私有协议接入,可兼容市面上常…

MySQL 基础语法(2)

文章目录 创建表查看表修改表表数据插入 本文为表结构相关的基础语言库相关的基础语句 创建表 CREATE TABLE table_name ( field1 datatype comment xxx, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引擎;CREATE TABLE&#xff1…

算法竞赛相关问题总结记录

前言 日常在校生或者是工作之余的同学或多或少都会参加一些竞赛,参加竞赛一方面可以锻炼自己的理解与实践能力,也能够增加自己的生活费,竞赛中的一些方案也可以后续作为自己论文的base,甚至是横向课题的框架。在算法竞赛中算法的差别个人感觉差距都不大&…

创建一个空的maven项目,整合SpringBoot和Redis

创建一个空的maven项目,整合SpringBoot和Redis 创建空的maven项目 在最新版的idea中创建maven项目的时候会让选择模板 如下图: 我们选择quickstart快速开始模板,quickstart快速开始模板创建的maven项目里面什么都不带,只有一个…

便携式手提万兆网络协议测试仪

便携式手提万兆网络协议测试仪 平台简介 便携式手提万兆网络协议测试仪,以FPGA万兆卡和X86主板为基础,构建便携式的手提设备。 FPGA万兆卡是以Kintex-7XC7K325T PCIeX4的双路万兆光纤网络卡,支持万兆网络数据的收发和网络协议的定制设计。 …

微服务之.SpringCloud AlibabaSentinel实现熔断与限流

一、概述 1.1介绍 Sentinel是阿里巴巴开源的一款服务保护框架,目前已经加入SpringCloudAlibaba中。官方网站: 官网https://sentinelguard.io/zh-cn/ 从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开…

计算机服务器中了locked勒索病毒怎么办,locked勒索病毒解密工具流程步骤

随着网络技术的不断应用与发展,越来越多的企业离不开网络,网络大大提升了企业的办公效率水平,也为企业的带来快速发展,对于企业来说,网络数据安全成为了大家关心的主要话题。近日,云天数据恢复中心接到多家…

注意libaudioProcess.so和libdevice.a是不一样的,一个是动态链接,一个是静态

libaudioProcess.so是动态链接,修改需要改根文件系统,需要bsp重新配置 libdevice.a是静态链接,直接替换就行 动态链接文件修改 然后执行fw_update.sh

JAVA学习笔记29(集合)

1.集合 ​ *集合分为:单列集合、双列集合 ​ *Collection 接口有两个重要子接口 List Set,实现子类为单列集合 ​ *Map接口实现子类为双列集合,存放的King–Value ​ *集合体系图 1.1 Collection接口 1.接口实现类特点 1.collection实现…

射频识别技术助力产品分拣:提升效率与准确性

射频识别技术助力产品分拣:提升效率与准确性 RFID技术在产品分拣中具有重要的应用,它利用射频信号进行非接触式的自动识别,能够高效、准确地完成产品分拣工作。 在产品分拣中,RFID技术的主要应用方式是在产品上粘贴RFID电子标签&…

阿里云mysql8.0 this is incompatible withsql mode=only full group by

阿里云RDS中mysql5.6升级为8.0后,出现如下问题: ### Error querying database. Cause:java.sql.SQLSyntaxErrorException: Expression #1 of SELECT listis not in GROUP BY clause and contains nonaggregatedcolumn temp.product_id which is not fun…

电商平台数据有哪些(淘宝1688京东API)?如何进行电商平台数据分析?(内附测试方式)

电商平台数据是一个庞大且复杂的体系,涵盖了多个维度和类型。在淘宝、1688、京东等电商平台中,数据主要分为以下几个类别: 用户数据:包括用户属性(如年龄、性别、地域、职业等)、用户行为(如浏…

本地环境测试

1. 在 Anaconda Navigator 中,打开 Jupyter Notebook ,在网页中,点击进入本地环境搭建中创 建的工作目录,点击右上角的 New- 》 Folder ,将新出现的 Untitled Folder 选中,并使用左上角 的 Rename 按钮重…

CSS基础常用属性之字体属性(如果想知道CSS的字体属性知识点,那么只看这一篇就足够了!)

前言:在我们学习CSS的时候,主要学习选择器和常用的属性,而这篇文章讲解的就是最基础的属性之一——文字属性。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-CSDN博客 废话不多说,让我们直…

STP学习的第一篇

1.STP的基本概念:根桥 (1)STP的主要作用之一是在整个交换网络中计算出一棵无环的“树”(STP树)。 (2)根桥是一个STP交换网络中的“树根”。 (3)STP开始工作后&#xf…

Hack The Box-Runner

总体思路 子域名扫描->CVE-2023-42793利用->获取敏感信息->user->端口转发->CVE-2024-21626利用->root 信息收集&端口利用 nmap -sSVC 10.10.11.13目标开放22、80、8000端口,这里先将runner.htb加入到hosts文件后,访问之 查看源…

一文读懂链游!探索链游的前世今生,区块链与游戏结合的新兴趋势

区块链技术的崛起给游戏行业带来了前所未有的变革,而链游(Blockchain Games)正是这一变革的产物。本文将带您一览链游的前世今生,探索区块链与游戏结合的新兴趋势。 1. 链游的起源 链游,顾名思义,是指利用…

DAPP的商业模型创新: 探索可持续盈利路径

去中心化应用(Decentralized Applications,DAPPs)作为区块链技术的重要应用之一,在近年来蓬勃发展。然而,随着市场竞争的加剧和用户需求的不断变化,DAPP开发者们面临着寻找可持续盈利路径的挑战。本文将探讨…

STM32学习和实践笔记(16):STM32的中断一般配置步骤

STM32的中断配置步骤,通常都需经过这几步: (1)使能外设某个中断 方法就是调用这个外设的中断使能库函数来使能或者说打开它。 (2)设置中断优先级分组, 方法就是使用库函数 NVIC_PriorityGro…