Grok-1 开源:马斯克旗下xAI公司发布革命性AI模型,开启开源大模型新篇章|3140亿参数

自从埃隆·马斯克(Elon Musk)上周(3月11日)在 X 平台上宣布 Grok 将于本周开源的消息后,无数目光便聚焦于此,期待之情溢于言表。继 Meta 旗下的 Llama 2 模型开源之后,开源大模型界便充满了对新技术的热切期盼,希望新的大模型开源能够进一步加速全球人工智能的迅猛发展。在通用人工智能(AGI)的早期阶段,无论是企业还是个人,都渴望借助大模型的力量快速提升生产力和产品竞争力。然而,面对高昂的训练与推理成本,许多人仍感到力不从心。马斯克的这一消息无疑为众人点燃了希望之火。

就在一周后的3月17日,xAI 公司如约发布了 Grok-1 模型的开源信息,这款由马斯克旗下的xAI公司开发的新型AI模型迅速成为业界的焦点。Grok-1,这个拥有 3140 亿参数的 Mixture-of-Experts 模型,以其创新的架构和卓越的性能,不仅代表了AI技术的一大飞跃,也为AI革命中的地位奠定了基石。接下来,本文将深入剖析Grok-1的技术细节、训练方法和潜在应用,展现其在推动人工智能发展中的关键角色。( Grok是目前开源大模型中参数规模最大的语言模型)

距离 Elon Musk 发布的开源 Grok-1 语言模型才约7个小时的时间,Github 就收到了 5.5k star,足见大家对大模型的关注热度。这次开源发布,是Elon Musk对人工智能协作和透明开发的坚定承诺的具体体现。他不仅在商业航天领域推动了创新,现在又在AI领域引领了开放的潮流。Grok-1的开源,预示着一个更加开放和协作的AI研究新时代的来临。

Grok-1的技术概览

Grok-1 是一款基于自回归 Transformer 的大型语言模型(LLM),专为下一个标记预测而设计,这是自然语言处理(NLP)的基础任务。该模型拥有 3140 亿参数,采用专家混合(Mixture-of-Experts)方法,仅有 25% 的权重在给定标记上活跃,从而提高了效率和性能。Grok-1 从零开始精心开发,利用了 JAX 和 Rust 等技术构建的定制训练堆栈,代表了AI开发实践的一大飞跃。

基础知识

  • 参数规模:Grok-1模型拥有 3140 亿个参数,是一个由8名专家组成的混合专家模型,其中2名专家处于活跃状态。
  • 活动参数:模型中有 86B 个活动参数。
  • 分词器词汇大小:分词器的词汇量为131,072,这与GPT-4的词汇大小相似,采用2^17的设置。
  • 嵌入尺寸:模型的嵌入维度为6,144(48 * 128),这是输入嵌入的大小。

架构细节

  • Transformer层:Grok-1采用了64层的Transformer架构,其中包括解码器层。
  • 多头注意力块:每个多头注意力块包含48个注意力头,用于查询键/值(KV)对,其中KV的大小为128。
  • Dense模块(密集前馈模块):Dense模块的加宽系数为8,隐藏层的大小为32,768。

专家选择机制

  • 专家选择:对于每个代币(token),模型从8名专家中选择2名专家进行处理。

位置嵌入

  • 旋转位置嵌入大小:位置嵌入的尺寸为6,144,这与模型的输入嵌入尺寸相匹配。
  • 上下文长度:模型能够处理的最大上下文长度为8,192个标记。
  • 精度:模型使用BF16精度,这是一种优化的数值精度格式,旨在在保持性能的同时减少内存占用和提高计算效率。

Grok-1模型的设计和参数设置反映了其在处理大规模数据和复杂任务时的强大能力,同时也展示了其在效率和性能上的优化。这些特点使得Grok-1在AI领域具有潜在的广泛应用前景。

训练与发展

Grok-1 的初始版本未针对特定任务进行微调,为各种NLP应用提供了多功能的基础。模型的训练涵盖了广泛的文本数据,包括截至2023年第三季度的互联网内容和AI导师的专业数据集。这种全面的培训策略对提升Grok-1的能力至关重要,其在GSM8k、MMLU、HumanEval和MATH等基准测试中的高分表现,包括 GSM8k 上的 62.9%、MMLU 上的 73.0%、HumanEval 上的 63.2% 和 MATH 上的 23.9%,展示了其卓越的推理和问题- 解决问题的能力。

实时知识整合

Grok-1 的一个显著特点是其与实时知识平台的整合,使其能够访问和传播最新信息。这一能力不仅增强了模型的相关性和准确性,还使其能够进行更动态和情境感知的交互。因此,Grok-1能够处理非常规查询并提供及时响应,反映了xAI致力于创造全面且包容的AI工具的承诺。

伦理考量与未来方向

尽管 Grok-1 代表了AI的重大进步,xAI 强调了伦理监督和持续改进的必要性。模型的开发遵循包容性、研究、创新和追求理解的原则,重点是创造能够造福不同背景和信仰的人类的AI。预计未来的增强将在可扩展监督、形式验证、长上下文理解、对抗性鲁棒性和多模态能力等领域。

现在,Grok-1 的发布已经实现了两件事。首先,它展示了xAI有能力独立开发足够大的模型,并在最新的技术下发布,同时在Apache 2.0许可下挑战OpenAI开发真正开源的竞争对手。其次,考虑到埃隆·马斯克多变的性格和他这样的人对世界的影响力,Grok的发布增加了对立法者的压力,他们目前忙于处理诸如“谁更年老和健忘”、“谁更厌女”、“谁更基督教且不关心女性权利”、“谁更仇恨他人……无论是巴勒斯坦人、女性、黑人、西班牙裔、犹太人还是穆斯林”等问题。

总结

xAI 的 Grok-1 体现了技术复杂性、伦理考量和前瞻性创新的结合。它的发布不仅为AI技术的进步做出了贡献,还为AI模型的开发和集成到数字互动和信息交流的结构中设定了新的标准。随着Grok-1的不断进化和适应,它有望成为寻求知识和技术进步的宝贵资产。

Grok AI 助手将包含在 𝕏 Premium+ 中。

要下载 Grok-1 的模型权重,请使用下面的磁力链接。您需要一个Torrent下载客户端。

magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

参考资料

[1]. Grok-1 Github https://github.com/xai-org/grok-1

[2]. Open Release of Grok-1. x.ai. https://x.ai/blog/grok-os

[3]. Grok-1 Model Card. x.ai. https://x.ai/model-cards/grok-1

[4]. Grok — xAI’s new chatbot: Get early access. ai-grok.net. https://ai-grok.net/

[5]. Grok: AI Chatbot from Elon Musk’s xAI. Unite.AI. https://unite.ai/elons-musk-xAI-chatbot-grok/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/465712.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux查看硬件型号详细信息

1.查看CPU (1)使用cat /proc/cpuinfo或lscpu (2)使用dmidecode -i processor Dmidecode 这款软件允许你在 Linux 系统下获取有关硬件方面的信息。Dmidecode 遵循 SMBIOS/DMI 标准,其输出的信息包括 BIOS、系统、主板、…

【Unity】获取游戏对象或组件的常用方法

前言 在Unity开发过程中,我们经常需要获取组件,那么在Unity里如何获取组件呢? 一、获取游戏对象 1.GameObject.Find GameObject.Find 是通过物体的名称获取对象的 所以会遍历当前整个场景,效率较低 而且只能获取激活状态的物体…

Sentinel篇:线程隔离和熔断降级

书接上回:微服务:Sentinel篇 3. 隔离和降级 限流是一种预防措施,虽然限流可以尽量避免因高并发而引起的服务故障,但服务还会因为其它原因而故障。 而要将这些故障控制在一定范围,避免雪崩,就要靠线程隔离…

作品展示ETL

1、ETL 作业定义、作业导入、控件拖拽、执行、监控、稽核、告警、报告导出、定时设定 欧洲某国电信系统数据割接作业定义中文页面(作业顶层,可切英文,按F1弹当前页面帮助) 涉及文件拆分、文件到mysql、库到库、数据清洗、数据转…

青海200MW光伏项目 35kV开关站图像监控及安全警示系统

一、背景 随着我国新能源产业的快速发展,光伏发电作为清洁能源的重要组成部分,得到了国家政策的大力扶持。青海作为我国光伏资源丰富地区,吸引了众多光伏项目的投资建设。在此背景下,为提高光伏发电项目的运行效率和安全性能&…

数据安全与个人隐私:美国人的焦虑与变化

PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 在这个每一次点击、轻敲或按键都留下数字踪迹的时代,美国人对个人数据安全的焦虑与日俱增。他们感觉对数据的使用几乎…

R语言:microeco:一个用于微生物群落生态学数据挖掘的R包,第四:trans_beta class

trans_beta class:利用trans_beta类可以变换和绘制beta分集的距离矩阵。该类中涉及到beta多样性的分析主要包括排序、群距、聚类和方差分析。我们首先使用PCoA显示排序。 > dataset$cal_betadiv() The result is stored in object$beta_diversity ... > t1 &…

unittest初级了解

unitttest初级了解 单元测试框架测试流程 编写测试用例创建测试类测试用例测试用例执行 单元测试框架 unittest(python自带的),pytest(第三方库) 测试流程 编写测试用例—收集测试用例—执行用例—生成测试结果 编写测试用例 创建测试类 类名称建议以Test开头&…

html系列:按钮被样式图片挡着了,无法点击怎么办

​ 背景 在开发中会遇到一些奇奇怪怪的需求,比如在按钮上要显示一个样式图片,同时还要能不影响按钮的点击使用;这时候,设置好了样式,按钮无法点击怎么办? 在查阅资料的时候找到了解决方案。 解决方案 …

WPF图表库LiveCharts的使用

这个LiveCharts非常考究版本,它有非常多个版本,.net6对应的是LiveChart2 我这里的wpf项目是.net6,所以安装的是这三个,搜索的时候要将按钮“包括愈发行版”打勾 git:https://github.com/beto-rodriguez/LiveCharts2?…

数学建模——蒙特卡洛法

目录 1.介绍2.可以做的题型3.实战3.1求pi的值3.2求定积分x^2 的值 参加了大大小小很多场比赛了,但是都是混子,但还是打算记录一下吧,系统认真过一遍。后续功力深厚,会拓展写的文章,目前是干货,一些背景啥的…

2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛—— C 题:竞赛论文的辅助自动评阅完整思路与源代码分享

一、问题背景 近年来我国各领域各层次学科竞赛百花齐放,层出不穷,学生参与度也越来越高。随着参赛队伍的增 加,评阅论文的工作量急剧增加,这对评阅论文的人力要求也越来越大。因此引入机器辅助评阅成为竞赛主办方的现实需求。 在…

System Verilog的接口、程序块与断言解析

接口、程序块与断言 1 接口 1.1 使用接口简化连接 // 接口 interface arb_if(input bit clk);logic [1:0] grant,request;logic rst; endinterface// 使用了简单接口的仲裁器 module arb (arb_if arbif);...always(posedge arbif.clk or posedge arbif.rst)beginif(arbif.rs…

计算方法实验1:圆形镜面成像问题

Algorithm Description 设 T ( c o s θ , s i n θ ) T(cos\theta,sin\theta) T(cosθ,sinθ),则有 P T Q T ( P x − c o s θ ) 2 s i n 2 θ ( Q x − c o s θ ) 2 ( Q y − s i n θ ) 2 PTQT\sqrt{(P_x-cos\theta)^2sin^2\theta}\sqrt{(Q_x-cos\theta)^2(Q_y-sin…

苹果Apple Watch将有更多新手势,智能穿戴将被赋予Find My功能

根据美国商标和专利局(USPTO)公示的清单,苹果公司获得了一项 Apple Watch 相关技术专利,表明苹果公司正在探索更多的交互手势。 苹果在 watchOS 10.1 更新中,为 Apple Watch 引入了全新的“双指互点两下”手势&#…

智慧公厕对于智慧城市管理的意义

近年来,智慧城市的概念不断被提及,而智慧公厕作为智慧城市管理的重要组成部分,其在监测、管理和养护方面发挥着重要的作用。智慧公厕不仅是城市市容提升的重要保障,还能提升城市环境卫生管理的质量,并有效助力创造清洁…

unity学习(61)——hierarchy和scene的全新认识+模型+皮肤+动画controller

刚刚开始,但又结束的感觉? 1.对hierarchy和scene中的内容有了全新的认识 一定要清楚自己写过几个scene;每个scene之间如何跳转;build setting是add当前的scene。 2.此时的相机需要与模型同级,不能在把模型放在相机下…

服务器开机不输入密码自动进系统, 与设置开机启动项

打开运行[win R ] 输入: control Userpasswords2设置开机启动项 运行 输入 shell:startup在这里插入图片描述

java垃圾回收-三色标记法

三色标记法 引言什么是三色标记法白色灰色黑色 三色标记过程三色标记带来的问题多标问题漏标问题 如何弥补漏标问题增量更新原始快照总结 引言 在CMS,G1这种并发的垃圾收集器收集对象时,假如一个对象A被GC线程标记为不可达对象,但是用户线程又把A对象做…

【C++】手撕红黑树

> 作者简介:დ旧言~,目前大二,现在学习Java,c,c,Python等 > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:能直接手撕红黑树。 > 毒鸡汤:行到…