马斯克开启军备竞赛,xAI筹集60亿美元

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于如果构建生成级别的AI架构则可以关注AI架构设计专栏。技术宅麻烦死磕LLM背后的基础模型。

xAI

埃隆·马斯克于去年夏天创立了 xAI,今天宣布筹集 60 亿美元资金,称将帮助xAI“将首批产品推向市场,构建先进的基础设施,并加速未来技术的研发”。

到目前为止,xAI 已经推出了 Grok,这是OpenAI ChatGPT 的升级版,可通过 X(原名 Twitter)使用,目前该聊天机器人仅供 X Premium 订阅用户使用。

据 xAI 称,本轮融资来自多个渠道,包括 Andreessen Horowitz、红杉资本和沙特阿拉伯王子阿尔瓦利德·本·塔拉尔。去年,一份提交给美国证券交易委员会的文件显示,xAI 正寻求通过股权投资筹集高达 10 亿美元的资金。几个月前,《金融时报》报道称,该公司正寻求筹集高达60 亿美元的资金。马斯克当时否认了这一报道。

微软公司向 OpenAI 投资了约 130 亿美元,而亚马逊公司向 Anthropic 投资了约 40 亿美元。

能够支持 AI 开发的硬件价格相当昂贵,Nvidia 即将推出的 Blackwell B200 AI 显卡每张售价在 30,000 至 40,000 美元之间。上周有Information报道称,xAI 需要 100,000个 Nvidia的H100 芯片来为超级计算机提供 Grok AI 聊天机器人的升级版。据报道,马斯克告诉投资者,计划在 2025 年秋季之前启动新的数据中心。

在芯片、人才和技术方面展开人工智能竞赛的代价并不低——除了谷歌、苹果、亚马逊、微软和Meta向自己的人工智能项目投入资源之外,大型科技公司还向Anthropic等人工智能初创公司投入了数十亿美元。

微软还与 OpenAI 达成了数十亿美元的合作,据报道,OpenAI 首席执行官 Sam Altman 正在寻求数万亿美元的资金来重振全球芯片行业。作为 OpenAI 的创始成员之一,马斯克正在起诉该公司,声称该公司放弃了造福人类的使命。

除了 xAI 和 OpenAI,马斯克表示,在人工智能和机器人方面,除非他获得更多控制权,否则他“更愿意在特斯拉之外开发产品”。

Grok-1.5V

根据公开的开发者文件,埃隆·马斯克的人工智能公司 xAI 正在为其 Grok 聊天机器人添加多模式输入方面取得进展。这意味着,用户很快就能将照片上传到 Grok 并收到基于文本的答案。

xAI 上个月在一篇博客文章中首次透露了这一点,称 Grok-1.5V 将提供“多个领域的多模态模型”。开发人员文档的最新更新似乎显示了推出新模型的进展。

在开发人员文档中,一个示例 Python 脚本演示了开发人员如何使用 xAI 软件开发工具包库根据文本和图像生成响应。此脚本读取图像文件、设置文本提示并使用 xAI SDK 生成响应。

Grok-1 已经开源

xAI前端时间将使其 AI 聊天机器人Grok-1 版本开源,目前该版本已在GitHub和Hugging Face上发布。此举使研究人员和开发人员能够扩展该模型,影响 xAI 如何在 OpenAI、Meta、谷歌、微软等科技巨头的竞争中发展 Grok。

这一里程碑标志着 AI 领域的重大转折,使该领域的其他开发人员和专家能够访问 Grok-1 的代码和相关数据以进行分析和开发。

Grok-1  开源旨在为 AI 研发开辟新机遇。此前,Mixtral和Llama 2等行业领先模型主导了AI研究领域。然而,Grok以其庞大的规模脱颖而出,包含一组令人印象深刻的 314B参数,几乎是其最接近的竞争对手 Llama 2 的四倍。

这种规模意味着模型精度和交互能力方面具有广阔的前景。Grok 的权重对于其运行至关重要,可供下载,使开发人员能够试验其结构和行为。

现在 Grok-1 已经开源,xAI的Grok-1 版本的所有基本信息:314B params - 8*33B MoE - 25% 的权重激活/单个Token比Llama2和GPT3.5 Apache2更好。

马斯克声称,他决定采用 Grok 开源方式是为了响应人工智能领域日益增长的透明度和协作需求。为了寻求 OpenAI 和谷歌的替代方案,马斯克推出了xAI,目的是开发他期望的人工智能,能够最大限度提高寻求真相的能力。

Grok-1 最初于 2023 年 10 月进行训练,是一个预训练过的基础模型,未经任何微调。这种缺乏专业化的特性使其在广泛的应用中具有强大的潜力,同时完全不受约束。该模型的参数已根据很宽松的Apache 2.0许可发布,鼓励商业和非商业用途。

主要技术规格:

  • 3140 亿个参数

  • 混合专家架构,包含 8 位专家(每个Token有 2 位活跃专家)

  • 64 层

  • 48 个用于查询的注意力头

  • 6,000 维内部嵌入

  • 支持旋转位置嵌入 (RoPE)

  • 支持 8 位量化和激活缓存

  • 最大上下文窗口为 8,000 个 token

  • SentencePiece Tokenizer 标记器,包含 131,072 个标记

  • 由于规模巨大,在本地运行 Grok-1 需要大量硬件资源。4 位推理估计需要 320GB VRAM,而 8 位推理则需要 NVIDIA DGX H100 这样的系统(配备 8 个 GPU,每个 GPU 配备 80GB VRAM)。

早期基准测试表明,在 GEM8K、MMLU、HumanEval 和数学问题等任务上,Grok-1 的表现优于 2700 亿参数 Lamma MoE 甚至 GPT-3.5 等模型。这表明该模型的规模可能转化为改进的推理能力。拥有大量高质量数据集的公司可以充分的利用开源Grok-1,能够获取卓越性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/655013.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VMware中的虚拟机设置开启VT虚拟化

虚拟机系统关机打开虚拟机设置-----点击处理器----勾选虚拟化引擎---确定即可

数据结构【双链表】

前言 我们前面学习了单链表(点击这里跳转到单链表博客),那么应该发现了一个问题,就是我每次尾插和尾删都需要先把链表遍历一遍,这样是不是过于麻烦了,这时候我们就可以使用双向链表。 1. 链表的分类 带头和不带头 首先带头就是…

【计算机视觉 Mamba】MambaOut: Do We Really Need Mamba for Vision?

MambaOut: Do We Really Need Mamba for Vision? 在视觉任务上我们需要Mamba吗? 论文地址 代码地址 知乎解读:王牌飞行员申请出战! 知乎解读:Mamba 模型解读 (一):MambaOut:在视觉任务中,我们真的需要 …

JRebel 激活及使用

插件下载 JRebel and XRebel - IntelliJ IDEs Plugin | Marketplace 从磁盘安装下载的插件 windows下载激活服务 Releases ilanyu/ReverseProxy GitHub mac没有对应版本,需要Docker搭建本地激活服务 docker pull qierkang/golang-reverseproxy docker run -d -…

私域如何高效管理多微信并实现聚合聊天?

在私域经营中,管理多个微信号是一项具有挑战性的任务。为了提高工作效率,辅助工具成为必不可少的一部分。而个微管理系统将为大家带来高效的多微信号管理体验,让大家能够更好地聚合聊天。 首先,个微管理系统提供了一个统一的界面…

C++ STL 中的自定义比较:深入理解相等和等价

STL 中的自定义比较、相等和等价 一、简介二、STL 的排序部分三、STL 的未排序部分四、比较元素五、实现比较器六、总结 一、简介 本文主要讨论了在 STL 中使用自定义比较函数&#xff0c;以及比较操作中的相等和等价概念。 有如下的代码&#xff1a; std::vector< std::…

代码文本编辑器-小白教程(Sublime text, Notepad++ Acode下载安装与使用)

代码文本编辑器-小白教程&#xff08;Sublime text, Notepad Acode下载安装与使用&#xff09; 1. Windows平台和Linux平台1.1 Sublime text1.2 Notepad 2. 安卓平台 Acode参考资料 1. Windows平台和Linux平台 1.1 Sublime text 一、安装教程 1、打开Sublime Text官网下载安…

Python知识详解【1】~{正则表达式}

正则表达式是一种用于匹配字符串模式的文本工具&#xff0c;它由一系列普通字符和特殊字符组成&#xff0c;可以非常灵活地描述和处理字符串。以下是正则表达式的一些基本组成部分及其功能&#xff1a; 普通字符&#xff1a;大多数字母和数字在正则表达式中表示它们自己。例如…

【全开源】民宿酒店预订管理系统(ThinkPHP+uniapp+uView)

民宿酒店预订管理系统 特色功能&#xff1a; 客户管理&#xff1a;该功能可以帮助民宿管理者更加有效地管理客户信息&#xff0c;包括客户的姓名、电话、地址、身份证号码等&#xff0c;并可以在客户的订单中了解客户的消费情况&#xff0c;从而更好地满足客户的需求&#xff…

【C++】数据结构:哈希桶

哈希桶&#xff08;Hash Bucket&#xff09;是哈希表&#xff08;Hash Table&#xff09;实现中的一种数据结构&#xff0c;用于解决哈希冲突问题。哈希表是一种非常高效的数据结构&#xff0c;它通过一个特定的函数&#xff08;哈希函数&#xff09;将输入数据&#xff08;通常…

[Android]将私钥(.pk8)和公钥证书(.pem/.crt)合并成一个PKCS#12格式的密钥库文件

如下&#xff0c;我们有一个platform.pk8和platform.x509.pem。为了打包&#xff0c;需要将私钥&#xff08;.pk8&#xff09;和公钥证书&#xff08;可能是.pem或.crt文件&#xff09;合并成一个PKCS#12 格式的密钥库文件 1.准备你的私钥和证书文件 确保你有以下两个文件&…

【静态分析】在springboot使用太阿(Tai-e)02

参考&#xff1a;使用太阿&#xff08;Tai-e&#xff09;进行静态代码安全分析&#xff08;spring-boot篇二&#xff09; - 先知社区 本文章使用的被分析代码为GitHub - JoyChou93/java-sec-code: Java web common vulnerabilities and security code which is base on springb…

【Linux】Linux基本指令1

1.软件&#xff0c;OS&#xff0c;驱动 我们看看计算机的结构层次 1.1.操作系统 操作系统是一款做 软硬件管理 的软件 操作系统&#xff08;计算机管理控制程序&#xff09;_百度百科 (baidu.com) 操作系统&#xff08;英语&#xff1a;Operating System&#xff0c;缩写&a…

做视频号小店遇到差评怎么处理?如何规避差

大家好&#xff0c;我是喷火龙。 大家在做店的时候应该都会遇到品退、中差评这些问题&#xff0c;这对我们的店铺影响还是非常大的&#xff0c;差评过多就会影响店铺的体验分&#xff0c;从而影响店铺的流量&#xff0c;还会间接的影响商品的转化率&#xff0c;如果太低的话&a…

nginx的常用配置与命令相关硬核干货

今天小晨跟大家分享Nginx常用配置与命令相关的硬核干货&#xff0c;可以说运维工作中基本都会用到这些&#xff0c;掌握它&#xff0c;你可以不用求人&#xff01; Nginx特点 高并发、高性能&#xff1b; 模块化架构使得它的扩展性非常好&#xff1b; 异步非阻塞的事件驱动模…

如何使用java设计出一款可以玩的数独游戏!

要用Java设计一个数独游戏,你可以按照以下步骤进行: 创建一个9x9的二维数组来表示数独的棋盘。生成一个有效的数独解作为游戏的答案。随机地从答案中移除一些数字,以创建游戏的难度等级。创建一个图形用户界面(GUI)来显示棋盘和与用户的交互。检测用户输入的数字是否正确,…

流水账(CPU设计实战)——lab3

Lab3 Rewrite V1.0 版本控制 版本描述V0V1.0相对V0变化&#xff1a; 修改了文件名&#xff0c;各阶段以_stage结尾&#xff08;因为if是关键词&#xff0c;所以module名不能叫if&#xff0c;遂改为if_stage&#xff0c;为了统一命名&#xff0c;将所有module后缀加上_stage&a…

设计模式 22 访问者模式 Visitor Pattern

设计模式 22 访问者模式 Visitor Pattern 1.定义 访问者模式是一种行为型设计模式&#xff0c;它允许你在不改变已有类结构的情况下&#xff0c;为一组对象添加新的操作。它将算法与对象结构分离&#xff0c;使你能够在不修改现有类的情况下&#xff0c;为这些类添加新的操作。…

Autosar Dcm配置-特定NRC实现方式-基于ETAS软件

文章目录 前言工具配置代码编写总结 前言 项目开发过程中&#xff0c;诊断服务一般客户需求或系统需求都会有特定NRC(一般为NRC22-条件不满足)&#xff0c;也就会有特定的条件&#xff0c;需要手动加代码实现。本文介绍ETAS工具中配置的接口及简单实现。 工具配置 对于每一个…

【高阶数据结构】 B树 -- 详解

一、常见的搜索结构 适合做内查找&#xff1a; 以上结构适合用于数据量相对不是很大&#xff0c;能够一次性存放在内存中&#xff0c;进行数据查找的场景。如果数据量很大&#xff0c;比如有 100G 数据&#xff0c;无法一次放进内存中&#xff0c;那就只能放在磁盘上了。 如果…