Grok ai——很牛叉的ai工具Grok-1大模型

Grok
Grok 是一款仿照《银河系漫游指南》(Hitchhiker's Guide to the Galaxy)设计的人工智能。它可以回答几乎任何问题,更难的是,它甚至可以建议你问什么问题!

Grok 是一个仿照《银河系漫游指南》设计的人工智能,几乎能回答任何问题,更难的是,它甚至能建议你问什么问题!

Grok 在回答问题时略带诙谐,有反叛的倾向,所以如果你讨厌幽默,请不要使用它!

Grok 的一个独特而基本的优势是,它可以通过 𝕏 平台实时了解世界。它还能回答被大多数其他人工智能系统拒绝的辛辣问题。

Grok 仍然是一个非常早期的测试版产品--我们通过 2 个月的训练已经做到了最好--因此,希望在您的帮助下,它每周都能快速改进。

我们为什么要创建 Grok
在 xAI,我们希望创造人工智能工具,帮助人类寻求理解和知识。

通过创建和改进 Grok,我们的目标是

收集反馈,确保我们打造的人工智能工具能够最大限度地造福全人类。我们认为,设计出对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下,通过我们的人工智能工具增强用户的能力。我们与 Grok 合作的目标就是探索并公开展示这种方法。
增强研究和创新能力:我们希望 Grok 成为任何人的强大研究助手,帮助他们快速获取相关信息、处理数据并提出新想法。
我们的终极目标是让我们的人工智能工具帮助人们追求理解。

通往 Grok-1 的旅程
为 Grok 提供动力的引擎是 Grok-1,这是我们在过去四个月中开发的前沿 LLM。在这段时间里,Grok-1 经历了多次迭代。

在发布 xAI 之后,我们用 330 亿个参数训练了一个 LLM 原型(Grok-0)。这个早期模型在标准 LM 基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。在过去的两个月中,我们在推理和编码能力方面取得了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的先进语言模型,在 HumanEval 编码任务中达到了 63.2%,在 MMLU 中达到了 73%。

为了了解我们通过 Grok-1 所取得的能力提升,我们使用了一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。

GSM8k:初中数学单词问题(Cobbe 等人,2021 年),使用思维链提示。

MMLU:多学科选择题,(Hendrycks 等人,2021 年),提供 5 个背景下的例子。

HumanEval:Python 代码完成任务,(Chen 等人,2021 年),零镜头评估通过@1。

MATH:用 LaTeX 编写的初中和高中数学问题,(Hendrycks 等人,2021 年),提供固定的 4 次提示。

在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源进行训练的模型才能超越它。这展示了我们 xAI 在高效训练 LLM 方面取得的快速进展。

由于这些基准可以在网上找到,我们不能排除我们的模型是无意中在这些基准上训练出来的,因此我们在收集数据集后,根据 5 月底公布的 2023 年匈牙利全国高中数学期末考试成绩,对我们的模型(以及 Claude-2 和 GPT-4)进行了人工评分。Grok 以 C 级(59%)通过考试,Claude-2 也取得了同样的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。所有模型都是在温度 0.1 和相同提示下进行评估的。必须指出的是,我们没有为这次评估做任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的 "真实 "测试。

我们在模型卡中概述了 Grok-1 的重要技术细节。

xAI 的工程设计

在深度学习研究的前沿领域,可靠的基础设施必须与数据集和学习算法一样精心打造。为了创建 Grok,我们基于 Kubernetes、Rust 和 JAX 构建了一个定制的训练和推理堆栈。

LLM 训练就像一列轰鸣前行的货运列车;如果其中一节车厢出轨,整列列车就会被拖离轨道,很难再直立起来。GPU 出现故障的原因有很多:制造缺陷、连接松动、配置不正确、存储芯片退化、偶尔的随机位翻转等等。在训练时,我们会连续数月在数以万计的 GPU 上同步计算,所有这些故障模式都会因规模而变得频繁。为了克服这些挑战,我们采用了一套定制的分布式系统,确保立即识别并自动处理每一种类型的故障。在 xAI,我们将最大限度地提高每瓦特的有用计算能力作为工作重点。在过去的几个月里,我们的基础设施使我们能够最大限度地减少停机时间,即使在硬件不可靠的情况下也能保持较高的模型翻转利用率(MFU)。

事实证明,Rust 是构建可扩展、可靠和可维护基础设施的理想选择。它提供了高性能、丰富的生态系统,并能防止通常在分布式系统中发现的大多数错误。鉴于我们的团队规模较小,基础架构的可靠性至关重要,否则,维护工作就会阻碍创新。Rust 为我们提供了信心,任何代码修改或重构都有可能产生可运行的程序,只需最少的监督就能运行数月。

现在,我们正在为模型能力的下一次飞跃做准备,这将需要在数以万计的加速器上可靠地协调训练运行,运行互联网规模的数据管道,并在 Grok 中构建新型功能和工具。如果您对此感到兴奋,请在此申请加入我们的团队。

xAI 的研究

我们让 Grok 能够访问搜索工具和实时信息,但与所有基于下一个标记词预测训练的 LLM 一样,我们的模型仍可能生成错误或矛盾的信息。我们认为,实现可靠的推理是解决当前系统局限性的最重要研究方向。在此,我们想重点介绍一下我们在 xAI 最感兴趣的几个有前途的研究方向:

在工具协助下进行可扩展的监督。人工反馈至关重要。然而,提供一致而准确的反馈可能具有挑战性,尤其是在处理冗长的代码或复杂的推理步骤时。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人类反馈,来协助进行可扩展的监督。我们的目标是在模型的帮助下,最有效地利用人工智能导师的时间。
与形式验证相结合,实现安全性、可靠性和落地性。为了创建能够对现实世界进行深入推理的人工智能系统,我们计划在不那么模糊和更可验证的情况下开发推理技能。这样,我们就可以在没有人类反馈或与现实世界互动的情况下评估我们的系统。这种方法的一个主要近期目标是为代码的正确性提供形式上的保证,尤其是在人工智能安全性的形式可验证方面。
长语境理解与检索。在特定情境中有效发现有用知识的训练模型是生产真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。
对抗鲁棒性。对抗性实例表明,优化者可以轻易地利用人工智能系统的漏洞,无论是在训练期间还是在服务期间,从而导致它们犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们对提高 LLM、奖励模型和监控系统的鲁棒性特别感兴趣。
多模态能力。目前,Grok 还没有其他感官,如视觉和音频。为了更好地为用户提供帮助,我们将为 Grok 配备这些不同的感官,以实现更广泛的应用,包括实时互动和帮助。
我们相信,人工智能蕴含着巨大的潜力,能够为社会贡献重要的科学和经济价值,因此我们将努力开发可靠的保障措施,防止灾难性的恶意使用。我们相信,我们将尽最大努力确保人工智能始终是一股向善的力量。

如果你和我们一样乐观,并希望为我们的使命做出贡献,请在此申请加入我们的团队。

早期使用 Grok
我们在美国提供数量有限的用户试用我们的 Grok 原型,并提供宝贵的反馈意见,以帮助我们在更广泛发布之前改进其功能。您可以在这里加入 Grok 候补名单。这次发布只是 xAI 迈出的第一步。展望未来,我们有一个令人兴奋的路线图,并将在未来几个月推出新的功能和特性。 

截至目前, 仅当您是 X Premium+ 订阅者时才可以免费使用 Grok AI。如果您有这样的 X 个人资料,请前往 Grok 的网页 并单击 使用 X 登录 按钮。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/469679.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构:详解【顺序表】的实现

1. 顺序表的定义 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构,一般情况下采用数组存储。动态顺序表与数组的本质区别是——根据需要动态的开辟空间大小。 2. 顺序表的功能 动态顺序表的功能一般有如下几个: 初始化顺序表打印顺序…

计算机组成原理-3-系统总线

3. 系统总线 文章目录 3. 系统总线3.1 总线的基本概念3.2 总线的分类3.3 总线特性及性能指标3.4 总线结构3.5 总线控制3.5.1 总线判优控制3.5.2 总线通信控制 本笔记参考哈工大刘宏伟老师的MOOC《计算机组成原理(上)_哈尔滨工业大学》、《计算机组成原理…

spring suite搭建springboot操作

一、前言 有时候久了没开新项目了,重新开发一个新项目,搭建springboot的过程都有点淡忘了,所有温故知新。 二、搭建步骤 从0开始搭建springboot 1.创建work空间。步骤FileNewJava Working Set。 2.选择Java Working Set。 3.自…

微信小程序接口请求出错:request:fail url not in domain list:xxxxx

一、微信小程序后台和开发者工具配的不一样导致了这个错误 先说结论: 开发者工具配置了https://www.xxx.cn/prod-api/ 微信后台配置了 https://www.xxx.cn 一、最开始 开发者工具配置了https://www.xxx.cn:7500 微信后台配置了 https://www.xxx.cn 报错:reques…

OPTEE v3.20.0 FVP环境搭建

目录 一、前提条件 二、下载fvp代码 三、下载工具链 四、下载Foundation_Platform FVP平台 五、编译及运行 一、前提条件 1、安装如下的依赖工具 sudo apt-get install android-tools-adb android-tools-fastboot autoconf \ automake bc bison build-essential ccache c…

2024精灵传信系统支持电脑PC端+小程序双端源码

2024精灵传信系统支持电脑PC端小程序双端源码 精灵传信支持在线提交发送短信,查看回复短信,在线购买额度,自定义对接易支付,设置违禁词,支持网站小程序双端。 搭建环境: PHP > 73 MySQL>5.6 Nginx…

当两会热词碰上“人工智能+”,你知道哪些企业算是行业弄潮儿吗?

最近正值全国“两会”的召开,一大批新词热词涌现,聚焦了各行各业的发展,也一定程度上代表了未来的主要发展方向。“未来产业”、“人工智能”、“全国一体化算力体系”等热词的出圈充分表明了信息技术行业是一大发展重点,尤其是人…

护航容器安全:私有Registry在镜像审核中的关键角色与实战策略

在容器化技术日益普及的今天,Docker镜像的质量与安全性成为了构建稳定、可靠应用的关键要素。私有Registry作为镜像的集中存储和分发中心,不仅可以提供镜像的统一管理,还能通过集成镜像审核机制,确保进入生产环境的镜像符合安全与…

如何解决MySQL死锁(看懂MySQL锁日志)

有时候系统在生产运行着,会突然爆出 [40001][1213] Deadlock found when trying to get lock; try restarting transaction 这个时候每个人都会很紧张,因为死锁会影响DB性能,严重时甚至拖垮整个系统。在实际的环境中,很多服务会共…

【电路笔记】-达林顿晶体管

达林顿晶体管 文章目录 达林顿晶体管1、概述2、基本达林顿晶体管配置3、示例4、达林顿晶体管应用5、Sziklai 晶体管对6、ULN2003A 达林顿晶体管阵列7、总结两个双极晶体管的达林顿晶体管配置可针对给定基极电流提供更大的电流切换。 1、概述 达林顿晶体管以其发明者 Sidney Da…

文件包含漏洞之包含NGINX日志文件(常用)

条件:知道目标服务器的日志文件存贮路径,并且存在文件包含漏洞 首先对目标服务器发送一次含有木马的请求,目的是让目标服务器日志中生成含有木马的日志记录。因为发送过程中,使用了url编码,我们抓包进行更改成能够执行…

【Python爬虫】详解BeautifulSoup()及其方法

文章目录 🍔准备工作🌹BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档🎆获取特定标签的特定内容 🌹查找标签🎈在文档查找标签 find_all🎈正则表达式搜索 &#x…

echarts geo地图加投影两种方法

方法1,geo中加多个地图图形,叠加。缩放时 可能会不一致,需要捕捉georoam事件,使下层的geo随着上层的geo一起缩放拖曳 geo: [{zlevel: 3,//geo显示级别,默认是0 【最顶层图形】map: BJ,//地图名roam: true,scaleLimit: …

虚拟机VMware上 centos7 的网络配置

第一步:权限的切换 由普通用户切换到管理者/超级用户 用户名为:root 密码为:自己安装 linux 时第一次设置的密码 su -root管理者/超级用户的命令提示符是“#”,普通用户的命令提示符是“$”。当看到你的命令提示符为“$”时&…

VScode 设置个性化背景(保姆级教程)

VS Code设置个性化背景的作用主要体现在以下几个方面: 提升编程体验:个性化背景能够让编程环境更符合个人的审美和习惯,使得长时间在VS Code中进行代码编辑时,能够保持愉悦的心情,从而提高编程效率。减少视觉疲劳&…

微隔离是什么,有什么作用

传统的网络安全架构通常是基于较大的安全区域(如子网或虚拟局域网),在这些区域内的设备可以相互通信。然而,这也意味着一旦内部的设备被威胁或遭到入侵,攻击者可能会在整个安全区域内进行横向移动和渗透。 微隔离通过…

GNSS载波相位平滑伪距基本原理

相位平滑技术:削弱伪距欢测值的随机误差影响 差分技术:削弱欢测方程中的系统误差影响 相位平滑伪距原理: GPS接收机除了提供伪距测量外,可同时提供载波相位测量,由于载波相位测量的精度比码相位的测量精度高2个数量…

蓝桥杯嵌入式第十届省赛 真题+代码

led.c文件 #include "led.h"void Led(uint16_t addr,uint16_t enable) {static uint16_t temp 0x0000;static uint16_t temp_old 0xffff;HAL_GPIO_WritePin(GPIOC, GPIO_PIN_All, GPIO_PIN_SET);if(enable)temp | 0x0100 << addr;elsetemp & ~(0x0100 &…

在sql server 2016 always on集群里新增一个数据库节点

本篇博客有对应的word版本&#xff0c;有需要的可以点击这里下载。 一 环境介绍 二 操作步骤 2.1 在新节点上安装sql server软件 略 2.2 在新节点上开启‘故障转移群集功能’ 打开‘服务管理器’&#xff1a; 点击‘添加角色和功能’&#xff1a; 勾选’DNS服务器’&#…

【Godot4.2】2D导航01 - AStar2D及其使用方法

概述 对于2D平台跳跃或飞机大战&#xff0c;以及一些直接用键盘方向键操控玩家的游戏&#xff0c;是根本用不到寻路的&#xff0c;因为只需要检测碰撞就可以了。 但是对于像RTS或战棋这样需要操控玩家到地图指定位置的移动方式&#xff0c;就绝对绕不开寻路了。 导航、碰撞与…