大语言模型之五 谷歌Gemini

近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI)的推出,谷歌依然没有推出能打的竞品都没有,甚至是后来居上的LlaMA(Meta)类的Google也败下阵来,也许是Google倾尽资源在Gemini上了。
Gemini是谷歌大脑和DeepMind和ChatGPT竞争的多模态( Visual-Language-Action (VLA) )大语言模型,其是将CPT-4和AlphaGo类系统相结合的新的多模态大语言模型。
据传Gemini是将融合多模态Encoder-Decoder的新架构,Encdoer部分对不同的数据提出供Decoder理解的特征,Decoder的任务是理解和执行。

目前的大模型是不具备规划能力,需要用知识图谱等符号主义的方法来增强,也许 Google DeepMind 找到的方法是行为主义【强化学习】的方法,而非符号主义【知识图谱】的方法。
要在人工智能中真正实现 AGI ,这中间最关键的环节是让机器能够自主地从物理世界中学习,这就要求 AGI 具备连续的视觉理解能力。当前的ChatGPT离真正的AGI还欠缺以下能力:
1.感知世界的能力:这个基础是连续视觉感知。可以猜测,Gemini 显然在尝试这个,但发布时是否具备该能力,或者到了哪种程度,现在还未知。
2.推理决策的能力:这个的基础就包括记忆和规划。在 Gemini 有关的信息中显然提到了这一点。关于记忆方面没有很多内容,神经网络本身就具备记忆功能,同时基于此前Google LaMDA模型,在记忆中加入 Google 的知识图谱(Knowledge Graph)也未必不可能。而规划方面,目前已经明确的是使用了 AlphaGo所使用的强化学习方法来增强大模型的规划能力。
3.使用工具的能力:这个就是使用工具和调用 API 的能力,使用工具可以认为是“硬”的能力,比如类似 PaLM-E 操纵机械臂的能力,而调用 API可以认为是“软”的能力。
4.自我意识能力。

在GPT-4的 “Code Interpreter”功能开放之后,我认为使用“软”工具的能力趋于成熟
Google DeepMind 在这块的技术储备是很强的,不管是 PaLM-E 还是 RoboCat,都是成功的尝试。Gemini 从视频中学习出连续的视觉理解能力是非常可能的。而一旦AGI 具备了连续的视觉理解能力,接下来的发展将势不可挡了。
Gemini 应该使用了Youtube 的视频来训练模型,结合哈萨比斯所说的在尝试使用机器人和神经科学【ranging from robotics to neuroscience】的创新方法来增强模型的能力,这就很值得品味了。很有可能就使用视频数据来训练模型的连续视觉理解能力,毕竟机器人视觉和神经科学的很重要一环就是视觉理解。

Gemini 的做一些猜测:

1.神经网络使用MoE架构【高可能性】
2.用某种方法融合了知识图谱来增强记忆【中可能性】
3.训练时用了强化学习,使用了 PPO 之外的优化方法【高可能性】
4.推断时使用了强化学习【低可能性】
5.最大参数在1T~10T 之间【高可能性】,大于10T【中可能性】,小于1T【低可能性】
6.推断时激活参数大于100B【高可能性】,小于100B【低可能性】
7.训练语料的文本词元(tokens)数量大于20~100T【高可能性】(2023年6月谷歌的monorepo Piper 模型的训练数据量是86TB),大于100T【中可能性】,小于10T【低可能性】
8.训练语料的图片10~50B 张【高可能性】,小于10B 张【低可能性】,大于50B 张【中可能性】
9.训练语料的视频大于1000万分钟【高可能性】。
10.训练时间:TPUv4 和 TPUv5 约120 天 ( GPT-5 约 ~25,000 H100/A100 ~120 天, GPT-4 @ ~25,000 A100s for ~90 天, GPT-3 @ ~1,024 A100s for 34 天)
11.预计发布时间也许是2023年9月27日Google 的25岁生日【随便猜测】,2023年年底前【高可能性】。

Gemini相关paper

Gemini在谷歌的定位是AGI,其中之一自我意识是最难的点,谷歌2023年Consciousness in Artificial Intelligence: Insights from the Science of Consciousness 的论文中预测下一个10年将产生具有自我意识的AGI,AGI的发展相关Paper。而代号Gemini是具有自我意识AGI的最迟的原型产品。下面是关于AGI发展进度情况

日期进展总结参考文献
2023年8月22日60%人工智能中的意识——来自意识科学的见解,讨论的意识的定义以及如何评估是否真正具备意识arXiv
2023年8月55%GDM Soft MoE:“一个完全可微的稀疏转换器……保持MoE的优势。”。Soft MoE通过将所有输入代币的不同加权组合传递给每个专家来执行隐含的软分配…Soft MoE大大优于标准Transformers(ViTs)和流行的MoE变体(代币选择和专家选择)。”(arXiv)
2023年7月54% GDM RT-2:“在机器人轨迹数据和互联网规模的视觉语言任务(如视觉问答)上共同微调最先进的视觉语言模型。”(项目地址)
2023年7月52%:Anthropic (PDF)
2023年7月51%: 谷歌DeepMind/普林斯顿:寻求帮助的机器人(“建模不确定性,可以补充和扩展基础模型不断增长的能力。”)Project page
2023年7月51%: 微软LongNet:1B令牌序列长度(“为建模超长序列开辟了新的可能性,例如,将整个语料库甚至整个互联网视为序列。”)Microsoft (arxiv)
2023年6月50%: 谷歌DeepMind RoboCat(“自主改进循环……RoboCat不仅表现出跨任务转移的迹象,而且在适应新任务方面变得更加高效。”)DeepMind blog, Paper (PDF)
2023年6月50%: 微软推出了监视器引导解码(MGD)(“提高了LM…生成与基本事实相匹配的标识符的能力……提高了编译率并与基本事实保持一致。”)Paper (arxiv)
2023年6月50%:前OpenAI顾问使用GPT-4在化学中实现人工智能(“指令、机器人动作、合成分子”)Paper (arxiv), notes
2023年6月50%: 哈佛大学引入了“推理时间干预”(ITI)(“在高水平上,我们首先识别出一组稀疏的注意力头,这些注意力头对真实性的线性探测精度很高。然后,在推理过程中,我们沿着这些与真实性相关的方向转移激活。我们自回归地重复相同的干预,直到生成完整的答案。”)Harvard (arxiv)
2023年6月49%: Google DeepMind在其86TB代码库中对LLM(DIDACT)进行迭代代码训练(“经过训练的模型可以以各种令人惊讶的方式使用……通过将多个预测链接在一起,以展开更长的活动轨迹……我们从一个空白文件开始,并要求模型连续预测接下来会进行哪些编辑,直到它写下完整的代码文件。令人惊讶的是,该模型以一种循序渐进的方式开发代码开发者)Google Blog, Twitter
2023年5月49%: Ability Robotics将LLM与他们的人形机器人Digit相结合。Agility Robotics (YouTube)
2023年5月49%:PaLM 2打破了WinoGrande的90%大关。WinoGrande是一个“更具挑战性、对抗性”的Winograd版本,设计对人工智能来说非常困难,一个大型语言模型首次突破了90%的大关。微调后的PaLM 2得分为90.9%;人类占94%PaLM 2 paper (PDF, Google)
2023年5月49%: Robot+text-davinci-003(“……我们展示了LLM可以直接使用现成的LLM来实现机器人的泛化,利用它们从大量文本数据中学习到的强大摘要功能。”)Princeton/Google/others
2023年4月48%: 波士顿 Dynamics+ChatGPT(“我们将ChatGPT与我们的[波士顿 Dynamics Spot]机器人集成在一起。”)Levatas
2023年5月48%:微软推出了TaskMatrix.ai(“我们展示TaskMatrix.ai如何通过[LLM]在物理世界中执行任务与机器人和物联网设备交互……所有这些案例都已在实践中实施……通过摄像头API了解环境,并将用户指令转换为机器人提供的动作API……通过连接物联网设备,促进在机器人的帮助下处理体力工作和建造智能家居…”)。Microsoft (arxiv)
2023年5月48%: OpenAI引入了GPT-4,可考证的记录微软认为GPT-4是“早期AGI”(“鉴于GPT-4能力的广度和深度,以合理地被视为人工通用智能(AGI)系统的早期(但仍然不完整)版本。”)。微软删除的论文原标题是“首次接触AGI系统”。请注意,LLM仍然没有体现。Microsoft Research
2023年5月42%: 谷歌推出了PaLM-E 562B(PaLM体现。“PaLM-E可以根据视觉和语言输入成功规划多个阶段……成功规划长期任务……”)Google
2023年2月41%: 微软在机器人中使用了ChatGPT,它自我改进了(“我们对ChatGPT仅使用语言反馈进行本地化代码改进的能力印象深刻。”)Microsoft
2022年12月39%: 通过人工智能反馈强化学习(RLAIF)训练的人类RL-CAI 52B(“我们已经远离了对人类监督的依赖,更接近于自我监督的对齐方法”)LifeArchitect.ai, Anthropic paper (PDF)
2022年7月39%: NVIDIA的Hopper(H100)电路由人工智能设计(“最新的NVIDIA Hopper GPU架构有近13000个人工智能设计的电路实例”)。LifeArchitect.ai, NVIDIA
2022年5月39%: DeepMind Gato是第一个多面手特工,可以“玩Atari、配图片、聊天、用真正的机械臂堆叠区块等等”。Watch Alan’s video about Gato.
2021年6月31% 谷歌的TPUv4芯片由人工智能设计(“允许芯片设计由比任何人类设计师都更有经验的人工代理执行。我们的方法被用于设计谷歌的下一代人工智能(AI)加速器,有可能为每一代新产品节省数千小时的人力。”我们相信,更强大的人工智能设计硬件将推动人工智能的发展,在这两个领域之间建立共生关系”)。LifeArchitect.ai, Nature, Venturebeat
2020年11月30%: Connor Leahy,EleutherAI的联合创始人,GPT-2的再创造者,GPT-J和GPT-NeoX-20B的创造者,谈到OpenAI GPT-3时说:“我认为GPT-3是人工通用智能,AGI。我认为GPT-3和人类一样聪明。我认为它可能在某种程度上比人类更聪明……在很多方面,它比人类更纯粹聪明。我觉得人类正在接近GPT-3的所作所为,而不是相反。”视频 (timecode)
2017年8月20%: Google Transformer 架构对搜索、翻译以及语言模型产生了深远的影响初始报道文章.

Gemini团队组成

Gemini 将团队划分为约 10 个小组,分别负责预训练、数据、基础设施、模型微调、模型评估、代码库、多模态、强化学习、工具使用以及人工标注数据。
在这里插入图片描述

Gemini细节

实现Paper、技术report以及开源资料,待谷歌发布后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/90519.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

红蓝攻防:浅谈削弱WindowsDefender的各种方式

前言 随着数字技术的日益进步,我们的生活、工作和娱乐越来越依赖于计算机和网络系统。然而,与此同时,恶意软件也日趋猖獗,寻求窃取信息、破坏系统或仅仅为了展现其能力。微软Windows,作为世界上最流行的操作系统&…

2023年03月 C/C++(三级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:和数 给定一个正整数序列,判断其中有多少个数,等于数列中其他两个数的和。 比如,对于数列1 2 3 4, 这个问题的答案就是2, 因为3 = 2 + 1, 4 = 1 + 3。 时间限制:10000 内存限制:65536 输入 共两行,第一行是数列中数的个数n ( 1 <= n <= 100),第二行是由n个…

商品搜索网:连接您与各类商品的桥梁

导语&#xff1a;在如今信息爆炸的时代&#xff0c;购物已经不再是传统的实体店购买&#xff0c;而是通过互联网实现的线上购物方式。而要实现高效的线上购物&#xff0c;商品搜索引擎则成为我们的得力助手。作为国内垂直的商品搜索之一&#xff0c;为中国用户提供全面的数码电…

咸鱼之王俱乐部网站开发

我的俱乐部 最新兑换码 *注意区分大小写&#xff0c;中间不能有空格&#xff01; APP666 HAPPY666 QQ888 QQXY888 vip666 VIP666 XY888 app666 bdvip666 douyin666 douyin777 douyin888 happy666 huhushengwei888 taptap666 周活动 宝箱周 宝箱说明 1.木质宝箱开启1个…

缺页异常与copy-on-write fork

缺页异常需要什么 当发生缺页异常时&#xff0c;内核需要以下信息才能响应这个异常&#xff1a; 出错的虚拟地址&#xff08;引发缺页异常的源&#xff09; 当一个用户程序触发了缺页异常&#xff0c;会切换到内核空间&#xff0c;将出错的地址放到STVAL寄存器中&#xff0c;…

AndroidAGP8.1.0和JDK 17迁移之旅

AndroidAGP8.1.0和JDK 17迁移之旅 前言&#xff1a; 由于我最近写demo的直接把之前的项目从AGP4.2.2升级到8.1.0引发了一些列问题&#xff0c;这里记录一下&#xff0c;前面讲解过迁移DSL方式遇到的问题&#xff0c;这次升级8.1.0也比之前顺利多了&#xff0c;想看DSL迁移的可…

LeetCode——有效的括号

这里&#xff0c;我提供一种用栈来解决的方法&#xff1a; 思路&#xff1a;栈的结构是先进后出&#xff0c;这样我们就可以模拟栈结构了&#xff0c;如果是‘&#xff08;’、‘{’、‘[’任何一种&#xff0c;直接push进栈就可以了&#xff0c;如果是‘}’、‘&#xff09;’…

常见前端面试之VUE面试题汇总七

20. 对 vue 设计原则的理解 1.渐进式 JavaScript 框架&#xff1a;与其它大型框架不同的是&#xff0c;Vue 被设计 为可以自底向上逐层应用。Vue 的核心库只关注视图层&#xff0c;不仅易于上 手&#xff0c;还便于与第三方库或既有项目整合。另一方面&#xff0c;当与现代化的…

2023有哪些更好用的网页制作工具

过去&#xff0c;专业人员使用HTMLL、CSS、Javascript等代码手动编写和构建网站。现在有越来越多的智能网页制作工具来帮助任何人实现零代码基础&#xff0c;随意建立和设计网站。在本文中&#xff0c;我们将向您介绍2023年流行的网页制作工具。我相信一旦选择了正确的网页制作…

OpenGL —— 2.5、绘制第一个三角形(附源码,glfw+glad)(更新:纹理贴图)

源码效果 C源码 纹理图片 需下载stb_image.h这个解码图片的库&#xff0c;该库只有一个头文件。 具体代码&#xff1a; vertexShader.glsl #version 330 corelayout(location 0) in vec3 aPos; layout(location 1) in vec3 aColor; layout(location 2) in vec2 aUV;out ve…

如何搭建智能家居系统并通过内网穿透实现远程控制家中设备

文章目录 前言1. 安装Home Assistant2. 配置Home Assistant3. 安装cpolar内网穿透3.1 windows系统3.2 Linux系统3.3 macOS系统 4. 映射Home Assistant端口5. 公网访问Home Assistant6. 固定公网地址6.1 保留一个固定二级子域名6.2 配置固定二级子域名 前言 Home Assistant&…

(三)Linux中卸载docker(非常详细)

docker 卸载 使用yum安装docker 如需卸载docker可以按下面步骤操作&#xff1a; 1、停止docker服务 systemctl stop docker 2、查看yum安装的docker文件包 yum list installed |grep docker 3、查看docker相关的rpm源文件 rpm -qa |grep docker 4、删除所有安装的docke…

【JVM 内存结构丨栈】

栈 -- 虚拟机栈 简介定义压栈出栈局部变量表操作数栈方法调用特点作用 本地方法栈&#xff08;C栈&#xff09;定义栈帧变化作用对比 主页传送门&#xff1a;&#x1f4c0; 传送 简介 栈是用于执行线程的内存区域&#xff0c;它包括局部变量和操作数栈。 Java 虚拟机栈会为每…

MySql学习4:多表查询

教程来源 黑马程序员 MySQL数据库入门到精通&#xff0c;从mysql安装到mysql高级、mysql优化全囊括 多表关系 各个表结构之间存在各种关联关系&#xff0c;基本上分为三种&#xff1a;一对多&#xff08;多对一&#xff09;、多对多、一对一 一对多&#xff08;多对一&…

学习设计模式之观察者模式,但是宝可梦

前言 作者在准备秋招中&#xff0c;学习设计模式&#xff0c;做点小笔记&#xff0c;用宝可梦为场景举例&#xff0c;有错误欢迎指出。 观察者模式 观察者模式定义了一种一对多的依赖关系&#xff0c;一个对象的状态改变&#xff0c;其他所有依赖者都会接收相应的通知。 所…

常见前端面试之VUE面试题汇总八

22. Vue 子组件和父组件执行顺序 加载渲染过程&#xff1a; 1.父组件 beforeCreate 2.父组件 created 3.父组件 beforeMount 4.子组件 beforeCreate 5.子组件 created 6.子组件 beforeMount 7.子组件 mounted 8.父组件 mounted 更新过程&#xff1a; 1. 父组件 befor…

安全防护产品对接流程讲解

服务器被攻击了&#xff0c;怎么对接高防产品呢&#xff0c;需要提供什么&#xff1f; 1、配置转发规则&#xff1a;提供域名、IP、端口&#xff0c;由专业技术人员为您配置转发协议/转发端口/源站IP等转发规则&#xff0c;平台会分配该线路独享高防IP。 2、修改DNS解析&…

大数据:AI大模型对数据分析领域的颠覆(文末送书)

随着数字化时代的到来&#xff0c;大数据已经成为了各行各业中不可或缺的资源。然而&#xff0c;有效地分析和利用大数据仍然是一个挑战。在这个背景下&#xff0c;OpenAI推出的Code Interpreter正在对数据分析领域进行颠覆性的影响。 如何颠覆数据分析领域&#xff1f;带着这…

java八股文面试[JVM]——双亲委派模型

1.当AppClassLoader去加载一个class时&#xff0c;它首先不会自己去尝试加载这个类&#xff0c;而是把类加载请求委托给父加载器ExtClassLoader去完成。 2.当ExtClassLoader去加载一个class时&#xff0c;它首先也不会去尝试加载这个类&#xff0c;而是把类加载请求委托给父加载…

Module not found: Error: Can‘t resolve ‘less-loader‘解决办法

前言&#xff1a; 主要是在自我提升方面&#xff0c;感觉自己做后端还是需要继续努力&#xff0c;争取炮筒前后端&#xff0c;作为一个全栈软阿金开发人员&#xff0c;所以还是需要努力下&#xff0c;找个方面&#xff0c;目前是计划学会Vue&#xff0c;这样后端有java和pytho…