模型上下文长度达到10000000,又一批创业者完蛋了?

没有疑问,Gemini 1.5 Pro的隆重推出被Sora抢了风头。

社交平台X上OpenAI介绍Sora的第一条动态,现在已经被浏览了超过9000万次,而关于Gemini 1.5 Pro热度最高的一条,来自谷歌首席科学家Jeff Dean,区区123万人。

或许Jeff Dean自己也觉得郁闷。Gemini 1.5 Pro和Sora共同发布的一周后,他在X上点赞了沃顿商学院副教授Ethan Mollick认为人们对大模型的注意力发生了偏差的观点。

Ethan Mollick几乎是教育界最早公开推崇生成式AI的人之一,他在2023年2月公开呼吁学生应该都应该开始用ChatGPT写论文。而这一次他的观点是,考虑到大模型在图像生成方面所体现出的有限价值,它实在是引起了过多的讨论了。

“对于大模型的实验室来说,图像生成更像是一个聚会上的节目......做为内核的LLM才是价值所在。但社交媒体更乐于分享照片。”

——没说的是,社交媒体也更乐于分享Gif,以及视频。

人类是视觉动物,所以Sora才会这么抢眼。或许我们太高估了Sora,又太忽视了Gemini 1.5 Pro。

Gemini 1.5 Pro展现出的众多能力中有一点很特殊,它已经是一个具备处理视频语料输入的多模态大模型。Sora能将文字扩展成视频,Gemini 1.5 Pro的野心是把理解视频的能力开放出来。在对模型能力的考验上,很难说后者就弱于前者。

这背后的基础性工作在上下文输入长度上。Gemini 1.5 Pro的上下文长度达到1M Token,这意味着一小时的视频、3万行代码或者JK·罗琳把小说从《哈利波特与魔法石》写到《哈利波特与凤凰社》,远高于包括GPT、Claude系列在内的目前市面上所有的大模型。而谷歌甚至透露,1M Token并不是极限,谷歌内部已经成功测试了高达10M Token的输入,也就是说,它已经能一口气看完9个小时的《指环王》三部曲。

上下文长度抵达10M Token到底意味着什么,等到Sora带来的激情稍褪,人们逐渐回过味儿来。

X、Reddit......越来越多的讨论场开始关注到10M Token所展现出的可能性,其中最大的争议在于,它是否“杀死”了RAG(Retrieval Augment Generation,检索增强生成)。

大模型从概念走向商业应用的过程中,本身的问题逐渐暴露,RAG开始成为贯穿整个2023年最火热的技术名词。

一个被普遍接受的描述框架给这项技术找到了最精准的定位。如果将整个AI看作一台新的计算机,LLM就是CPU,上下文窗口是内存,RAG技术是外挂的硬盘。RAG的责任是降低幻觉,并且提升这台“新计算机”的实效性和数据访问权限。

但本质上这是因为这台“新计算机”仍然又笨又贵,它需要更多脑容量、需要了解更具专业性的知识,同时最好不要乱动昂贵又玻璃心的那颗CPU。RAG某种程度上是为了生成式AI能够尽早进入应用层面的权宜之计。

10M Token的上下文输入上限,意味着很多RAG要解决的问题不成问题了,然后一些更激进的观点出现了。

曾构建了评测基准C-EVAL的付尧认为,10M Token杀死了RAG——或者更心平气和的说法是,长文本最终会取代RAG。

图片

这个观点引发了巨大讨论,他也随后对这个看起来“暴论”式的判断所引发的反对观点做了进一步解释,值得一看。

其中最重要的,是长文本相比于RAG在解码过程中检索上的优越性:

“RAG只在最开始进行检索。通常,给定一个问题,RAG会检索与该问题相关的段落,然后生成。长上下文对每一层和每个Token进行检索。在许多情况下,模型需要进行即时的每个Token的交错检索和推理,并且只有在获得第一个推理步骤的结果后才知道要检索什么。只有长上下文才能处理这种情况。

针对RAG支持1B级别的Token,而目前Gemini 1.5 pro支持的上下文长度是1M的问题:

“确实如此,但输入文档存在自然分布,我倾向于相信大多数需要检索的案例都在百万级以下。例如,想象一个处理案例的层,其输入是相关的法律文件,或者一个学习机器学习的学生,其输入是三本机器学习书籍——感觉不像1B那么长,对吗?”

“大内存的发展并不意味着硬盘的淘汰。”有人持更温和的观点。

出于成本和效率上的考虑,超长文本输入在这两方面显然并不成熟。因此哪怕面对10M Token的上下文输入上限,RAG仍然是必须的,就像我们时至今日仍然没有淘汰掉硬盘。

图片

如果将上下文的窗口设定为1M,按现在0.0015美元/1000token的收费标准,一次请求就要花掉1.5美元,这么高的成本显然是无法实现日常使用的。

时间成本上,1M的上下文长度在Gemini 1.5 Pro的演示实例中,需要60秒来完成结果的输出——但RAG几乎是实时的。

付尧的观点更倾向于——“贵的东西,缺点只有贵”。

“RAG 很便宜,长上下文很昂贵。确实如此,但请记住,与 LLM 相比,BERT-small 也便宜,n-gram 更便宜,但今天我们已经不使用它们,因为我们希望模型首先变得智能,然后再变得智能模型更便宜。

——人工智能的历史告诉我们,让智能模型变得更便宜比让廉价模型变得智能要容易得多——当它很便宜时,它就永远不会智能。”

一位开发者的观点代表了很多对这一切感到兴奋的技术人员:在这样一场技术革命的早期阶段,浪费一点时间可能也没有那么要紧。

“假设我花了5分钟或1小时(见鬼,即使花了一整天)才将我的整个代码库放入聊天的上下文窗口中。如果在那之后,人工智能能够像谷歌声称的那样,在剩下的对话中近乎完美地访问该上下文,我会高兴、耐心和感激地等待这段时间。”这位在一家数字产品设计公司中供职的博客作者里这样写道。

在这位开发者发布这条博客之前,CognosysAi的联创Sully Omarr刚刚往Gemini 1.5 Pro的窗口里塞进去一整个代码库,并且发现它被完全理解了,甚至Gemini 1.5 Pro辨别出了代码库中的问题并且实施了修复。

“这改变了一切。”Sully Omarr在X上感叹。

被改变的可能也包括与Langchain相关的一切。一位开发者引用了Sully Omarr的话,暗示Langchain甚至所有中间层玩家即将面临威胁。

向量数据库可能突然之间就变成了一个伪需求——客户直接把特定领域的知识一股脑儿扔进对话窗口就好了,为什么要雇人花时间来做多余的整理工作呢(并且人脑对信息的整理能力也比不过优秀的LLM)?

付尧的预测与这位开发者相似,甚至更具体——以Langchain 、LLaMA index这类框架作为技术栈的初创公司,会在2025年迎来终结。

但必须强调的是,付尧对于RAG的判断和解释弱化了在成本和响应速度上的考虑,原因或许是他正在为谷歌工作,而这两点仍然是让在当下RAG具备高价值的决定性因素。而如果看向这场上下文长度的讨论背后,谷歌在这场竞争中最大的优势开始展现出来了。

他拥有目前这个行业里最多的计算能力。换句话说,对于上下文长度极限的探索,目前只有谷歌能做,它也拿出来了。

从2014年至今,谷歌已经构建了6种不同的TPU芯片。虽然单体性能仍然与H100差距明显,但TPU更贴合谷歌自己生态内的系统。去年8月,SemiAnalysis的两位分析师Dylan Patel和Daniel Nishball揭露谷歌在大模型研发上的进展时表示,⾕歌模型FLOPS利⽤率在上一代TPU产品TPUv4上已经⾮常好,远超GPT-4。

目前谷歌最新的TPU产品是TPUv5e。两位分析师的调查显示,谷歌掌握的TPUv5e数量比OpenAI、Meta、CoreWeave、甲骨文和亚马逊拥有的GPU总和更多。文章里称TPUv5e将会用到谷歌最新的大模型(即是后来发布的Gemini系列)训练上,算力高达1e26 FLOPS,是GPT-4的5倍。

图片

这个猜测在谷歌最新开源的Gemma身上得到了佐证。Gemma是Gemini的轻量化版本,两者共享相同的基础框架和相关技术,而在Gemma放出的技术报告中表明,其训练已经完全基于TPUv5e。

这也不难理解为何奥特曼要花7万亿美元为新的算力需求未雨绸膜。虽然OpenAI拥有的总GPU数量在2年内增长了4倍。

“"In our research, we’ve also successfully tested up to 10 million tokens."(在研究中,我们也成功测试了多达10M Token)”

这被Sora暂时掩盖住的一次尝试或许在未来会作为生成式AI上的一个重要时刻被反复提及,它现在也真正让发明了transformer框架的谷歌,回归到这场本该由自己引领的竞争中了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/408297.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue3路由组件练习

Vue3 路由组件练习 演示效果代码分析 安装 vue-router创建路由文件创建路由实例使用 router-link 组件导航 代码实现 index.js 文件App 文件 1. 演示效果 2. 代码分析 2.1. 安装 vue-router 命令:npm i vue-router 应用插件:Vue.use(VueRouter) 2.2…

【Ubuntu】通过网线连接两台电脑以实现局域网连接的方法

有时我们需要将多台计算机连接在一起,以便实现数据共享、资源访问等功能。本文将介绍如何通过网线连接两台运行Ubuntu操作系统的电脑,以便它们能够直接通信,从而实现局域网连接。 1. 准备工作 在开始之前,请准备好: …

车载电子电器架构 —— 基础技术开发概述

车载电子电器架构 —— 基础技术开发概述 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明…

05 EXTI外部中断

一、中断系统 中断系统:管理和执行中断的逻辑结构。中断:在主程序运行过程中,出现了特定的中断触发条件——中断源,使得CPU暂停当前正在运行的程序,转而去处理中断程序,处理完成后又返回原来被暂停的位置继…

Linux配置jdk、tomcat、mysql离线安装与启动

目录 1.jdk安装 2.tomcat的安装(开机自启动) 3.MySQL的安装 4.连接项目 1.jdk安装 上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 解压安装包 这里需要解压到usr/local目录下,在这里我新建一个文件夹…

普中51单片机学习(DA转换)

DA数模转换 分辨率 分辨率是指输入数字量的最低有效位(LSB)发生变化时,所对应的输出模拟量(电压或电流)的变化量。它反映了输出模拟量的最小变化值。 分辨率与输入数字量的位数有确定的关系,可以表示成FS …

FariyGUI × Cocos Creator 3.x 弹窗制作

在fgui里制作一个弹窗 新建一个按钮,作为返回按钮 新建一个标签 做成这个样子 其中包含两个节点,名称分别为title和closeButton 可以阅读fgui的源码window.js得到,closeButton按钮只需要输入名称即可在contentPane设置时自动绑定。 且会…

使用 React 和 MUI 创建多选 Checkbox 树组件

在本篇博客中,我们将使用 React 和 MUI(Material-UI)库来创建一个多选 Checkbox 树组件。该组件可以用于展示树形结构的数据,并允许用户选择多个节点。 前提 在开始之前,确保你已经安装了以下依赖: Reac…

汇编反外挂

在软件保护领域,尤其是游戏保护中,反外挂是一个重要的议题。外挂通常指的是一种第三方软件,它可以修改游戏数据、操作游戏内存或提供其他作弊功能,从而给玩家带来不公平的优势。为了打击外挂,游戏开发者会采取一系列措…

计算机网络-网络互联

文章目录 网络互联网络互联方法LAN-LAN:网桥及其互连原理使用网桥实现LAN-LAN使用交换机扩展局域网使用路由器连接局域网 LAN-WANWAN-WAN路由选择算法非自适应路由选择算法自适应路由选择算法广播路由选择算法:分层路由选择算法 网络互联 网络互联是指利…

数据存储-文件存储

一、CSV文件存储 csv是python的标准库 列表数据写入csv文件 import csvheader [班级, 姓名, 性别, 手机号, QQ] # 二维数组 rows [[学习一班, 大娃, 男, a130111111122, 987456123],[学习二班, 二娃, 女, a130111111123, 987456155],[学习三班, 三娃, 男, a130111111124, …

Javase补充-Arrays类的常用方法汇总

文章目录 一 . 排序方法二 . 查找方法三 . 判断是否相等的方法四 . 拷贝方法五 . 填充方法 一 . 排序方法 我们第一个要介绍的就是sort方法 这个排序实现的底层逻辑应该是十分复杂的,以我们目前的水平体系应该无法理解,我们今天尝试用我们可以理解的一种排序算法,插入排序来模…

jQuery瀑布流画廊,瀑布流动态加载

jQuery瀑布流画廊&#xff0c;瀑布流动态加载 效果展示 手机布局 jQuery瀑布流动态加载 HTML代码片段 <!-- mediabanner --><div class"mediabanner"><img src"img/mediabanner.jpg" class"bg"/><div class"text&qu…

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒

纽约纳斯达克大屏投放受众群体有哪些-大舍传媒 1. 纳斯达克大屏的概述 纳斯达克大屏是全球金融市场中最出名的电子交易平台之一。作为一个重要的金融信息传递渠道&#xff0c;纳斯达克大屏吸引了来自全球的投资者的目光。在这个巨大的投放平台上&#xff0c;大舍传媒希望为客…

Stable Diffusion 3的到来巩固了 AI 图像对抗 Sora 和 Gemini 的早期领先优势

Stability AI 将其更改为 Stable Diffusion 3。VentureBeat 报道称&#xff0c;Stability AI 的下一代旗舰 AI 图像生成模型将使用类似于 OpenAI 的 Sora 的扩散变压器框架。其当前模型仅依赖于扩散架构。虽然尚未发布&#xff0c;但您可以在等候名单中注册。 官方网址链接&am…

【JavaScript 漫游】【020】DOM 常用知识点总结

文章简介 DOM 是 JavaScript 操作网页的接口&#xff0c;全称为文档对象模型&#xff08;Document Object Model&#xff09;。DOM 操作是 JavaScript 最常见的任务&#xff0c;离开了 DOM&#xff0c;JavaScript 就无法操作网页。 本篇文章为【JavaScript 漫游】专栏的第 02…

设计模式--单例模式--懒汉饿汉

单例模式 单例模式(Singleton)&#xff0c;保证一个类仅有一个实例&#xff0c;并提供一个访问它的全局访问点。 单例模式 通常我们可以让一个全局变量使得一个对象被访问&#xff0c;但它不能防止你实例化多个对象。一个最好的办法就是&#xff0c;让类自身负责保存它的唯一实…

抖音数据抓取工具|短视频下载工具|视频内容提取软件

一、开发背景&#xff1a; 随着抖音平台的流行&#xff0c;越来越多的人希望能够下载抖音视频以进行个人收藏或分享。然而&#xff0c;目前在网上找到的抖音视频下载工具功能单一&#xff0c;操作繁琐&#xff0c;无法满足用户的需求。因此&#xff0c;我们决定开发一款功能强大…

完美解决ubuntu+windows双系统下时间不正确问题

在同一台电脑上安装ubuntuwindows双系统时&#xff0c;会出现某个系统的时间不正确的问题&#xff0c;而由于windows同步时间实在是太慢了&#xff0c;如果不去解决&#xff0c;windows上的时间大概率一直都是不对的。 原因分析 windows采用LocalTime机制设置时间&#xff0c…

挑战杯 基于大数据的股票量化分析与股价预测系统

文章目录 0 前言1 课题背景2 实现效果3 设计原理QTChartsarma模型预测K-means聚类算法算法实现关键问题说明 4 部分核心代码5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 基于大数据的股票量化分析与股价预测系统 该项目较为新颖…