大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024谷歌一起变强。
一些结论
谷歌已开始陆续发放Gemini 1.5 Pro的体验权限,我是上周提交的waitlist申请,于昨天通过。
Gemini 1.5 Pro是谷歌最新发布的一款Gemini系列模型,采用MoE架构,上下文窗口高达100万个tokens(对比目前GPT-4 Turbo的上下文窗口长度为128K,即12.8万个tokens),支持跨模态理解、分析和推理,即支持对图片和视频的分析。
逻辑推理测试结果:ChatGPT4.0 > 文心一言4.0 ≈ Gemini Ultra > Gemini 1.5 Pro
超长上下文测试结果:Gemini 1.5 Pro效果惊艳,测试对象是一本27万token的PDF电子书,Gemini 1.5 Pro均能正确的回答我提出的总结及查找、解释的问题。
上周申请的谷歌Gemini 1.5 Pro已通过!
我是Gemini 1.5发布第一天提交的waitlist申请,于昨天通过,等待时长大约1周。通过申请会收到一封主题为“It’s your turn to try Gemini 1.5 Pro”的邮件,点击“Try it now in Google AI Studio”即可在Google AI Studio体验Gemini 1.5 Pro模型。注意,目前是免费使用,那还要啥自行车,冲起来!
详细情况以及申请链接可以看我这篇文章: 重磅更新!谷歌发布Gemini 1.5 Pro!多模态,1000K上下文!附Waitlist链接!
谷歌Gemini系列模型介绍
谷歌的Gemini系列是谷歌最强大的多模态LLM模型,在图像、音频、视频和文本理解方面表现出优秀的能力。这一系列包括三个不同规模的模型:
Gemini 1.5 Pro
Gemini 1.5 Pro是谷歌最新发布的一款Gemini系列模型,采用MoE架构,上下文窗口高达100万个tokens(对比目前GPT-4 Turbo的上下文窗口长度为128K,即12.8万个tokens),支持跨模态理解、分析和推理,即支持对图片和视频的分析。
目前Gemini 1.5 Pro才刚刚发布,仅支持先申请waitlist,通过后可在Google AI Studio免费体验使用。
Gemini Ultra
Gemini Ultra:作为最大、功能最强大的类别,根据网上信息它的参数规模达到了1.56万亿,仅次于目前最先进的GPT-4(1.76万亿),在32个学术基准测试中的30个上刷新了SOTA(业内最佳)水平,甚至在MMLU测试集中超越了人类专家的得分12。
Gemini Ultra模型目前仅供Gemini Advanced付费会员使用。Gemini Advanced是谷歌推出的对标ChatGPT Plus的收费会员项目,费用为$20/月,附加2T的谷歌云盘空间,总体来看还是很香的!更重要的是,目前可以免费白嫖2个月的Gemini Advanced会员,详情请看我这篇文章: 来自谷歌的新年礼物!速来免费领取2个月谷歌Gemini Advanced会员!价值280元!对标ChatGPT Plus!
Gemini Pro
Gemini Pro:优化用于高级推理、规划和理解等任务,是一个强大的中等规模模型。
目前免费的Gemini用户即可使用这款模型,对标的是ChatGPT-3.5。并且谷歌免费提供Gemini Pro的API给用户使用,“AI信息Gap”公众号对话功能搭载的就是这款模型。
Gemini Nano
Gemini Nano:最高效的设备端任务模型。适用于移动设备,已经可以在诸如Pixel 8 Pro等设备上本地和离线运行,将人工智能的力量带到手机用户手中。
Gemini 1.5 Pro的优势
Gemini 1.5 Pro的核心功能包括:
基于先进架构:Gemini 1.5 Pro采用了最新的Transformer和专家混合(MoE)架构,通过将网络分割成多个小型的“专家”网络来提高处理效率和精确度。这种架构使得模型能够根据输入类型自动选择最相关的专家路径,从而实现更高的运算效率和更准确的数据处理。
扩展的上下文窗口:Gemini 1.5 Pro的上下文窗口容量显著增加,能够处理高达1百万个tokens,极大地扩展了模型处理和理解大规模数据集的能力。这一特性使得Gemini 1.5 Pro在分析、分类和总结复杂信息方面具有显著优势。
高度复杂的信息处理能力:得益于其扩展的上下文窗口,Gemini 1.5 Pro能够无缝处理、分析和总结大量的文本、代码、视频和音频数据,包括但不限于长篇文档、大规模代码库和长时间的多媒体内容。
跨模态理解和推理:Gemini 1.5 Pro在不同模态之间展现了高度复杂的理解和推理能力,能够准确分析视频内容、解析大量代码,并在多种数据类型中识别细节和模式。
Gemini 1.5 Pro初步测评
Gemini 1.5 Pro申请通过后,在Google AI Studio可以切换模型,切换到Gemini 1.5 Pro后,上方的图片Image和视频Video插入选项就自动开启,意味着可以插入图片和视频让Gemini 1.5 Pro进行分析。
逻辑推理测试
先来一道逻辑测试的经典题目,该题目ChatGPT4.0和文心一言4.0均回答正确,通过测试。
提示词:小明从A班调去了B班,结果A和B两个班的平均分都比上升了,请问这是为什么?
Gemini 1.5 Pro的回答:
小明从A班调去B班后,A、B两班的平均分都上升,可能的原因有以下几种:
- 小明的成绩高于两班的平均分:
-
当小明离开A班时,A班失去了一个高分成员,导致平均分下降。而B班加入了小明这个高分成员,平均分就上升了。
-
- 小明在B班的学习环境更适合他:
-
小明可能在B班的学习氛围、教学方式等方面更适应,学习效率提高,成绩进步,进而拉高了B班的平均分。同时,A班缺少了小明,平均分也可能略微下降。
-
- 其他因素:
- 除了小明的影响,其他因素也可能导致两班平均分变化,例如:
-
两班的教学质量同时提高。
-
两班学生整体学习态度更加积极。
-
考试难度变化等。
-
- 除了小明的影响,其他因素也可能导致两班平均分变化,例如:
需要注意的是,以上只是几种可能性,具体原因需要结合实际情况进行分析。
Gemini Ultra的回答:
小明从A班调去B班后,A和B两个班的平均分都上升了,可能有以下几个原因:
1. 小明的成绩在A班偏低,在B班偏高。
-
这种情况可能是由于A班的整体水平较高,导致小明的成绩在A班排名靠后,而B班的整体水平相对较低,小明的成绩在B班排名靠前。
-
也有可能是由于小明在A班没有得到足够的重视和帮助,导致成绩不理想,而到了B班后,得到了老师和同学的更多关注和帮助,成绩有所提高。
2. 小明的调动改变了两个班的学生构成,导致了平均分的变化。
-
由于小明的调动,A班少了一个成绩较低的学生,B班多了一个成绩较高的学生,这会导致两个班的平均分都发生变化。
-
此外,小明的调动也可能对其他学生的学习产生影响,例如,小明的离开可能导致A班的学生更加努力学习,而小明的到来可能激励B班的学生更加积极学习,从而导致两个班的平均分都上升。
3. 其他因素。
-
例如,两个班的考试难度不同,或者两个班的老师教学水平不同,也可能导致平均分的变化。
具体是哪种原因导致了两个班的平均分上升,需要进一步分析数据才能确定。
以下是一些可以帮助分析的数据:
-
小明在A班和B班的成绩
-
A班和B班所有学生的成绩
-
A班和B班的考试难度
-
A班和B班老师的教学水平
通过分析这些数据,可以判断小明的调动对两个班平均分的影响程度,以及导致平均分变化的原因。
总结:
推理能力:ChatGPT4.0 > 文心一言4.0 ≈ Gemini Ultra > Gemini 1.5 Pro
Gemini Ultra的回答基本正确,但存在一定程度的幻觉,我个人感觉还是因为对中文题目的理解程度不够好导致的审题问题,但确实也指出了正确的答案。Gemini 1.5 Pro的回答错误,产生了幻觉。
超长上下文信息查询测试
接下来测试Gemini 1.5 Pro的核心特点,100万窗口上下文。首先我上传了一本开源的《Algorithms》算法教材,作者是Jeff Erickson教授。可以看到,这本书的总token数为27万多,已经远超了GPT-4的上下文(128K)和Claude的上下文窗口长度(20万)。
总结
提示词:中文总结这本书的内容
Gemini 1.5 Pro的回答:
细节查询
提示词:请根据我上传的PDF,查找出关于Edmonds and Karp’s Algorithms - Fattest Augmenting Paths的介绍,详细解释和分析这个算法及其时间复杂度。用中文回复。
Gemini 1.5 Pro的回答:
提示词:如何用动态规划DP来找出一棵树上的largest independent set,详细写出算法的每一步,以及分析其时间复杂度。用中文回复。
Gemini 1.5 Pro的回答:
总结:
初步测试来看,Gemini 1.5 Pro效果惊艳,不愧是号称百万token的上下文窗口,这在全世界范围内来看,也是最大的上下文了。测试对象是一本27万token的PDF电子书,Gemini 1.5 Pro均能正确的回答我提出的总结及查找、解释的问题。
精选推荐
-
ChatGPT和文心一言哪个更好用?一道题告诉你答案!
-
白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt
-
字节开发的Coze进阶使用:用免费的GPT4打造一个专属的新闻播报机器人!附教程及提示词Prompt
-
盘点那些免费的AI对话工具(国内篇):国内TOP3 AI聊天机器人产品介绍
-
AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(一)
-
AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(二)
-
人工智能时代的领跑者:你必须了解的全球三大AI聊天机器人!
-
抖音出的AI工具火了!自动生成抖音文案,一键脚本数字人成片!
-
2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!
-
腾讯AI虽迟但到:腾讯文档AI开启公测!附申请地址及详细教程!
都读到这里了,点个赞鼓励一下吧😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。