【全网首发】上周申请的谷歌Gemini 1.5 Pro已通过！百万token的Gemini 1.5 Pro开箱测试（一）

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024谷歌一起变强。

一些结论

谷歌已开始陆续发放Gemini 1.5 Pro的体验权限，我是上周提交的waitlist申请，于昨天通过。

Gemini 1.5 Pro是谷歌最新发布的一款Gemini系列模型，采用MoE架构，上下文窗口高达100万个tokens（对比目前GPT-4 Turbo的上下文窗口长度为128K，即12.8万个tokens），支持跨模态理解、分析和推理，即支持对图片和视频的分析。

逻辑推理测试结果：ChatGPT4.0 > 文心一言4.0 ≈ Gemini Ultra > Gemini 1.5 Pro

超长上下文测试结果：Gemini 1.5 Pro效果惊艳，测试对象是一本27万token的PDF电子书，Gemini 1.5 Pro均能正确的回答我提出的总结及查找、解释的问题。

上周申请的谷歌Gemini 1.5 Pro已通过！

我是Gemini 1.5发布第一天提交的waitlist申请，于昨天通过，等待时长大约1周。通过申请会收到一封主题为“It’s your turn to try Gemini 1.5 Pro”的邮件，点击“Try it now in Google AI Studio”即可在Google AI Studio体验Gemini 1.5 Pro模型。注意，目前是免费使用，那还要啥自行车，冲起来！

详细情况以及申请链接可以看我这篇文章：重磅更新！谷歌发布Gemini 1.5 Pro！多模态，1000K上下文！附Waitlist链接！

谷歌Gemini系列模型介绍

谷歌的Gemini系列是谷歌最强大的多模态LLM模型，在图像、音频、视频和文本理解方面表现出优秀的能力。这一系列包括三个不同规模的模型：

Gemini 1.5 Pro

Gemini 1.5 Pro是谷歌最新发布的一款Gemini系列模型，采用MoE架构，上下文窗口高达100万个tokens（对比目前GPT-4 Turbo的上下文窗口长度为128K，即12.8万个tokens），支持跨模态理解、分析和推理，即支持对图片和视频的分析。

目前Gemini 1.5 Pro才刚刚发布，仅支持先申请waitlist，通过后可在Google AI Studio免费体验使用。

Gemini Ultra

Gemini Ultra：作为最大、功能最强大的类别，根据网上信息它的参数规模达到了1.56万亿，仅次于目前最先进的GPT-4（1.76万亿），在32个学术基准测试中的30个上刷新了SOTA（业内最佳）水平，甚至在MMLU测试集中超越了人类专家的得分12。

Gemini Ultra模型目前仅供Gemini Advanced付费会员使用。Gemini Advanced是谷歌推出的对标ChatGPT Plus的收费会员项目，费用为$20/月，附加2T的谷歌云盘空间，总体来看还是很香的！更重要的是，目前可以免费白嫖2个月的Gemini Advanced会员，详情请看我这篇文章：来自谷歌的新年礼物！速来免费领取2个月谷歌Gemini Advanced会员！价值280元！对标ChatGPT Plus！

Gemini Pro

Gemini Pro：优化用于高级推理、规划和理解等任务，是一个强大的中等规模模型。

目前免费的Gemini用户即可使用这款模型，对标的是ChatGPT-3.5。并且谷歌免费提供Gemini Pro的API给用户使用，“AI信息Gap”公众号对话功能搭载的就是这款模型。

Gemini Nano

Gemini Nano：最高效的设备端任务模型。适用于移动设备，已经可以在诸如Pixel 8 Pro等设备上本地和离线运行，将人工智能的力量带到手机用户手中。

Gemini 1.5 Pro的优势

Gemini 1.5 Pro的核心功能包括：

基于先进架构：Gemini 1.5 Pro采用了最新的Transformer和专家混合（MoE）架构，通过将网络分割成多个小型的“专家”网络来提高处理效率和精确度。这种架构使得模型能够根据输入类型自动选择最相关的专家路径，从而实现更高的运算效率和更准确的数据处理。

扩展的上下文窗口：Gemini 1.5 Pro的上下文窗口容量显著增加，能够处理高达1百万个tokens，极大地扩展了模型处理和理解大规模数据集的能力。这一特性使得Gemini 1.5 Pro在分析、分类和总结复杂信息方面具有显著优势。

高度复杂的信息处理能力：得益于其扩展的上下文窗口，Gemini 1.5 Pro能够无缝处理、分析和总结大量的文本、代码、视频和音频数据，包括但不限于长篇文档、大规模代码库和长时间的多媒体内容。

跨模态理解和推理：Gemini 1.5 Pro在不同模态之间展现了高度复杂的理解和推理能力，能够准确分析视频内容、解析大量代码，并在多种数据类型中识别细节和模式。

Gemini 1.5 Pro初步测评

Gemini 1.5 Pro申请通过后，在Google AI Studio可以切换模型，切换到Gemini 1.5 Pro后，上方的图片Image和视频Video插入选项就自动开启，意味着可以插入图片和视频让Gemini 1.5 Pro进行分析。

逻辑推理测试

先来一道逻辑测试的经典题目，该题目ChatGPT4.0和文心一言4.0均回答正确，通过测试。

提示词：小明从A班调去了B班，结果A和B两个班的平均分都比上升了，请问这是为什么？

Gemini 1.5 Pro的回答:

小明从A班调去B班后，A、B两班的平均分都上升，可能的原因有以下几种：

小明的成绩高于两班的平均分:
- 当小明离开A班时，A班失去了一个高分成员，导致平均分下降。而B班加入了小明这个高分成员，平均分就上升了。
小明在B班的学习环境更适合他:
- 小明可能在B班的学习氛围、教学方式等方面更适应，学习效率提高，成绩进步，进而拉高了B班的平均分。同时，A班缺少了小明，平均分也可能略微下降。
其他因素:
- 除了小明的影响，其他因素也可能导致两班平均分变化，例如：
  - 两班的教学质量同时提高。
  - 两班学生整体学习态度更加积极。
  - 考试难度变化等。