问了 Gemini 1.5 Pro 五个问题,找到了初遇ChatGPT的感觉

一个月前(2月15日),Sora和 Gemini 1.5 同时推出,这个故事很多人都听过了,Google 被冠以 AI 界汪峰的名头。

人们纷纷震惊于 Sora 的强大,讨论 Sora 是不是世界模型。而 Gemini 1.5 的第一个模型 Gemini 1.5 Pro 在发布后没多久就逐渐无人问津了。

当时 Gemini 1.5 Pro 只开放了 Waitlist,一直没能上手测倒是成了一块心病。

最近 Gemini 1.5 Pro 迎来一波大规模开放测试,当时排队的基本都能使用了,有些没有邮件通知,朋友们都可去看看。

链接 :https://aistudio.google.com/

图片

Gemini 1.5 Pro 最大的特点就是10M 上下文与多模态理解相互搭配,实现超强的检索和学习能力,我们也就围绕这两点,问了他五个问题

问题一:88 万字的《三体》,后续故事怎么发展?

我们向Gemini提供了长达约88万字的科幻小说《三体》,它可以根据小说的题材重新编写一版新的小说大纲,从背景设定、主要人物、情节梗概、主题设定到小说结局它可以非常有逻辑地完成。

另外对于《三体》的开放式结局它也可以继续扩写,在充分地满足大家的各种想象的同时又不脱离原著。

图片

问题二:20篇论文,哪篇更有价值?

我们选取了20篇神经网络相关的英文学术文章。Gemini 不仅能够对各种细节问题对答如流,而且还能够非常有条理有逻辑地整理出最具参考价值的学术论文。

各位研究学者们再也不用熬夜看文献写报告了!你们的头发有救啦!

图片

问题三:我该怎么学习 JavaScript?

我试着用两个功能时想到,上传一本课本岂不妙哉!这技术能读懂全书,大学党考试周还愁啥!直接1对1辅导到手。

下面我直接上传了《JavaScript高级程序设计(第4版)》,Gemini 还帮我搞了个大纲和学习建议,真懂我们。不仅考试的时候能天天陪着你,指导复习,还能出套带答案的期末题,老师们可能得偷偷珍藏。

图片

图片

逐渐成型的生态

上传了个 Open AI 机器人的视频到 Gemini,它不仅快速总结出来,准确度还挺高;还把视频里的英文字幕翻译成了中文。

为测深度理解,让它找视频里机器人递苹果的画面,它真找到了!

好奇它能不能辨认手绘,我画了个苹果试试。一开始,它认出苹果,但装作没在视频里看见过。我一逼问,它才勉强承认,还不忘找借口,吐槽我画的苹果和视频里的完全不像!

图片

问题五:什么?Sora 是 Google 出品的?

本次测试可以看出 Gemini 能够对视频画面进行精确的解读,但是当我问到它对 Sora 的了解时,它却说 Sora 是 Google 训练的模型。

总的来说它具有一定的逻辑能力和常识的,同样似乎没有联网能力,不能获取近期发生的事件。

图片

整体使用下来,我能看到它 10M 上下文的潜力,能让人发出“啊?这样也可以的?”的惊呼。就好像是第一次使用 ChatGPT 的那种感觉。

但也能看到它也存在很多瑕疵,比如老生常谈的幻觉问题,不能被 Sora 抢了风头就说 Sora 是自家兄弟吧。

而且这次大规模开放也导致算力不足,很多问题都回答的非常“懒惰”,只能提示“继续”让他继续回答,但也效果不好。在他人演示中 60 分钟的视频可以很好的理解,但在实际测试中,超过 30 分钟的视频,就会经常出现超时未响应的情况。尽管 Token 长度允许,但算力也分配不过来了。越短的视频,它处理的也就越好。

目前不支持联网,也无法读取视频链接,只能说是尝鲜试用。

最近 Google 也发布了 Gemini 1.5 的详细介绍文档:

https://arxiv.org/ftp/arxiv/papers/2403/2403.05530.pdf

里面展示了一个非常有意思的场景:

测试人员将一本Kalamang语言的参考语法书、一个双语词汇表(字典),以及大约400句额外的句子喂给了 Gemini 1.5 Pro,这些素材总共大约有250K tokens。

这个任务的挑战在于,Kalamang语是一种只有不到200个使用者的濒危语言,在模型的训练数据中几乎没有出现,因此 Gemini 1.5 Pro 必须依赖于上下文中给出的数据进行学习,来给出答案。

最终的结论是:

  • Gemini 1.5 Pro在半本书的设置下,其表现远远超过了GPT-4 Turbo和Claude 2.1。当给予整本书的上下文时,Gemini 1.5 Pro的表现进一步提升。在Kalamang到英语的翻译中,Gemini 1.5 Pro的人类评估得分为4.16(满分6分),而在英语到Kalamang的翻译中,得分为5.38。与此相比,人类语言学习者的得分分别为5.52和5.60。虽然不如人类学者,但也遥遥领先同行竞争对手了。

图片

期待赶紧给 Gemini 1.5 模型更新到 Gemini 的消费级产品中,作为 Gemini Advance会员已经迫不及待的想要使用它的完整版了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/466869.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

静态HTML5接入海康websocket视频流|海康ws视频流接入H5页面

引言 海康提供了vue实现插件播放视频的实例,实现取流失败了之后重新获取新的流播放视频,但是在很多情况下需要在静态HTML项目中进行视频的播放,于是引出此文。 海康开放平台SDK下载地址:https://open.hikvision.com/download/5c6…

【CSP试题回顾】202309-1-坐标变换(其一)

CSP-202309-1-坐标变换&#xff08;其一&#xff09; 解题代码 #include <iostream> using namespace std;long long n, m, dx, dy, x, y;int main() {cin >> n >> m;for (size_t i 0; i < n; i){int dx_i, dy_i;cin >> dx_i >> dy_i;dx …

【IEEE】Multimodal Machine Learning: A Survey and Taxonomy

不废话&#xff0c;先上思维导图&#xff0c;哈哈哈&#xff01; 论文题目Machine Learning: A Survey and Taxonomy作者Tadas Baltrusaitis , Chaitanya Ahuja , and Louis-Philippe Morency状态已读完会议或者期刊名称IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE IN…

【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结

【视频图像取证篇】模糊图像增强技术之锐化类滤波场景应用小结 模糊图像增强技术之锐化类滤波场景应用小结—【蘇小沐】 &#xff08;一&#xff09;锐化类滤波器 模糊消除类滤波器&#xff08;Remove blur / Unsharpness&#xff09;。 通用去模糊滤波器&#xff1a;针对大…

Excel·VBA指定目标值切割分组

看到一个帖子《excel吧-数据切断分组问题》&#xff0c;对1列数据按指定长度进行切割分组&#xff0c;获取每组的长度组成方式 VBA代码 Sub 数据分割()Dim arr, target, brr, res, x&, y&, i&, 差额, trr(1 To 2) trr(0)为数值&#xff0c;trr(1)为组成方式arr…

【工具篇】我用Anki半个月背完了408

&#x1f60a;你好&#xff0c;我是小航&#xff0c;一个正在变秃、变强的文艺倾年。 &#x1f514;本文讲解Anki工具的高效使用&#xff0c;期待与你一同探索、学习、进步&#xff0c;一起卷起来叭&#xff01; 目录 一、记忆的原理二、Anki是什么三、同步服务器搭建 一、记忆…

牛客DP34 前缀和

解题思路 题目解析如图 思路 算出每个位置的到第一个位置的总和 比如 第一个位置 1 总和 1 第二个位置 2 总和 3 第三个位置 4 总和 7 要算 2到3 位置的前缀和 用3位置的总和减去1位置的总和即可 还要处理一个边界情况 如果1到1位置的前缀和那么就是 …

为 java 开发者设计的性能测试框架,用于压测+测试报告生成

拓展阅读 junit5 系列教程 基于 junit5 实现 junitperf 源码分析 Auto generate mock data for java test.(便于 Java 测试自动生成对象信息) Junit performance rely on junit5 and jdk8.(java 性能测试框架。压测测试报告生成。) junitperf junitperf 是一款为 java 开…

2024-03-18 作业

作业要求&#xff1a; 1> 将广播发送端和接收端各实现一遍 2> 将组播发送端和接收端各实现一遍 3> 将流式域套接字的服务器端和客户端各实现一遍 1&#xff1a;将广播发送端和接收端各实现一遍 运行代码&#xff1a; 服务端&#xff1a; 客户端&#xff1a; 运行截…

视频号带货做的人多吗?这个项目究竟靠不靠谱呢?

在当下互联网经济的浪潮中&#xff0c;视频号带货已经成为了一种新兴的商业模式&#xff0c;吸引了众多创业者和商家的目光。那么&#xff0c;视频号带货做的人多吗?这个项目究竟靠不靠谱呢?&#xff0c;接下来&#xff0c;一起看看本文的介绍吧。 首先&#xff0c;我们来看视…

ROS Kinetic通信编程:话题、服务、动作编程 opencv学习使用

文章目录 一、话题编程二、服务编程三、动作编程四、安装opencv 图片特效示例五、视频示例1. 虚拟机获取摄像头权限2. 播放视频3. 录制视频 接上篇&#xff0c;继续学习ROS通信编程基础 一、话题编程 步骤&#xff1a; 创建发布者 初始化ROS节点向ROS Master注册节点信息&…

Java 设计模式系列:行为型-观察者模式

简介 观察者模式是一种行为型设计模式&#xff0c;又被称为发布-订阅&#xff08;Publish/Subscribe&#xff09;模式&#xff0c;它定义了对象之间的一对多依赖关系&#xff0c;当一个对象的状态发生改变时&#xff0c;所有依赖于它的对象都会得到通知并被自动更新。 观察者…

configmap nginx.conf报错:invalid number of arguments in “proxy_set_header“

追加>> cat << EOF >> a.txt ###############gradle############## abcdefg chineewew ###############gradle############## EOF 覆盖> cat << EOF > /etc/profile ###############gradle############## 121321231 121231 ###############grad…

数据结构与算法Bonus-KNN问题的代码求解过程

一、问题提出 &#xff08;一&#xff09;要求 1.随机生成>10万个三维点的点云&#xff0c;并以适当方式存储 2.自行实现一个KNN算法&#xff0c;对任意Query点&#xff0c;返回最邻近的K个点 3.不允许使用第三方库(e.g.flann&#xff0c;PCL,opencv)! 4.语言任选(推荐…

专业140+总分410+南京大学851信号与系统考研经验南大电子信息与通信集成,电通,真题,大纲,参考书。

今年分数出来还是有点小激动&#xff0c;专业851信号与系统140&#xff08;感谢Jenny老师辅导和全程悉心指导&#xff0c;答疑&#xff09;&#xff0c;总分410&#xff0c;梦想的南大离自己越来越近&#xff0c;马上即将复试&#xff0c;心中慌的一p&#xff0c;闲暇之余&…

【活动】政府工作报告视角下的计算机行业发展前瞻与策略探讨

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 引言正文计算机行业在政府工作报告中的定位与发展态势政策导向解析未来机遇展望…

springboot整合springsecurity,从数据库中认证

概述&#xff1a;springsecurity这个东西太容易忘了&#xff0c;这里写点东西&#xff0c;避免忘掉 目录 第一步&#xff1a;引入依赖 第二步&#xff1a;创建user表 第三步&#xff1a;创建一个用户实体类&#xff08;User&#xff09;和一个用于访问用户数据的Repository…

一文教会你SpringBoot是如何启动的

SpringBoot启动流程分析 流程图 源码剖析 运行Application.run()方法 我们在创建好一个 SpringBoot 程序之后&#xff0c;肯定会包含一个类&#xff1a;xxxApplication&#xff0c;我们也是通过这个类来启动我们的程序的&#xff08;梦开始的地方&#xff09;&#xff0c;而…

【超详细图文讲解】如何利用VMware创建CentOS虚拟机(包括如何更改网络设置 + 远程访问虚拟机方法)

文章目录 前言1. 准备相关软件环境1.1 获取 ISO 镜像包1.2 VMware 的安装 2. 使用 VMware 安装 CentOS3. 初始化虚拟机4. 虚拟机网络的设置4.1 虚拟机的三种网络连接模式桥接模式NAT 模式仅主机模式 4.2 如何更改网络设置 5. 远程访问虚拟机的方法5.1 使用 cmd 进行访问5.2 使用…

LSS (Lift, Splat, Shoot)

项目主页 https://nv-tlabs.github.io/lift-splat-shoot 图1&#xff1a;本文提出一种模型&#xff0c;给定多视角相机数据 (左)&#xff0c; 直接在鸟瞰图 (BEV) 坐标系(右)中推理语义。我们展示了车辆分割 (蓝色)&#xff0c;可驾驶区域 (橙色) 和车道分割 (绿色) 的结果。然…