生成式AI模型大PK——GPT-4、Claude 2.1和Claude 3.0 Opus

RAG(检索增强生成)系统的新评估似乎每天都在发布,其中许多都集中在有关框架的检索阶段。然而,生成方面——模型如何合成和表达这些检索到的信息,在实践中可能具有同等甚至更大的意义。许多实际应用中的案例证明,系统不仅仅要求从上下文中返回事实数据,还需要将这些事实合成一个更复杂的响应。

针对GPT-4、Claude 2.1和Claude 3 Opus(https://www.anthropic.com/news/claude-3-family)三种模型的生成能力进行了评估和比较。本文将详细介绍研究方法、研究结果以及在此过程中遇到的这些模型的细微差别,并说明为什么这些内容对使用生成式人工智能进行构建的人来说非常重要。

有兴趣的读者如果想重现上述实验的结果,那么实验中所需的一切都可以从GitHub存储库(https://github.com/Arize-ai/LLMTest_NeedleInAHaystack)中找到。

补充说明

  • 尽管最初的发现表明Claude的性能优于GPT-4,但随后的测试表明,随着战略提示工程技术的出现,GPT-4在更广泛的评估中表现出了卓越的性能。总之,RAG系统中固有的模型行为和提示工程当中还存在很多的问题。
  • 只需在提示模板中简单地添加一句“请解释自己,然后回答问题”,即可显著提高(超过两倍)GPT-4的性能。很明显,当LLM说出答案时,这似乎有助于进一步展开有关想法。通过解释,模型有可能在嵌入/注意力空间中重新执行正确的答案。

RAG阶段与生成的重要性

图1:作者创建的图表

虽然在一个检索增强生成系统中检索部分负责识别和检索最相关的信息,但正是生成阶段获取这些原始数据,并将其转换为连贯、有意义和符合上下文的响应。生成步骤的任务是合成检索到的信息,填补空白信息,并以易于理解和与用户查询相关的方式呈现。

在许多现实世界的应用中,RAG系统的价值不仅在于它们定位特定事实或信息的能力,还在于它们在更广泛的框架内集成和情境化信息的能力。生成阶段使RAG系统能够超越简单的事实检索,并提供真正智能和自适应的响应。

测试#1:日期映射

我们运行的初始测试包括从两个随机检索的数字中生成一个日期字符串:一个表示月份,另一个表示日期。模型的任务是:

  • 检索随机数#1
  • 隔离最后一位并递增1
  • 根据结果为我们的日期字符串生成一个月
  • 检索随机数#2
  • 从随机数2生成日期字符串的日期

例如,随机数4827143和17表示4月17日。

这些数字被放置在不同深度的不同长度的上下文中。模型最初在完成这项任务时经历了相当困难的时期。

图2:初始测试结果

虽然这两个模型都表现不佳,但在我们的初步测试中,Claude 2.1的表现明显优于GPT-4,成功率几乎翻了四倍。正是在这里,Claude模型的冗长本性——提供详细、解释性的回答——似乎给了它一个明显的优势,与GPT-4最初简洁的回答相比,结果更准确。

在这些意想不到的实验结果的推动下,我们在实验中引入了一个新的变量。我们指示GPT-4“解释自己,然后回答问题”,这一提示鼓励了类似于Claude模型自然输出的更详细的响应。因此,这一微小调整的影响还是深远的。

图3:有针对性提示结果的初始测试

GPT-4模型的性能显著提高,在随后的测试中取得了完美的结果。Claude模型的成绩也有所改善。

这个实验不仅突出了语言模型处理生成任务的方式的差异,还展示了提示工程对其性能的潜在影响。Claude的优势似乎是冗长,事实证明这是GPT-4的一种可复制策略,这表明模型处理和呈现推理的方式会显著影响其在生成任务中的准确性。总的来说,在我们的所有实验中,包括看似微小的“解释自己”这句话,都在提高模型的性能方面发挥了作用。

进一步的测试和结果

图4:用于评估生成的四个进一步测试

我们又进行了四次测试,以评估主流模型将检索到的信息合成并转换为各种格式的能力:

  • 字符串连接:将文本片段组合成连贯的字符串,测试模型的基本文本操作技能。
  • 货币格式:将数字格式化为货币,四舍五入,并计算百分比变化,以评估模型的精度和处理数字数据的能力。
  • 日期映射:将数字表示转换为月份名称和日期,需要混合检索和上下文理解。
  • 模运算:执行复数运算以测试模型的数学生成能力。

不出所料,每个模型在字符串连接方面都表现出了强大的性能,这也重申了以前的理解,即文本操作是语言模型的基本优势。

图5:货币格式化测试结果

至于货币格式化测试,Claude 3和GPT-4的表现几乎完美无瑕。Claude 2.1的表现总体上较差。准确度在标记长度上变化不大,但当指针更接近上下文窗口的开头时,准确度通常会更低。

图6:正式的来自Haystack网站的测试结果

尽管在一代测试中取得了出色的结果,但Claude 3的准确性在一个仅用于检索的实验中有所下降。从理论上讲,简单地检索数字也应该比操纵数字更容易——这使得性能的下降令人惊讶,也是我们计划进一步测试的领域。如果有什么不同的话,这种违反直觉的下降只会进一步证实这样一种观点,即在使用RAG开发时,检索和生成都应该进行测试。

结论

通过测试各种生成任务,我们观察到,虽然Claude和GPT-4这两个模型都擅长字符串操作等琐碎任务,但在更复杂的场景中,它们的优势和劣势变得显而易见(https://arize.com/blog-course/research-techniques-for-better-retrieved-generation-rag/)。LLM在数学方面仍然不太好!另一个关键结果是,“自我解释”提示的引入显著提高了GPT-4的性能,强调了如何提示模型以及如何阐明其推理对实现准确结果的重要性。

这些发现对LLM的评估具有更广泛的意义。当比较像详细的Claude和最初不那么详细的GPT-4这样的模型时,很明显,RAG评估(https://arize.com/blog-course/rag-evaluation/)标准必须超越以前仅重视正确性这一点。模型响应的冗长引入了一个变量,该变量可以显著影响他们的感知性能。这种细微差别可能表明,未来的模型评估应将平均答复长度视为一个值得注意的因素,从而更好地了解模型的能力,并确保更公平的比较。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/654955.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《征服数据结构》目录

我们知道要想学好算法,必须熟练掌握数据结构,数据结构常见的有 8 大类,分别是数组,链表,队列,栈,散列表,树,堆,图。但如果细分的话就比较多了,比如…

华为WLAN实验继续-2,多个AP如何部署

----------------------------------------如果添加新的AP,如何实现多AP的服务----------- 新增加一个AP2启动之后发现无法获得IP地址 在AP2上查看其MAC地址,并与将其加入到AC中去 打开AC,将AP2的MAC加入到AC中 sys Enter system view, re…

手写电纸书天花板,阅读办公新体验 | 汉王手写电纸本 N10 2024 版使用评测

手写电纸书天花板,阅读办公新体验 | 汉王手写电纸本 N10 2024 版使用评测 请问如果说到电纸书,你的认知还只是Kindle吗?然而遗憾的是,Kindle亦是过去,智能才是未来。 哈喽小伙伴们好,我是Stark-C~&#x…

【机器学习】【深度学习】批量归一化(Batch Normalization)

概念简介 归一化指的是将数据缩放到一个固定范围内,通常是 [0, 1],而标准化是使得数据符合标准正态分布。归一化的作用是使不同特征具有相同的尺度,从而使模型训练更加稳定和快速,尤其是对于使用梯度下降法的算法。而标准化的作用…

Python自动化办公Excel数据处理实战指南

目录 一、引言 二、需求分析 三、技术选型 四、实战操作 数据读取 数据清洗 数据分析 数据输出 五、学习资源推荐: 六、结语 一、引言 在现代办公环境中,Excel数据处理是一项不可或缺的技能。然而,当数据量庞大、处理流程复杂时&a…

Nocobase快速上手 -第一个collection

本文记录Nocobase中如何创建collection,以及如何将collection展示到页面中,并且配置CRUD相应的操作. Collection 在NocoBase中,collection(集合)是用来组织和存储各种数据的容器,如订单、产品、用户、评论…

【算法】位运算算法——判断字符是否唯一

题解:判断字符是否唯一(位运算算法) 目录 1.题目2.题解3.位图参考代码4.细节5.总结 1.题目 题目链接:LINK 2.题解 题解有两种方法, 一是做一个哈希数组,去查重; 二是直接用一个变量每一位来对应表示是否有这个字母…

《QT实用小工具·六十七》QTabWidget实现的炫酷标签工具栏

1、概述 源码放在文章末尾 该项目基于QTabWidget和QTabBar实现了灵活的标签工具栏,主要包含如下功能: 1、标签栏可以收起,可以展开 2、可以在标签栏中添加新的标签界面 3、可以从标签工具栏中把界面拖出来,也可以拖回去 4、关闭拖…

【音视频基础概念】颜色与图像

文章目录 前言一、三原色不同三原色的概念三原色的作用 二、颜色空间颜色空间是什么颜色空间的作用常见颜色空间示例灰度图像是什么灰度图像的作用灰度图像的技术细节示例 总结 前言 在当今数字媒体时代,音视频技术在我们的日常生活中占据了重要位置。无论是观看电…

【Numpy】深入解析numpy.mat()函数

numpy.mat():深入探索NumPy中的矩阵类 🌈 欢迎莅临我的个人主页👈这里是我深耕Python编程、机器学习和自然语言处理(NLP)领域,并乐于分享知识与经验的小天地!🎇 🎓 博主简…

鸿蒙OS开发:【一次开发,多端部署】(导航栏) 导航栏

一多导航栏 介绍 本示例展示了导航组件在不同设备形态下的样式。 在sm设备上,以tabs形式展示,内容、导航为上下样式布局,通过点击底部tabs切换内容;在md/lg设备上,以[SideBarContainer]形式展示,内容、导…

爷爷看了都会,打工人必备的摸鱼AI神器!免费!

去年,AI技术无疑成为了最为引人注目的焦点,层出不穷的创新应用令人目不暇接。尽管许多人对这股AI热潮的持久性持怀疑态度,但现实却用事实给予了最有力的反驳。AI所展现出的强大生产力,足以令人刮目相看。 而今年以来,…

鸿蒙大厂目前政策变现沉淀思考

鸿蒙引擎定制优化 鸿蒙端hotfix: 技术栈太大了,但是鸿蒙需要学习什么呢? 什么最有价值? 这就是接下来需要表达下我的观点: 1、APP开发 2、应用市场技术专员 【游戏、电商重型APP性能的处理 SmartPerf、构建自己的工…

Marvelous Designer12 解锁版安装教程 (3D服装设计软件)

前言 Marvelous Designer允许您使用我们的尖端设计软件创建美丽的3D虚拟服装。最后,使用工具在提高质量的同时节省时间,为您的设计注入活力。从基本衬衫到复杂的褶皱连衣裙和粗糙的制服,Marvelous Designer几乎可以将织物纹理和物理特性复制…

Flink系列一:flink光速入门 (^_^)

引入 spark和flink的区别:在上一个spark专栏中我们了解了spark对数据的处理方式,在 Spark 生态体系中,对于批处理和流处理采用了不同的技术框架,批处理由 Spark-core,SparkSQL 实现,流处理由 Spark Streaming 实现&am…

Apache-Doris单机部署

参考: 快速体验 Apache Doris - Apache Doris 1、Apache Doris是一款 基于MPP架构的高性能、实时的分析型数据库,以高效、简单、统一的特点被人们所熟知,仅需 亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点…

内存泄漏面面谈

概述 主要介绍了内存泄漏的关注点是对象,对内存问题进行了分类并且确定本文关注点是内存泄漏,15种内存泄漏判断方式,hprof文件的用法和分析过程,以及memory profiler工具一些基本概念,最后提到了如何触发内存泄漏问题…

C# 读取 CSV 文件的方法汇总

文章目录 1. 使用System.IO命名空间中的类2. 处理标题行和指定列3. 使用CsvHelper库4. 高级功能和异常处理5. 使用 LINQ6. 总结 CSV(Comma-Separated Values,逗号分隔值)文件是一种简单的文本文件格式,用于存储表格数据。在C#中&a…

关于pdfbox读取pdf

最近,想着将pdf的文件进行读取其内容,发现了一个比较好用的依赖pdfbox。目前使用这个依赖,进行实现一个简单实例,如果之后需要使用到更深的了解,会进行更新。这里提醒一下:jdk8尽量采用pdfbox3.x版本。 对…