提升 RAG 效果的实践

提升 RAG 效果的实践

  • 0. 引言
  • 1. 测试数据
  • 2. cohere/embed-multilingual-v3.0 的几组测试结果
    • 2-1. 第1组测试
    • 2-2. 第2组测试
  • 3. BAAI/bge-m3 的几组测试结果
    • 3-1. 第1组测试

0. 引言

AI 大语言模型的主要应用方式之一就是 RAG,接下来计划陆续分享工作中提升 RAG 效果的一些实践。

首先分享一些测试结果,这些测试结果可以帮助我们去做一些技术上的选型和模型上的选型。

  1. 此博文会持续更新,如果你觉得这个文章对你有帮助,欢迎点赞和收藏。
  2. 工作上我主要支持的区域是日本,所以博文中会或多或少包括一些日语。

1. 测试数据

测试数据使用的是公开的 AWS 词汇表,我测试的是日语的 AWS 用語集。

2. cohere/embed-multilingual-v3.0 的几组测试结果

2-1. 第1组测试

前提条件:

  • テスト・データ:AWS 用語集
  • チャンク・サイズ(Chunk Size):1000
  • チャンク・オーバーラップ(Chunk Overlap):200
  • Embedding 模型:cohere/embed-multilingual-v3.0
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:Kendraとは?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第2个问题的答案截图:

第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,但是啰嗦 。Google Gemini Pro回答正确。

在这里插入图片描述

第3个问题的答案截图:

第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第4个问题的答案截图:

第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション"。Google Gemini Pro回答不出来。

在这里插入图片描述

2-2. 第2组测试

前提条件:

  • テスト・データ:AWS Glossary
  • チャンク・サイズ(Chunk Size):1000
  • チャンク・オーバーラップ(Chunk Overlap):200
  • Embedding 模型:cohere/embed-multilingual-v3.0
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:What is Kendra?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第2个问题的答案截图:

第2个问题:How to distribute incoming traffic?
结果评论:Cohere Command-r 回答不正确 。Claude Opus回答不正确。Claude Sonnet回答不正确 。Google Gemini Pro回答不出来。这个问题期待答案中包含"ELB Elastic Load Balancing"

在这里插入图片描述

第3个问题的答案截图:

第3个问题:What is distribution?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第4个问题的答案截图:

第4个问题:How do I encode a video?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,就是太啰嗦了。Google Gemini Pro回答不出来。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:What is security groups?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:What is the cost reduction rate for deep learning inference?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:How many availability zones exist in the region?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:applcation
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"applcation" 。Claude Opus推测应该是"application"。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

在这里插入图片描述

3. BAAI/bge-m3 的几组测试结果

3-1. 第1组测试

前提条件:

  • テスト・データ:AWS 用語集
  • チャンク・サイズ(Chunk Size):4000
  • チャンク・オーバーラップ(Chunk Overlap):400
  • Embedding 模型:BAAI/bge-m3
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:Kendraとは?
结果评论:Cohere Command-r、Claude Opus、Claude Sonnet 回答的很完美。Google Gemini Pro的回答也不错,可以接受。
在这里插入图片描述

第2个问题的答案截图:

第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答的有些简洁,不够完整 。Claude Opus回答的很完美。Claude Sonnet回答了主要内容,但是特别啰嗦 。Google Gemini Pro回答的不怎么样。

在这里插入图片描述

第3个问题的答案截图:

第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答不正确 。Claude Opus回答的很完美。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

Claude Opus 回答:

ディストリビューションとは、コンテンツ配信ネットワーク (CDN) の一部であり、データセンターの世界的なネットワークを使用して、ユーザーに対する静的および動的ウェブコンテンツ (.html、.css、.js、メディアファイル、イメージファイルなど) の配信を高速化するウェブサービスです。

在这里插入图片描述
第4个问题的答案截图:

第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答不出来 。Claude Opus回答不出来。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション",但是回答太啰嗦了。Google Gemini Pro回复了"アプリケーション請求書",但是这种回复业务上也无法直接使用。

在这里插入图片描述

未完待续!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/505603.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据库之迁移常规操作(Mongodb篇)

一、部署mongodb数据库。 注:采用docker容器进行安装 部署详情参考此文 》》https://blog.csdn.net/u014642921/article/details/136022683 二、在admin用户创建testdb文档插入两条数据 admin> db.testdb.insertMany([{name:"1",age:1,addr:"…

【IP组播】PIM-SM的RP、RPF校验

目录 一:PIM-SM的RP 原理概述 实验目的 实验内容 实验拓扑 1.基本配置 2.配置IGP 3.配置PIM-SM和静态RP 4.配置动态RP 5.配置Anycast RP 二: RPF校验 原理概述 实验目的 实验内容 实验拓扑 1.基本配置 2.配置IGP 3.配置PIM-DM 4.RPF校…

centos7.5安装gitlab-runner,配置CI/CD流水线

一般不建议gitlab-server和gitlab-runner装在同一台服务器 第一步:安装gitlab-runner,最好和gitlab实例版本一致 # 下载官方gitlab-runner安装脚本 curl -L "https://packages.gitlab.com/install/repositories/runner/gitlab-runner/script.rpm.sh" | s…

springboot简历系统

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,简历系统当然也不能排除在外。简历系统是以实际运用为开发背景,运用软件工程原理和开发方法,采用…

Sui现已推出共享对象删除功能

临时共享对象是Sui的一项新功能,使开发人员能够删除共享对象。这项新功能增加了开发人员可用的工具集,以及他们与共享对象交互的方式,提升了成本效率和对象管理的表达能力。 启用共享对象的临时创建和随后的删除功能,一旦其用途达…

vCenter 提示 Root user password expired 解决办法

vCenter root 密码过期告警 vCenter 一般部署为一台虚拟机,该 root 用户是 vCenter 虚拟机SSH登录的用户,以及 vcenter VAMI的登录用户,该密码默认过期时间为90天。 vCenter涉及多个登录界面,本次提示root密码过期的用户涉及后两…

【MySQL】聊聊全表查询会不会把数据库内存打爆

是实际的开发中,可能因为误操作。可能会执行一个全表扫描的SQL,如果这个表的数据比较大,比如10G,但是数据库内存8G ,会不会将这个数据库内存打爆。带着这个问题,我们来深入学习下。其实主要就是一个server层…

echarts 图表/SVG 图片指定位置截取

echarts 图表/SVG 图片指定位置截取 1.前期准备2.图片截取3.关于drawImage参数 需求&#xff1a;如下图所示&#xff0c;需要固定头部legend信息 1.前期准备 echarts dom渲染容器 <div :id"barchart id" class"charts" ref"barchart">&…

1695. 删除子数组的最大得分-力扣(滑动窗口)

给你一个正整数数组 nums &#xff0c;请你从中删除一个含有 若干不同元素 的子数组。删除子数组的 得分 就是子数组各元素之 和 。 返回 只删除一个 子数组可获得的 最大得分 。 如果数组 b 是数组 a 的一个连续子序列&#xff0c;即如果它等于 a[l],a[l1],…,a[r] &#xff0…

Map和List输入的两种不同json格式

一、List to json格式 [{"type":"top.lovemom.pojo.ESP8266","devicePosition":"家里的阳台","deviceRemark":"我的设备1","publicIp":"127.0.0.1","userEmail":"123bggb.to…

Verilog基础【一】

文章目录 1.1 第一个verilog设计1.2 Verilog 简介1.3 Verilog环境搭建1.4 Verilog 设计方法设计方法设计流程 2.1 Verilog 基础语法格式注释标识符与关键字 2.2 Verilog 数值表示数值种类整数数值表示方法实数表示方法十进制&#xff1a;科学计数法&#xff1a; 字符串表示方法…

【论文极速读】 指令微调BLIP:一种对指令微调敏感的Q-Former设计

【论文极速读】 指令微调BLIP&#xff1a;一种对指令微调敏感的Q-Former设计 FesianXu 20240330 at Tencent WeChat search team 前言 之前笔者在[1]中曾经介绍过BLIP2&#xff0c;其采用Q-Former的方式融合了多模态视觉信息和LLM&#xff0c;本文作者想要简单介绍一个在BLIP2…

java多数据源几种实现方式以及demo

提示&#xff1a;多数据源实现方式、多数据源的使用场景。AbstractRoutingDataSource、DynamicDataSource框架、mybatisplus的Intercepter插件、java中多数据源的几种实现方式、mybatisPlus的插件实现多数据源 文章目录 前言一、多数据源的几种实现方式二、使用场景三、核心原理…

k8s1.28.8版本配置Alertmanager报警方式(邮件,企业微信)

文章目录 总结部署流程 Alertmanager 三大核心1. 分组告警2. 告警抑制3. 告警静默 报警过滤静默通知方案一&#xff1a;方案二&#xff1a; 抑制报警规则案例一 参考文档 自定义路由告警&#xff0c;分来自不同路由的告警&#xff0c;艾特不同的人员进行区分修改 alertmanager …

中缀转后缀表达式

思路分析 遇到数字&#xff0c;直接输出遇到符号 栈为空&#xff0c;符号直接入栈若为 ( &#xff0c;则直接入栈用当前符号和栈顶符号比较优先级 当前符号 > 栈顶符号&#xff0c;当前符号直接入栈&#xff0c;结束当前符号 < 栈顶符号,栈顶符号出栈并输出&#xff0c;…

verilog中的testbench语句——display,fopen,fread,fwrite——更新中

一、fopen bmp_file_read $fopen("../pic/picture.bmp","rb"); 要注意这类操作文件的函数&#xff0c;在vivado2018自带的仿真软件里&#xff0c;不综合直接仿真&#xff0c;它的当前文件夹如图所示。 一、fwrite $fwrite(bmp_file_write,"%c"…

【Effective Web】页面优化

页面优化 页面渲染流程 JavaScript 》 Style 》 Layout 》 Paint 》 Composite 首先js做了一些逻辑&#xff0c;触发了样式变化&#xff0c;style计算好这些变化后&#xff0c;把影响的dom元素进行重新布局&#xff08;layout&#xff09;,再画到画布中&#xff08;Paint&am…

【数据结构与算法】二叉树遍历、判断和 diff 算法

遍历 深度优先遍历 function Node(value) {this.value valuethis.left nullthis.right null }let a new Node(a) let b new Node(b) let c new Node(c) let d new Node(d) let e new Node(e) let f new Node(f) let g new Node(g) a.left c a.right b c.l…

如何提升公众号搜索量?分享内部运营的5步优化技术!

最近一直有自媒体同行朋友在写关于公众号的内容&#xff0c;很多都说公众号现在没得玩了。其实&#xff0c;在运营自媒体上面&#xff0c;思维不通&#xff0c;技术不到位&#xff0c;哪个平台都不适合你玩。 想要在自媒体上面运营变现&#xff0c;一定不要先点击广告变现&…

【二分查找】查找数列中数第一次出现的编号

一道巩固二分查找知识的题&#xff0c;非常简单&#xff0c;一起做一下吧 题目&#xff1a; 答案&#xff1a; #include<iostream> #include<algorithm> #include<cstring> using namespace std; const int N1000010;int n,m; int q[N];bool isBlue(int num…