提升 RAG 效果的实践
- 0. 引言
- 1. 测试数据
- 2. cohere/embed-multilingual-v3.0 的几组测试结果
- 2-1. 第1组测试
- 2-2. 第2组测试
- 3. BAAI/bge-m3 的几组测试结果
- 3-1. 第1组测试
0. 引言
AI 大语言模型的主要应用方式之一就是 RAG,接下来计划陆续分享工作中提升 RAG 效果的一些实践。
首先分享一些测试结果,这些测试结果可以帮助我们去做一些技术上的选型和模型上的选型。
- 此博文会持续更新,如果你觉得这个文章对你有帮助,欢迎点赞和收藏。
- 工作上我主要支持的区域是日本,所以博文中会或多或少包括一些日语。
1. 测试数据
测试数据使用的是公开的 AWS 词汇表,我测试的是日语的 AWS 用語集。
2. cohere/embed-multilingual-v3.0 的几组测试结果
2-1. 第1组测试
前提条件:
- テスト・データ:AWS 用語集
- チャンク・サイズ(Chunk Size):1000
- チャンク・オーバーラップ(Chunk Overlap):200
- Embedding 模型:cohere/embed-multilingual-v3.0
- Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
- LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro
第1个问题的答案截图:
第1个问题:Kendraとは?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。
第2个问题的答案截图:
第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,但是啰嗦 。Google Gemini Pro回答正确。
第3个问题的答案截图:
第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。
第4个问题的答案截图:
第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。
第5个问题的答案截图:
第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。
第6个问题的答案截图:
第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。
第7个问题的答案截图:
第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。
第8个问题的答案截图:
第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション"。Google Gemini Pro回答不出来。
2-2. 第2组测试
前提条件:
- テスト・データ:AWS Glossary
- チャンク・サイズ(Chunk Size):1000
- チャンク・オーバーラップ(Chunk Overlap):200
- Embedding 模型:cohere/embed-multilingual-v3.0
- Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
- LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro
第1个问题的答案截图:
第1个问题:What is Kendra?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。
第2个问题的答案截图:
第2个问题:How to distribute incoming traffic?
结果评论:Cohere Command-r 回答不正确 。Claude Opus回答不正确。Claude Sonnet回答不正确 。Google Gemini Pro回答不出来。这个问题期待答案中包含"ELB Elastic Load Balancing"
第3个问题的答案截图:
第3个问题:What is distribution?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。
第4个问题的答案截图:
第4个问题:How do I encode a video?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,就是太啰嗦了。Google Gemini Pro回答不出来。
第5个问题的答案截图:
第4个问题:What is security groups?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。
第6个问题的答案截图:
第4个问题:What is the cost reduction rate for deep learning inference?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。
第7个问题的答案截图:
第4个问题:How many availability zones exist in the region?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。
第8个问题的答案截图:
第4个问题:applcation
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"applcation" 。Claude Opus推测应该是"application"。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。
3. BAAI/bge-m3 的几组测试结果
3-1. 第1组测试
前提条件:
- テスト・データ:AWS 用語集
- チャンク・サイズ(Chunk Size):4000
- チャンク・オーバーラップ(Chunk Overlap):400
- Embedding 模型:BAAI/bge-m3
- Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
- LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro
第1个问题的答案截图:
第1个问题:Kendraとは?
结果评论:Cohere Command-r、Claude Opus、Claude Sonnet 回答的很完美。Google Gemini Pro的回答也不错,可以接受。
第2个问题的答案截图:
第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答的有些简洁,不够完整 。Claude Opus回答的很完美。Claude Sonnet回答了主要内容,但是特别啰嗦 。Google Gemini Pro回答的不怎么样。
第3个问题的答案截图:
第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答不正确 。Claude Opus回答的很完美。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。
Claude Opus 回答:
ディストリビューションとは、コンテンツ配信ネットワーク (CDN) の一部であり、データセンターの世界的なネットワークを使用して、ユーザーに対する静的および動的ウェブコンテンツ (.html、.css、.js、メディアファイル、イメージファイルなど) の配信を高速化するウェブサービスです。
第4个问题的答案截图:
第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。
第5个问题的答案截图:
第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。
第6个问题的答案截图:
第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答不出来 。Claude Opus回答不出来。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。
第7个问题的答案截图:
第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。
第8个问题的答案截图:
第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション",但是回答太啰嗦了。Google Gemini Pro回复了"アプリケーション請求書",但是这种回复业务上也无法直接使用。
未完待续!