一、GitCode AI开源搜索是什么?
GitCode AI开源搜索 是面开发者的 AI 开源搜索工具,目的是为了帮助开发者快速寻找开源项目代码、解决开发问题和快速寻找答案,帮助开发者提升效率的同时利用代码仓托管能力建立自己个人知识库。
二、GitCode AI开源搜索的技术核心原理介绍
说到AI搜索引擎,首先要区分下传统的搜索能力和AI搜索能力。
- 传统搜索,通常使用基于关键词的算法,如布尔搜索或TF-IDF,这些算法只考虑文档中的关键词出现频率,而不考虑文档的主题或语义。这导致搜索结果可能不是最相关的,而是基于单个关键词的匹配。
- AI搜索,使用机器学习和自然语言处理技术,可以更好地理解用户意图和查询语句的语义。它可以通过深度学习模型,如BERT和GPT-3,来生成更准确的搜索结果,并提供更具体和个性化的响应。
随着大模型的迅速发展,各个搜索引擎都接入了模型搜索能力,如百度的文心一言和必应的ChatGPT等等,但语言模型不知道训练集之外的知识(例如搜索数据、行业的 knowledge ),因此引入了RAG框架。
1. RAG是什么?
Retrieval Augmented Generation (检索增强生成),能让语言模型使用外部知识( external knowledge )进行生成,我们可以把要让模型理解的新知识通过 prompt 的方式给到模型。
RAG 框架是由 3 个部分组成的:
- 语言模型,如ChatGPT、Llama、DeepSeek、千问等等
- 模型所需要的外部知识集合(以 vector 的形式存储,如开发者领域内容)
- 当前场景下需要的外部知识(以prompt上下文分装传递给模型)
通过下面示例可看到RAG框架的两个效果:
- RAG是什么?
显然,在开发者领域通过RAG知识加入后,GitCode的答案是用户想得到的。
2)kafka是什么?
显然,GitCode AI能够在kafka开源项目的知识内容加持下回答的结果更全面,包括kafka的代码展示等等
3) GitCode是什么?
这类有实效性或者内部知识的案例,在RAG知识外挂的模式下可以让语言模型准确的回答用户。
上述三个例子和生成效果充分的印证了RAG框架下的大模型问答效果。
2. GitCode是如何构建RAG框架?
- GitCode AI搜索 是使用 embedding + 传统的 relation db + Elasticsearch方式构建。
- embedding 本质上就是把数据转化为向量,然后通过余弦相似度来找到最匹配的两个或多个向量。即knowledge -> chunks -> vector user query -> vector的过程
- GitCode整套知识体系包括:
- CSDN全部的博文和文档数据
- GitCode的项目和代码数据
3. 如何评估RAG框架的效果呢?
通常通过以下4个指标来评估效果:
指标 | 定义 |
---|---|
fluency | 流畅性,生成的文本是否流畅连贯 |
perceived utility | 实用性,生成的内容是否有用 |
citation recall | 引文召回率,所生成的内容完全得到引文支持的比例 |
citation precision | 引文精度,引文中支持生成内容的比例 |
三、GitCode AI搜索功能介绍
GitCode AI开源搜面向开发者快速解决问题为初衷设计,因此产品特性中包括:
- AI问答,能够在开发者和开源领域快速回答问题,包括连续提问场景。
- 搜索记录,能够帮助用户记录问题和回复,能够快速寻找历史问题
- 相关问题,能够帮助用户联想和提示出相关知识点和问题,帮助用户更准确的提出问题。
- 个人知识库,能够帮助用户收藏和保存问题文档,以markdown格式存储在个人的代码仓中,建立个人专属的知识库和个人AI知识模型
- 开源项目,帮助开发者快速寻找开源项目,下载和体验开源项目
另外,GitCode AI搜索对未登录用户开放,核心目的是为了快速帮助开发者解决问题和提升效率。
AI问答
- 功能上支持连续问答和重新生成答案,在右侧可快速点击相关项目和技术文章
- 体验上,渲染流畅性上较之前版本有很大提升,首字母渲染时间可维持在1秒以,渲染答案上未存在卡顿。
搜索记录
登录用户可以在搜索记录中快速寻找之前搜索的问题和答案
相关问题
用户提出问题后会生成5个相关问题,可以快速点击后连续提问,帮助用户解决问题。
个人知识库
用户可以通过个人知识库收集、整理和连接自己的知识碎片,并基于开源大模型构建个性化的知识体系,提升工作、学习效率和效果。建立个人知识体系的同时,后续可只在个人知识库内搜索,返回结果更准确。
开源项目
开源项目中包括项目快速下载、快速启动命令展示和发行版等信息。
四、GitCode AI搜索后续计划
规划 | 内容 |
---|---|
个人知识库建设 | 可导入CSDN收藏夹内容和浏览器收藏内容,建立完整个人知识仓库 |
个人专属AI搜索 | 在个人知识库中检索,依然是RAG+大模型能,建立个人专属AI搜索能力 |
开源项目AI能力增强 | 能够在单项目下检索和建立AI搜索能力 |
快速体验
GitCode AI开源搜索
意见反馈