searcher的建立
- 一.初始化
- 二.搜索功能
- 三.完整源代码
sercher主要分为两部分:初始化和查找。
一.初始化
初始化分为两步:1.创建Index对象;2.建立索引
二.搜索功能
搜索分为四个步骤
- 分词;
- 触发:根据分词找到对应的文档;
- 合并排序:按照权重降序排列;
- 构建:根据查找出的结构,拼接成新的网页。
1.分词
因为之前已经写好了分词函数,这里直接使用即可。
2.触发
跟据分词,获取该分词的所有倒排拉链。
3.合并排序
汇总查找结果,对查找内容按照相关性进行排序。这里使用了lambda表达式(如果不了解的可以看看我的博客C++11新特性)
4.构建
对内容进行正排查找。把查找出来的内容构成一个json串,以方便我们进行序列化和反序列化。
首先安装jesoncpp(如果不会使用的,限于篇幅,可以去百度)
三.完整源代码
searcher.hpp
#include "index.hpp"
#include <algorithm>
#include <jsoncpp/json/json.h>
namespace ns_searcher
{
class Searcher
{
private:
ns_index::Index *index; // 供系统查找的接口
public:
Searcher()
{
}
~Searcher()
{
}
public:
// 初始化
void InitSearcher(const std::string &input)
{
// 1.创建Index对象
index = ns_index::Index::GetInstance();
// 2.创建索引
index->BuildIndex(input);
}
// 查找
void Search(const std::string &query, std::string *json_string)
{
// 1.分词
std::vector<std::string> words; // 存放词
ns_util::JiebaUtil::CutString(query, &words);
// 2.触发:根据分词找到对应倒排拉链(注意:要忽略大小写)
ns_index::InvertedList inverted_list_all; // 存放所有找到的文档的倒排拉链
for (auto &s : words)
{
boost::to_lower(s); // 忽略大小写
// 为了方便,这里经过了typedef,把倒排hash的second(vector<InvertedElem>)重命名成了InvertedList
ns_index::InvertedList *inverted_list = index->GetInvertedList(s); // 根据string获取倒排拉链
if (nullptr == inverted_list)
continue;
inverted_list_all.insert(inverted_list_all.end(), inverted_list->begin(), inverted_list->end());
}
// 3.进行汇总排序
std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](ns_index::InvertedElem &e1, ns_index::InvertedElem &e2)
{ e1.weight > e2.weight; });
// 4.构建jsoncpp串
Json::Value root;
for (auto &item : inverted_list_all)
{
ns_index::DocInfo *doc = index->GetForwardIndex(item.id); // 通过正排索引获取文档
if (nullptr == doc)
continue;
Json::Value elem;
elem["title"] = doc->title;
elem["desc"] = doc->content; // 我们只需要展示一部分内容即可,这里以后会改
elem["url"] = doc->url;
root.append(elem);
}
Json::StyledWriter writer;
*json_string = writer.write(root); // 写入目标文件
}
};
}