SpringCloud系列(十六)[分布式搜索引擎篇] - DSL 查询及相关性算分的学习 (部分)

在SpringCloud系列(十五)[分布式搜索引擎篇] - 结合实际应用场景学习并使用 RestClient 客户端 API这篇文章中我们已经对 RestClient 有了初步的了解, 并且已经将一些数据进行了存储, 但是这并不是我们学习 ElasticSearch 的目的, ElasticSearch 最擅长的还是对数据的搜索及分析, 因此本篇博客将对 ElasticSearch 的数据搜索功能进行演示.

DSL 查询及相关性算分的学习

  • ①DSL 对文档的查询
    • 1.1 查询所有
    • 1.2 全文检索查询
    • 1.3 精准查询
    • 1.4 地理坐标查询
    • 1.5 复合查询
      • 1.5.1 相关性算分
      • 1.5.2 语法
      • 1.5.3 布尔查询
  • ② 搜索结果的处理
  • ③ RestClient 查询文档
  • ④ 案例

①DSL 对文档的查询

常见查询类型:

  • 查询所有: 查询所有数据, 如 match_all;
  • 全文检索查询(full text): 主要利用分词器对用户的输入内容进行分词, 然后去倒排索引库中进行匹配查询, 如 match_query / multi_match_query;
  • 精确查询: 根据精确词条查询数据, 一般是用来查询日期 / 数值等类型的字段, 如 ids / range / term;
  • 地理查询(geo): 通常根据经纬度进行查询, 如 geo_distance / geo_bounding_box;
  • 复合查询(compound): 可以将上面的几种查询类型进行组合, 合并查询条件, 如 bool / function_score.

下面所有的查询语法基本如出一辙:

GET /索引库名/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}

1.1 查询所有

GET /hotel/_search
{
  "query": {
    "match_all": {}
  }
}

因为是查询所有的数据, 所以没有查询条件, 查询类型为 match_all, 查询所有一般用不到, 使用场景也就仅限于测试的时候使用;

1.2 全文检索查询

在这里插入图片描述

全文检索查询的使用场景比较多, 我们生活中也经常使用, 如在淘宝上买鞋子买衣服等, 都是搜索某一个牌子的名称或者是物品的名称, 也就是说需要拿着词条去索引库中匹配, 因此参与搜索的字段也必须是可分词的 text 类型的字段; 通过这个例子可以得到全文检索查询的基本流程如下:

  • 对搜索的内容进行分词得到词条;
  • 根据词条去倒排索引库中匹配, 得到文档 id;
  • 根据文档 id 找到文档, 然后返回到页面中.

关于全文检索的查询主要包括 match / multi_match 两种, 一个是单字段查询, 一个是多字段查询, 多字段查询的意思就是任意一个字段符合条件就满足查询条件. 示例如下:

match:

GET /hotel/_search
{
  "query": {
    "match": {
      "all":"喜来登"
    }
  }
}

在这里插入图片描述

multi_match:

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query":"上海喜来登",
      "fields": ["name","business"]
    }
  }
}

在这里插入图片描述
这里需要注意: multi_match 是根据多个字段进行查询, 参与的字段越多, 查询的效率就会越低, 因此一般使用 match 查询即可.

1.3 精准查询

精准查询的使用场景也是挺多的, 如查询某个日期范围内的数据, 或者是精确查询某一个地区的数据;

  • term: 根据词条精确值进行查询, 如查询北京地区的喜来登酒店, 筛选出的数据就只有北京地区的喜来登;
  • range: 根据值得范围进行查询, 如查询 500 元以上的酒店数据.

term 查询:

GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "上海"
      }
    }
  }
}

在这里插入图片描述
这里需要注意: 词条必须是精确的, 不能是多个词语组成的短语, 如果是北京上海, 是搜索不到结果的, 如下所示:
在这里插入图片描述

range 查询:

GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": "2000",
        "lte":"5000"
      }
    }
  }
}

查询到的是 2000 元到 5000 元价格酒店;
在这里插入图片描述

1.4 地理坐标查询


出去游玩打车或者订酒店经常需要进行定位附近的快车及酒店, 地理坐标的查询就能实现这样的功能, 一种是根据地理坐标的经纬度进行查询, 如根据矩形范围进行查询:

GET /hotel/_search
{
  "query": {
    "geo_bounding_box": {
      "FIELD": {
        "top_left": { 
          "lat": 31.35786,
          "lon": 121.59324
        },
        "bottom_right": {
          "lat": 31.35493,
          "lon": 121.59838
        }
      }
    }
  }
}

这里首先要确定左上角的点的坐标及右下角的点的坐标, 比较复杂, 但是有一种简单的方式, 可以根据距离进行查询, 查询到指定中心点小于某个距离值的所有数据; 也就是说以我现在的位置为中心, 距离我某个距离的圆弧内都符合条件, 如下所示:

GET /hotel/_search
{
  "query": {
    "geo_distance": {
      "distance": "5km",
      "location": "39.94076,116.46099"
    }
  }
}

这里我查询的是以三里屯为中心点, 距离三里屯 5 km 所有的数据:
在这里插入图片描述

1.5 复合查询

  复合查询可以将其简单的查询组合起来, 实现更加复杂的搜索逻辑, 主要有以下两种:

  • function score: 算分函数查询, 通过控制文档相关性算分, 来控制文档的排名;
  • bool query: 布尔查询, 主要利用逻辑关系组合多个查询, 实现复杂的搜索逻辑.

1.5.1 相关性算分

  当我们使用 match 进行查询时, 文档结果会根据与搜索词条的关联度进行打分, 返回的结果也会按照分值的降序进行排序;   ElasticSearch 早起使用的打分算法是 TF-IDF 算法, 关于算法的公式如下:
在这里插入图片描述
但是 TF-IDF 算法有一个缺陷: 当词条的频率越来越高的时候, 文档的得分也会越来越高, 单个词条对文档的影响较大. 针对这样的问题, ElasticSearch 将打分算法改进为 BM25, BM25 会让单个词条的算分有一个上限, 曲线更加的平滑.公式如下:
在这里插入图片描述

1.5.2 语法

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {
        "match": {
          "all": "北京"
        }
      },
      "functions": [
        {
          "filter": {
            "term": {
              "id": "1"
            }
          },
          "weight": 10
        }
      ],
      "boost_mode": "multiply"
    }
  }
}

在这里插入图片描述


如图所示, 可以看得出分数值是降序的, 具体的语法说明如下:
在这里插入图片描述
具体流程如下:

  • 根据原始条件查询搜索文档, 并且计算相关性算分, 也就是 query score (原始算分);
  • 根据过滤条件过滤掉不符合条件的文档;
  • 基于算分函数运算得到函数得分 (function score);
  • 将原始算分 (query score) 和 函数算分 (function score) 基于运算模式做运算, 得到相关性算分的最终结果.

例如: 给北京的喜来登排名靠前, 如下:
原始查询, 得分为 2.6944847;
在这里插入图片描述
添加算分函数后, 得分为 4.6944847, 如下:
在这里插入图片描述

1.5.3 布尔查询

在这里插入图片描述

  布尔查询的使用场景还是挺多的, 如上图在淘宝上搜索 阿迪达斯, 我们可以进行选择筛选, 可以根据鞋码 / 性别等; 因为每一个字段都是不同的, 查询的条件或者方式也不一样, 因此肯定是多个不同的查询, 那么要组合这些查询就用到了布尔查询;
 总之, 布尔查询也是一个或者多个字句的组合, 每一个字句都是一个子查询, 组合方式有:

  • must: 必须匹配每个子查询, 类似 “与”;
  • should: 选择性匹配子查询, 类似 “或”;
  • must_not: 必须不匹配, 不参与算分, 类似 “非”;
  • filter: 必须匹配, 不参与算分.

例子:

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {"city": "北京"}}
      ],
      "should": [
        {"term": {"brand":"希尔顿"}},
        {"term": {"brand":"喜来登"}}
      ],
      "must_not": [
        {"range": {"price": {"lte": 1200} }}
      ],
      "filter": [
        {"range": {
          "score": {
            "gte": 47
          }
        }},
        {"geo_distance": {
          "distance": "50km",
          "location": {
            "lat": 39.91979,
            "lon": 116.41804
          }
        }}
      ]
    }
  }
}

代码解读:
在这里插入图片描述


这里需要注意的是: 搜索过程中, 参与打字的字段越多, 查询的性能就会越差劲, 因此多条件查询时, 需要注意以下两点:

  • 搜索框的关键字搜索是全文检索查询, 使用 must 查询参与算分;
  • 其他的过滤条件采用 filter 查询, 不参与算分.

② 搜索结果的处理

③ RestClient 查询文档

④ 案例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/41083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Policy】使用 InitializingBean 实现策略时如何避免AOP失效

使用InitializingBean实现策略模式 参考策略模式示例中的第一种实现方式.代码demo项目 不同的注入方式对AOP注解的影响 部分策略代码及测试代码 public interface TraditionOrderService extends InitializingBean {// ... } Service public class TraditionOrderServiceIm…

网络知识整合——Web页面请求的历程

Web页面请求的历程 内部涉及知识:一、准备:DHCP、UDP、IP 和以太网二、仍在准备:DNS和ARP三、仍在准备:域内路由选择到DNS服务器四、Web客户-服务器交互:TCP和HTTP五、HTTP请求响应格式Requests部分Responses 部分 下载一个Web页面…

请问如何用oracle触发器实现不允许新增/删除表/增加/减少/修改字段类型

请问如何用oracle触发器实现不允许新增/删除表/增加/减少/修改字段类型 给本帖投票 56211打赏收藏 分享 转发到动态举报 写回复 性能测试中发现oracle11g数据库每天22点,oralce进程CPU占用率突增>> 11 条回复 切换为时间正序 请发表友善的回复… 发表回复 microsof…

【Java项目实战-牛客社区】--idea创建springboot工程

①. 创建springboot工程,并勾选web开发相关依赖。 。配置Maven ②. 定义Controller类,添加方法 hello。 ③. 运行测试1 使用Spring Initializr方式构建Spring Boot项目 Spring Initializr是一个Web应用,它提供了一个基本的项目结构&#xff…

Redis进阶底层原理 - 高可用哨兵模式

Redis哨兵模式是redis实现高可用的一种分布式架构。哨兵节点是一种特殊的Redis实例,它不用于存储业务数据,它主要工作内容如下:(高可用不是指不出问题,而是出了问题后能及时的自动化解决,从而在客户端无感&…

IntelliJ IDEA 版本控制

IntelliJ IDEA 版本控制(VCS)日常使用方法备忘 1、搁置更改 2、移至另一个更改列表 对于工程项目中的配置文件,已经在本地修改但是不能提交,如果在提交项目代码时全选变更的文件,可能会误提交配置文件,此…

【教程】VSCode配置C++环境踩坑记录

时隔一年终于在VSCode配置好了C环境[MinGW] 基础部分踩坑坑0坑1坑2坑3 基础部分 就是安装VSCode,然后再安装C插件之类的,咱这就不罗嗦了,如果不清楚可以参考这篇文章:VSCode配置C/C环境 毕竟解决后面一些棘手的问题更重要。 踩坑…

GreatSQL通过错误日志信息判断数据库实例是如何关闭的

背景概述 在一次客户的数据库实例连接不上了,需要我们排查一下原因,通过查看数据库实例进程已经不存在了,在错误日志中没有发现其他报错信息,发现有shutdown的字样出现,怀疑是某个用户手动关闭了实例。我们通过以下测…

P1403 [AHOI2005] 约数研究

题目描述 科学家们在 Samuel 星球上的探险得到了丰富的能源储备,这使得空间站中大型计算机 Samuel II 的长时间运算成为了可能。由于在去年一年的辛苦工作取得了不错的成绩,小联被允许用 Samuel II 进行数学研究。 小联最近在研究和约数有关的问题&…

Python教程(3)——python开发工具vscode的下载与安装

Python的开发工具有很多款,很多都是非常好用的,其中vscode作为其中一款Python的开发工具,是非常轻量级的,今天我们来介绍一下vs code的下载与安装。 vscode的下载与安装 首先需要到vscode的官网,这个谷歌或者百度一下…

[Java]Set、Map、List常见实现类的特点、使用方法总结

文章目录 1、图谱2、List1、ArrayList1. 特点2. 常见方法 2、LinkedList1、特点2、常见方法 3、Vector1、特点 3、Map1、HashMap1、特点常用方法 2、TreeMap1、特点 3、LinkedHashMap1、特点 4、Set1、HashSet1 、特点2、常用方法 2、LinkedHashSet特点 3、TreeSet1、特点2、使…

Ajax详解

文章目录 1. 概述1.1 Ajax工作原理1.2 Ajax的作用1.3 同步异步 2. 原生Ajax3. Axios3.1 Axios的基本使用3.2 Axios快速入门3.3 请求方法的别名 1. 概述 Ajax 是 “Asynchronous JavaScript and XML”(异步 JavaScript 和 XML)的缩写。它是一种在无需重新…

缓存数据一致性探究

缓存数据一致性探究 缓存是一种较低成本提升系统性能的方式,自它面世第一天起就备受广大开发者的喜爱。然而正如《人月神话》中的那句经典的“没有银弹”中所说,软件工程的设计没有银弹。 就像每一次发布上线修复问题的同时,也极易引入新的问…

蓝牙资讯|三星和日企合作开发智能戒指,将与苹果直接竞争

三星提交了一系列关于可穿戴设备的商标申请,其中包括与智能戒指有关的商标。近日有媒体爆出,三星已经开始与日本印刷电路板企业Meiko合作开发一款智能戒指。据称这款戒指可能会采用Galaxy品牌,或上周申请的智能戒指商标。 目前这一项目处于前…

JavaScript入门——笔记用

JavaScript入门 变量数组常量模板字符串检测数据类型判断分支判断循环数组函数对象 与html和css不同的是js并不是一门标记语言,而是与java等相同,也是一门编程语言(实现人机交互的运行在客户端即浏览器的编程语言) JavaScript作用…

不外传秘诀| docker 快速搭建常用的服务环境

本文主要给大家介绍如何使用 docker 搭建常用的服务环境, 包括mysql,reedis,nginx,jenkins 等常用的环境,下面直接进入主题。 1、MySQL 部署 ①搜索 MySQL 镜像 docker search mysql ②拉取 MySQL 镜像 docker pull mysql:5.7 ③创建容器&#xf…

NAS 问题处理记录

在解决自动配网的过程中,突然NAS不给力,偏偏这个时间找事情。上面这两个问题,说不复杂也不复杂,主要是自己在完全远程处理,很多不方便。当然少不了师弟的助攻,很感谢我的师弟帮忙,实验室的网络不…

JMeter做http接口功能测试

1. 普通的以key-value传参的get请求 e.g. 获取用户信息 添加http请求;填写服务器域名或IP;方法选GET;填写路径;添加参数;运行并查看结果。 2. 以Json串传参的post请求 e.g. 获取用户余额 添加http请求;…

软件测试行业的困境和迷局

中国的软件测试虽然起点较高,但是软件测试的发展似乎没有想象中那么顺利。 其实每个行业除了有自身领域外,还有属于自己的“生态系统”。属于软件测试的生态系统主要包括后备软件测试人员、软件开发人员和软件管理决策者。后备软件测试人员是软件测试的…

python爬虫-获取headers(报文头)关键参数实例小记

注意!!!!某XX网站逆向实例仅作为学习案例,禁止其他个人以及团体做谋利用途!!! 第一步:请求页面,得到响应。建议首次请求时headers内容都带着,调试…