ElasticSearch7.x入门教程之全文搜索(七)

文章目录

  • 前言
  • 一、多条件查询:bool query
  • 二、更加精准查询:dis_max query
  • 总结


前言

这里再接着上一篇文章继续记录。非常感谢江南一点雨松哥的文章。
欢迎大家去查看,地址:http://www.javaboy.org


一、多条件查询:bool query

bool query 可以将任意多个简单查询组装在一起,有四个关键字可供选择,四个关键字所描述的条件可以有一个或者多个。

  • 1、must:文档必须匹配 must 选项下的查询条件。
  • 2、should:文档可以匹配 should 下的查询条件,也可以不匹配。
  • 3、must_not:文档必须不满足 must_not 选项下的查询条件。
  • 4、filter:类似于 must,但是 filter 不评分,只是过滤数据。

例如查询楼层大于20层小于25且为城市住宅,地址为草堂街道,或者不是光华街道的数据

GET /building_info/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "range": {
            "floor": {
              "gte": 20,
              "lte": 25
            }
          }
        },
        {
          "term": {
            "type": {
              "value": "城市住宅"
            }
          }
        }
      ],
      "should": [
        {
          "match": {
            "address": "草堂街道"
          }
        }
      ],
      "must_not": [
        {
          "match": {
            "address": "光华街道"
          }
        }
      ]
    }
  }
}

这里还涉及到一个关键字,minmum_should_match 参数。

minmum_should_match 参数在 es 官网上称作最小匹配度。在之前学习的 multi_match 或者这里的 should 查询中,都可以设置 minmum_should_match 参数。

假设我们要做一次查询,查询 address 中包含 杜甫草堂街道 关键字的文档:

GET /building_info/_search  
{
  "query": {
    "match": {
      "address": {
        "query": "杜甫草堂街道"
      }
    }
  }
}

分词如下:

{
  "tokens" : [
    {
      "token" : "杜甫",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "草堂",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "街道",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 2
    }
  ]
}

分词后的 term 会构造成一个 should 的 bool query,每一个 term 都会变成一个 term query 的子句。换句话说,上面的查询和下面的查询等价:

GET /building_info/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "address": {
              "value": "杜甫"
            }
          }
        },
        {
          "term": {
            "address": {
              "value": "草堂"
            }
          }
        },
        {
          "term": {
            "address": {
              "value": "街道"
            }
          }
        }
      ]
    }
  }
}

在这两个查询语句中,都是文档只需要包含词项中的任意一项即可,文档就回被返回,在 match 查询中,可以通过 operator 参数设置文档必须匹配所有词项。
如果想匹配一部分词项,就涉及到一个参数,就是 minmum_should_match,即最小匹配度。即至少匹配多少个词。

GET building_info/_search
{
  "query": {
    "match": {
      "address": {
        "query": "杜甫草堂北路",
        "operator": "and"
      }
    }
  }
}

GET building_info/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "term": {
            "address": {
              "value": "杜甫"
            }
          }
        },
        {
          "term": {
            "address": {
              "value": "草堂"
            }
          }
        },
        {
          "term": {
            "address": {
              "value": "街道"
            }
          }
        }
      ],
      "minimum_should_match": "50%"
    }
  },
  "from": 0,
  "size": 5
}

50% 表示词项个数的 50%。

如下两个查询等价(参数 3 是因为查询关键字分词后有 3项):

GET building_info/_search
{
  "query": {
    "match": {
      "address": {
        "query": "杜甫草堂街道",
        "minimum_should_match": 3
      }
    }
  }
}
# 关键字分词后有3个词
GET building_info/_search
{
  "query": {
    "match": {
      "name": {
        "query": "杜甫草堂街道",
        "operator": "and"
      }
    }
  }
}

二、更加精准查询:dis_max query

假设现在有两本书:

PUT blog
{
  "mappings": {
    "properties": {
      "title":{
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "content":{
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}

POST blog/_doc
{
  "title":"如何通过Java代码调用ElasticSearch",
  "content":"松哥力荐,这是一篇很好的解决方案"
}

POST blog/_doc
{
  "title":"初识 MongoDB",
  "content":"简单介绍一下 MongoDB,以及如何通过 Java 调用 MongoDB,MongoDB 是一个不错 NoSQL 解决方案"
}

现在假设搜索 Java解决方案 关键字,但是不确定关键字是在title还是在 content,所以两者都搜索:

GET blog/_search
{
  "query": {
    "bool": {
      "should": [
        {
          "match": {
            "title": "java解决方案"
          }
        },
        {
          "match": {
            "content": "java解决方案"
          }
        }
      ]
    }
  }
}

搜索结果如下:
在这里插入图片描述
肉眼观察,感觉第二个和查询关键字相似度更高,但是实际查询结果并非这样。

要理解这个原因,我们需要来看下 should query 中的评分策略:

1、首先会执行 should 中的两个查询
2、对两个查询结果的评分求和
3、对求和结果乘以匹配语句总数
4、在对第三步的结果除以所有语句总数

反映到具体的查询中:

  • 前者

1、title 中 包含 java,假设评分是 1.1
2、content 中包含解决方案,假设评分是 1.2
3、有得分的 query 数量,这里是 2
4、总的 query 数量也是 2
最终结果:(1.1+1.2)*2/2=2.3

  • 后者

1、title 中 不包含查询关键字,没有得分
2、content 中包含解决方案和 java,假设评分是 2
3、有得分的 query 数量,这里是 1
4、总的 query 数量也是 2
最终结果:2*1/2=1

在这种查询中,title 和 content 相当于是相互竞争的关系,所以我们需要找到一个最佳匹配字段。

为了解决这一问题,就需要用到 dis_max query(disjunction max query,分离最大化查询):匹配的文档依然返回,但是只将最佳匹配的评分作为查询的评分。

GET blog/_search
{
  "query": {
    "dis_max": {
      "queries": [
        {
          "match": {
            "title": "java解决方案"
          }
        },
        {
          "match": {
            "content": "java解决方案"
          }
        }
        ]
    }
  }
}

结果如下:
在这里插入图片描述
dis_max query 中,还有一个参数 tie_breaker(取值在0~1),在 dis_max query 中,是完全不考虑其他 query 的分数,只是将最佳匹配的字段的评分返回。但是,有的时候,我们又不得不考虑一下其他 query 的分数,此时,可以通过 tie_breaker 来优化 dis_max query。tie_breaker 会将其他 query 的分数,乘以 tie_breaker,然后和分数最高的 query 进行一个综合计算。


总结

这篇文章记录还算是比较有用的东西。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/926083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot 的体质测试数据分析及可视化设计LWPPT

技术可行性:技术背景 本企业网站在Windows操作系统中进行开发,并且目前PC机的性能已经可以胜任普通网站的web服务器。系统开发所使用的技术也都是自身所具有的,也是当下广泛应用的技术之一。 系统的开发环境和配置都是可以自行安装的&#x…

oracle小技巧-解决特殊密码字符而导致的exp错误

在使用oracle数据库的时候,我们经常会利用exp工具对某些表进行导出。但有些时候,因我们用户密码为安全性设有特殊字符,导致exp导出时候报:“EXP-00056和ORA-12154”,今天我们就分享下如何通过设置符号隔离的小技巧解决…

【ArcGIS Pro实操第11期】经纬度数据转化成平面坐标数据

经纬度数据转化成平面坐标数据 数据准备ArcGIS操作步骤-投影转换为 Sinusoidal1 投影2 计算几何Python 示例 另:Sinusoidal (World) 和 Sinusoidal (Sphere) 的主要区别参考 数据准备 数据投影: 目标投影:与MODIS数据相同(Sinu…

病理组学分析系列教程1:使用Python-histolab进行病理图像预处理,tiles切片自动生成

首先,先上参考资料链接: 了解数字病理影像图片WSI如何切割-使用histolab 视频详细讲解使用histolab进行病理图像切分 详细介绍数字病理图像的存储格式及格式转换工具介绍 一、病理图像预处理 相信很多朋友对于WSI这种巨大的病理图像的预处理都觉得束…

kubernetes——part3-2 集群声明式文件YAML

一、YAML介绍 YAML 的意思是:仍是一种标记语言,但为了强调这种语言以数据做为中心,而不是以标记语言为重点。是一个可读性高,用来表达数据序列的格式。 二、基本语法 1.低版本缩进时不允许使用Tab键,只允许使用空格…

使用Postman搞定各种接口token实战

现在许多项目都使用jwt来实现用户登录和数据权限,校验过用户的用户名和密码后,会向用户响应一段经过加密的token,在这段token中可能储存了数据权限等,在后期的访问中,需要携带这段token,后台解析这段token才…

什么是换电系统?驱动新能源汽车发展的“能源驿站”

随着新能源汽车保有量上升,新能源汽车充换电设施需求量同步增加。由于我国土地、电力资源相对紧张,随着车辆保有量继续增加,换电模式有望成为对充电模式的良好补充,具备广阔的中长期发展前景。蔚来是换电领域的先行者,…

Power BI - Connect to SharePoint online list with Image column

1.简单介绍 当前SharePoint online list有modern和classic两种模式,现在使用modern模式的比较多。list中有Image类型的列,Power BI如何连接到SharePoint list并显示image呢 note, SharePoint list中的Image列,Lookup列,People列…

[在线实验]-Redis Docker镜像的下载与部署

镜像下载 dockerredis镜像资源-CSDN文库 加载镜像 使用以下命令从redis.tar文件中加载Docker镜像 docker load --input redis.tar 创建映射目录 为了确保Redis的数据能够持久化,我们需要创建一个本地目录来存储这些数据 mkdir -p datasource/docker/redis 运…

redis学习(016 实战:黑马点评:分布式锁:Redisson)

黑马程序员Redis入门到实战教程,深度透析redis底层原理redis分布式锁企业解决方案黑马点评实战项目 总时长 42:48:00 共175P 此文章包含第64p-第p68的内容 文章目录 分布式锁的优化Redission操作编写代码 Redission可以实现可重入锁的原理lua脚本编写可重入锁获取…

SystemUI 下拉框 Build 版本信息去掉

需求及场景 去掉SystemUI 下拉框 Build 版本信息 如下图所示:去掉 12 (SP1A.201812.016) 了解 去掉之前我们先了解它是个什么东西:其实就是一个Build RTM 信息显示 Android_12_build_SP1A.210812.016 修改文件 /frameworks/base/packages/Syste…

UE5 打包报错 Unknown structure 的解决方法

在虚幻引擎5.5 打包报错如下: UATHelper: 打包 (Windows): LogInit: Display: LogProperty: Error: FStructProperty::Serialize Loading: Property ‘StructProperty /Game/Components/HitReactionComponent/Blueprints/BI_ReactionInterface.BI_ReactionInterface…

电子电气架构 --- 面向服务的汽车诊断架构

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所有人的看法和评价都是暂时的,只有自己的经历是伴随一生的,几乎所有的担忧和畏惧,都是来源于自己的想象,只有你真的去做了,才会发现有多快乐。…

分布式协同 - 分布式锁一二事儿

文章目录 导图Pre概述概述1. 分布式互斥和临界资源的协调2. 分布式锁的基本原理3. 分布式锁的实现方式a. 基于数据库实现的分布式锁b. 基于Redis实现的分布式锁c. 基于Zookeeper实现的分布式锁 4. 高并发场景下的分布式锁优化a. 分段锁(Sharded Locks)b.…

CSP-J初赛不会备考咋办?

以下备考攻略仅供参考,如需资料请私信作者!求支持! 目录 一、编程语言基础 1.语法知识 -变量与数据类型 -运算符 -控制结构 -函数 2.标准库的使用 -输入输出流 -字符串处理 -容器类(可选) 二、算法与数据结构 1.基…

使用easyexcel导出复杂模板,同时使用bean,map,list填充

背景 在使用easyexcel导出时,如果遇到一个模板中同时存在 一部分是实体类中的字段,另外部分是列表的字段,需要特殊处理一下,比如下面的模板: 这里面 user, addr 是实体类(或者map&#xff09…

Monitor 显示器软件开发设计入门二

基础篇--显示驱动方案输出接口介绍 写在前面:首先申明,这篇文章是写给那些初入显示器软件行业的入门者,或是对显示器没有基本知识的小白人员。如您是行业大咖大神,可以绕行,可看后期进阶文章。 上篇介绍了输入接口及相…

.net XSSFWorkbook 读取/写入 指定单元格的内容

方法如下&#xff1a; using NPOI.SS.Formula.Functions;using NPOI.SS.UserModel;using OfficeOpenXml.FormulaParsing.Excel.Functions.DateTime;using OfficeOpenXml.FormulaParsing.Excel.Functions.Numeric;/// <summary>/// 读取Excel指定单元格内容/// </summa…

力扣--LCR 152.验证二叉搜索树后序遍历

请实现一个函数来判断整数数组 postorder 是否为二叉搜索树的后序遍历结果。 提示&#xff1a; 数组长度 < 1000 postorder 中无重复数字代码 class Solution { public boolean verifyPostorder(int[] postorder) { if(postorder null){ return true; } return f(postor…

【electron-vite】搭建electron+vue3框架基础

一、拉取项目 electron-vite 中文文档地址&#xff1a; https://cn-evite.netlify.app/guide/ 官网网址&#xff1a;https://evite.netlify.app/ 版本 vue版本&#xff1a;vue3 构建工具&#xff1a;vite 框架类型&#xff1a;Electron JS语法&#xff1a;TypeScript &…