文章目录
- 1、DSL查询分类
- 2、DSL基本语法
- 3、全文检索查询
- 4、精确查询
- 5、地理查询
- 6、复合查询--相关性打分算法
- 7、复合查询之Function Score Query
- 8、复合查询之BooleanQuery
1、DSL查询分类
Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。官方文档:
https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html
其中,常见的查询类型有:
- 查询所有:查询出所有数据,一般测试用。例如:
match_all
- 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
match_query
multi_match_query
- 精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
ids
range
term
- 地理(geo)查询:根据经纬度查询。例如:
geo_distance
geo_bounding_box
- 复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
bool
function_score
2、DSL基本语法
GET /indexName/_search
{
"query": {
"查询类型": {
"查询条件": "条件值"
}
}
}
举例,查询类型为match_all,那查询条件就为空了:
示例:
3、全文检索查询
全文检索查询,会对用户输入内容分词,常用于搜索框搜索
:
全文检索第一种:match查询
会对用户输入内容分词,然后去倒排索引库检索,语法:
GET /indexName/_search
{
"query": {
"match": {
"FIELD": "TEXT"
}
}
}
注意这里的字段只有一个,但实际场景如:输入虹桥,预期返回business、name、brand等字段包含虹桥的数据,如此就得用上一节的copy_to:all
里的all字段:
GET /indexName/_search
{
"query": {
"match": {
"all": "虹桥"
}
}
}
若再加词语,分词的原因,则返回结果更多,且同时有如家和虹桥两个词语的结果会排到最前面:
GET /indexName/_search
{
"query": {
"match": {
"all": "虹桥如家"
}
}
}
全文检索第二种:multi_match查询
与match查询类似,只不过允许同时查询多个字段,语法:
GET /indexName/_search
{
"query": {
"multi_match": {
"query": "TEXT",
"fields": ["FIELD1", " FIELD12"]
}
}
}
此时就不用借助copy_to和定义的all字段了:
GET /hotel/_search
{
"query": {
"multi_match": {
"query": "虹桥如家",
"fields": ["brand", "name","business"]
}
}
}
二者结果一样,但从性能考虑,推荐match+copy_to,因为参与搜索的字段越多,性能越低。
小结:
4、精确查询
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词
。常用的两种:
- term:根据词条精确值查询
- range:根据值的范围查询
term查询:
// term查询
GET /indexName/_search
{
"query": {
"term": {
"FIELD": {
"value": "VALUE"
}
}
}
}
举例:
// term查询
GET /hotel/_search
{
"query": {
"term": {
"city": {
"value": "上海"
}
}
}
}
精确匹配,必须一模一样:
range查询:
// range查询
GET /indexName/_search
{
"query": {
"range": {
"FIELD": {
"gte": 10,
"lte": 20
}
}
}
}
举例:
// range查询
GET /hotel/_search
{
"query": {
"range": {
"price": {
"gte": 100,
"lte": 300
}
}
}
}
gt: 大于
gte: 大于等于
lt: 小于
lte: 小于等于
小结:
5、地理查询
根据经纬度查询。常见的使用场景包括:
- 携程:搜索我附近的酒店
- 滴滴:搜索我附近的出租车
- 微信:搜索我附近的人
geo_bounding_box:
查询geo_point值落在某个矩形范围的所有文档
// geo_bounding_box查询
GET /indexName/_search
{
"query": {
"geo_bounding_box": {
"FIELD": {
"top_left": {
"lat": 31.1,
"lon": 121.5
},
"bottom_right": {
"lat": 30.9,
"lon": 121.7
}
}
}
}
}
如下图,蓝色地标为一个个酒店,落在矩形之内的即是符合要求的:
geo_distance:
查询到指定中心点小于某个距离值的所有文档
// geo_distance 查询
GET /indexName/_search
{
"query": {
"geo_distance": {
"distance": "15km",
"FIELD": "31.21,121.5"
}
}
}
// "31.21,121.5"是我的位置坐标
//FIELD则写酒店位置字段,即location
//以上即查出以我为中心,附近15KM内的酒店
示例:
GET /hotel/_search
{
"query": {
"geo_distance": {
"distance": "5km",
"location": "31.21,121.5"
}
}
}
6、复合查询–相关性打分算法
复合(compound)查询就是将上面这几种简单查询组合起来,实现更复杂的搜索逻辑。
相关性打分算法
三个文档里都有如家,大家都加一定得分,那这个词意义不大,即它相应的权重应该低一点,因此,TF-IDF算法:
TF-IDF算法受词频影响太大,
因此elasticsearch5.0后,相关性打分算法采用BM25算法:
小结:
当然可以人为控制文档相关性算分,从而控制文档排名(fuction score:算分函数查询),例如百度竞价,谁出价高谁就在搜索第一位。
7、复合查询之Function Score Query
使用 function score query,可以修改文档的相关性算分
(query score),根据新得到的算分排序。
关键点:
- 过滤条件:哪些文档需要算分加权
- 算分函数:与query score运算后得到新的算分
- 加权模式:算分函数的结果和query score如何运算,相乘、相加、替代、求和、取平均…
案例:给"如家"这个品牌的酒店排名靠前一些
比如搜外滩附近的酒店,先不给任何品牌人工加分,看下结果:
接下来过滤品牌为如家的,并给对应的文档加分,算分函数用weight,加权模式为默认的相乘:
GET /hotel/_search
{
"query": {
"function_score": {
"query": {// ... },
"functions": [ // 算分函数
{
"filter": { // 满足的条件,品牌必须是如家
"term": {
"brand": "如家"
}
},
"weight": 2 // 算分权重为2
}
],
"boost_mode": "sum"
}
}
}
可以看到外滩如家由3.8变成了38,一跃成为第一。
小结:
8、复合查询之BooleanQuery
布尔查询是一个或多个查询子句的组合(和Function Score Query不一样,不是用来修改算分的)。子查询的组合方式有:
- must:必须匹配must[ ]里的每个子查询,类似“与”
- should:选择性匹配子查询,类似“或”
- must_not:必须不匹配,不参与算分,类似“非”,常用于”不高于"、"不低于"场景
- filter:必须匹配,不参与算分
适用场景如:
对于不参与算分的查询,就放到must_not或者filter,减少不必要的算分,以提高查询性能。
GET /hotel/_search
{
"query": {
"bool": { //类型为bool
"must": [
{"term": {"city": "上海" }}
],
"should": [
{"term": {"brand": "皇冠假日" }},
{"term": {"brand": "华美达" }} //这两个品牌都可以
],
"must_not": [
{ "range": { "price": { "lte": 500 } }} //小于等于500取反,即大于500
],
"filter": [
{ "range": {"score": { "gte": 45 } }} //用户评分必须大于45分
]
}
}
}
需求:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。
GET /hotel/_search
{
"query": {
"bool": {
"must": [
{
"match": {"name": "如家"}
}
],
"must_not": [
{
"range": { "price": {"gt": 400}}
}
],
"filter": [
{
"geo_distance": {
"distance": "10km", "location": {"lat": 31.21, "lon": 121.5}
}
}
]
}
}
}
运行:
将filter中的查询搬到must:
小结:
到此,可以使用DSL,来从海量数据中检索出我需要的数据了!!