Elasticsearch（六）-排序

xiaoxiao2021-02-27 602

排序

多值字段字符串排序

被分析器(analyser)处理过的字符称为analyzed field, analyzed字符串字段同时也是多值字段，在这些字段上排序往往得不到你想要的值。比如你分析一个字符 “fine old art”,它最终会得到三个值。例如我们想要按照第一个词首字母排序，如果第一个单词相同的话，再用第二个词的首字母排序，以此类推，可惜 ElasticSearch 在进行排序时是得不到这些信息的。

当然你可以使用 min 和 max 模式来排（默认使用的是 min 模式）但它是依据art 或者 old排序，而不是我们所期望的那样。

为了使一个string字段可以进行排序，它必须只包含一个词：即完整的not_analyzed字符串(未经分析器分词并排序的原字符串)。当然我们需要对字段进行全文本搜索的时候还必须使用被 analyzed 标记的字段。

在 _source 下相同的字符串上排序两次会造成不必要的资源浪费。而我们想要的是同一个字段中同时包含这两种索引方式，我们只需要改变索引(index)的mapping即可。方法是在所有核心字段类型上，使用通用参数 fields对mapping进行修改。比如，我们原有mapping如下：

"tweet": { "type": "string", "analyzer": "english" }

改变后的多值字段mapping如下：

"tweet": { <1> "type": "string", "analyzer": "english", "fields": { "raw": { <2> "type": "string", "index": "not_analyzed" } } }

<1> tweet 字段用于全文本的 analyzed 索引方式不变。

<2> 新增的 tweet.raw 子字段索引方式是 not_analyzed。

现在，在给数据重建索引后，我们既可以使用 tweet 字段进行全文本搜索，也可以用tweet.raw字段进行排序：

GET /_search { "query": { "match": { "tweet": "elasticsearch" } }, "sort": "tweet.raw" }

警告：对 analyzed 字段进行强制排序会消耗大量内存。

数据字段

当你对一个字段进行排序时，ElasticSearch 需要进入每个匹配到的文档得到相关的值。倒排索引在用于搜索时是非常卓越的，但却不是理想的排序结构。

当搜索的时候，我们需要用检索词去遍历所有的文档。

当排序的时候，我们需要遍历文档中所有的值，我们需要做反倒序排列操作。

为了提高排序效率，ElasticSearch 会将所有字段的值加载到内存中，这就叫做”数据字段”。

重要： ElasticSearch将所有字段数据加载到内存中并不是匹配到的那部分数据。而是索引下所有文档中的值，包括所有类型。

将所有字段数据加载到内存中是因为从硬盘反向倒排索引是非常缓慢的。尽管你这次请求需要的是某些文档中的部分数据，但你下个请求却需要另外的数据，所以将所有字段数据一次性加载到内存中是十分必要的。

ElasticSearch中的字段数据常被应用到以下场景：

对一个字段进行排序对一个字段进行聚合某些过滤，比如地理位置过滤某些与字段相关的脚本计算

毫无疑问，这会消耗掉很多内存，尤其是大量的字符串数据 – string字段可能包含很多不同的值，比如邮件内容。值得庆幸的是，内存不足是可以通过横向扩展解决的，我们可以增加更多的节点到集群。

现在，你只需要知道字段数据是什么，和什么时候内存不足就可以了。

参考资料： Elasticsearch权威指南备注：转载请注明出处：http://blog.csdn.net/wsyw126/article/details/71156215 作者：WSYW126

转载请注明原文地址: https://www.6miu.com/read-459.html

2012-2014专利技术

最新回复(0)

Elasticsearch（六）-排序

排序

相关性排序

排序方式

字段值排序

默认排序

多级排序

字符串参数排序

为多值字段排序

多值字段字符串排序

相关性简介

理解评分标准

数据字段

2012-2014专利技术