解释 Elasticsearch 中的相关性和得分？

ElasticSearch面试考题 0 137

参考回答

在 Elasticsearch 中，相关性（Relevance） 是用来衡量文档和查询的匹配程度，得分（Score） 是具体的数值表现形式，表示某个文档与查询的相关性高低。

相关性：
Elasticsearch 使用一种算法来判断文档与查询的匹配程度，并根据匹配结果排序文档，相关性越高，文档排名越靠前。
得分（_score）：
- 是 Elasticsearch 给每个文档计算的相关性分数。
- 默认情况下，得分越高，文档越相关。
- 具体计算基于 Elasticsearch 的默认相关性算法 BM25。
核心影响因素：
- 词频（TF）：查询词在文档中出现的频率越高，得分越高。
- 逆文档频率（IDF）：查询词在整个索引中越少见，得分越高。
- 文档长度（Norms）：短文档得分会更高，因为它们的内容更加集中。
- 查询字段权重：对高权重字段匹配的词贡献更大。

详细讲解与拓展

1. 相关性得分的计算原理：BM25

默认情况下，Elasticsearch 使用 BM25 计算文档得分，BM25 是一种基于概率的评分模型。得分公式如下：

[
score(q, d) = \sum_{t \in q} IDF(t) \cdot \frac{TF(t, d) \cdot (k_1 + 1)}{TF(t, d) + k_1 \cdot (1 – b + b \cdot \frac{|d|}{avgdl})}
]

q：查询
d：文档
t：查询中的某个词
TF(t, d)：词频，词 t 在文档 d 中的出现频率。
IDF(t)：逆文档频率，词 t 在整个索引中越少见，其值越高。
|d|：文档长度。
avgdl：索引中所有文档的平均长度。
k1 和 b：可调参数（默认：k1=1.2, b=0.75），控制 TF 和文档长度对得分的影响。

举例：

假设我们有一个索引，其中有 3 篇文档：
1. 文档 A："Elasticsearch is a powerful search engine"
2. 文档 B："Elasticsearch provides full-text search capabilities"
3. 文档 C："Search engines like Elasticsearch are widely used"

查询 "search engine" 时，BM25 会计算每篇文档的得分：
– TF：查询词 “search” 和 “engine” 在每篇文档中的频率。
– IDF：整个索引中 “search” 和 “engine” 出现的文档数量（越稀有，权重越高）。
– 文档长度：文档越短，相关性越高。

最终，文档 B 的得分可能更高，因为它同时包含两个查询词。

2. 影响得分的因素

词频（TF）：
- 词在文档中出现的次数越多，相关性越高。
- 例：查询 "Elasticsearch"，包含该词 3 次的文档得分会高于包含该词 1 次的文档。
逆文档频率（IDF）：
- 稀有词（在少量文档中出现）权重大。
- 例：查询中包含“unique”，只有少数文档有这个词，则这些文档的得分较高。
字段权重：
- 在查询时可以对字段设置权重，如 title^2 表示 title 字段权重为 2。
- 例：查询 "Elasticsearch"，如果 title 字段权重大于 description 字段，则包含该词的 title 字段文档得分更高。
文档长度：
- 短文档相关性较高，因为它们更加紧凑。
Boosting：
- 可以在查询时人为提升某些字段或词的权重。
- 例："Elasticsearch^3 search engine" 提升了 "Elasticsearch" 的相关性。

3. 如何查看文档的得分

使用 _explain API：

GET /index/_doc/1/_explain
{
  "query": {
    "match": {
      "field": "search engine"
    }
  }
}

返回的结果会详细解释得分是如何计算的。

4. 调整相关性

Elasticsearch 提供多种方式调整相关性：
1. 设置字段权重：
在查询中，可以对字段分配不同的权重。例如：

“`json
{
"query": {
"multi_match": {
"query": "search engine",
"fields": ["title^2", "content"]
}
}
}
“`
这里 `title` 字段的权重是 2 倍。

修改 BM25 参数：
调整 k1 和 b 参数以适应具体的相关性需求：

PUT /index/_settings
{
 "index": {
   "similarity": {
     "default": {
       "type": "BM25",
       "b": 0.7,
       "k1": 1.5
     }
   }
 }
}

使用 Function Score Query：
在得分基础上加权，例如基于文档的某个属性调整得分：

{
 "query": {
   "function_score": {
     "query": {
       "match": {
         "content": "search engine"
       }
     },
     "field_value_factor": {
       "field": "popularity",
       "factor": 1.2
     }
   }
 }
}

总结

在 Elasticsearch 中，相关性 是搜索排序的核心，得分（_score） 是衡量相关性的具体数值。它基于 BM25 算法计算，并受到词频、逆文档频率、文档长度等因素影响。用户可以通过调整字段权重、修改 BM25 参数或使用 Function Score Query 来优化相关性，满足具体的业务需求。理解这些机制是提高搜索效果的关键。