请列出 Elasticsearch 各种类型的分析器？

ElasticSearch面试考题 0 86

参考回答

在 Elasticsearch 中，分析器（Analyzer） 是文本分析的核心组件，用于将输入的文本转换为适合索引和查询的词条。分析器主要由三部分组成：字符过滤器（Character Filter）、分词器（Tokenizer） 和 词条过滤器（Token Filter）。

Elasticsearch 提供了多种内建分析器，适用于不同的文本数据处理需求。以下是常见的几种分析器类型及其适用场景：

1. 标准分析器（Standard Analyzer）

用途：默认的分析器，适用于英文文本或其他语言的通用分词需求。
特点：Standard Analyzer 会将文本分为单词，并将其转换为小写。它基于标准的 Unicode 分词规则和停止词过滤，适合大多数普通文本的处理。
组成：
- 默认的字符过滤器：HTML Strip（去除 HTML 标签）。
- 默认的分词器：Standard Tokenizer。
- 默认的词条过滤器：Lowercase（转换为小写）。
示例：
```
"analyzer": "standard"
```

2. 简单分析器（Simple Analyzer）

用途：适用于简单的文本处理场景，通常用于没有复杂语言结构的文本（如简单的英文文本、日志数据等）。
特点：Simple Analyzer 会将文本分割为单词，并去除非字母数字字符（例如标点符号）。它不会进行额外的语言处理（如词干提取、同义词处理等）。
组成：
- 默认的字符过滤器：HTML Strip。
- 分词器：Whitespace Tokenizer（按空格分词）。
- 词条过滤器：Lowercase（转换为小写）。
示例：
```
"analyzer": "simple"
```

3. 关键词分析器（Keyword Analyzer）

用途：用于存储不需要分词的字段，适用于存储 ID、标签、代码、电话号码等字段。
特点：Keyword Analyzer 不对文本进行分词处理，而是将整个字段值作为一个词条进行索引，通常用于精确匹配查询。
组成：
- 默认的字符过滤器：None。
- 分词器：Keyword Tokenizer（将整个字符串视为一个单词）。
- 词条过滤器：None。
示例：
```
"analyzer": "keyword"
```

4. Whitespace 分析器（Whitespace Analyzer）

用途：适用于只按空格分词的情况，通常用于分隔英文或其他语言的简单文本。
特点：Whitespace Analyzer 会根据空格将文本分割成单词，而不做其他任何处理。它不去除标点符号，也不会转换为小写。
组成：
- 默认的字符过滤器：None。
- 分词器：Whitespace Tokenizer（按空格分词）。
- 词条过滤器：None。
示例：
```
"analyzer": "whitespace"
```

5. 停用词分析器（Stop Analyzer）

用途：适用于英文或其他语言中，去除常见停用词的需求。
特点：Stop Analyzer 会使用一个停用词列表，去除常见的停用词（如 the, is, and 等），仅保留有意义的词。
组成：
- 默认的字符过滤器：None。
- 分词器：Standard Tokenizer。
- 词条过滤器：Stop（根据停用词列表去除词条）。
示例：
```
"analyzer": "stop"
```

6. 空格分析器（Edge NGram Analyzer）

用途：适用于自动补全（autocomplete）功能，特别是输入框提示等。
特点：Edge NGram Analyzer 会将每个词的前几个字符作为一个子词（n-gram）进行索引，这使得它非常适合用于前缀匹配和自动补全的场景。
组成：
- 默认的字符过滤器：None。
- 分词器：Edge NGram Tokenizer（生成前缀词条）。
- 词条过滤器：Lowercase（转换为小写）。
示例：
```
"analyzer": {
 "type": "custom",
 "tokenizer": "edge_ngram",
 "filter": ["lowercase"]
}
```

7. 同义词分析器（Synonym Analyzer）

用途：适用于处理同义词查询，通过为某些词创建同义词映射，改善查询的召回率。
特点：Synonym Analyzer 允许用户定义同义词词典，查询时可以匹配到同义词的词条，从而扩展搜索结果。
组成：
- 默认的字符过滤器：None。
- 分词器：Standard Tokenizer。
- 词条过滤器：Synonym Filter（通过同义词词典替换词条）。
示例：
```
"analyzer": {
 "type": "custom",
 "tokenizer": "standard",
 "filter": ["synonym"]
}
```

8. 语言特定分析器（Language-specific Analyzers）

Elasticsearch 提供了多种语言特定的分析器，如 English Analyzer、French Analyzer、Spanish Analyzer 等。这些分析器在分词时会考虑特定语言的规则，如停用词、词干提取等。
示例：英文分析器：
“`json
"analyzer": "english"
“`

9. 自定义分析器（Custom Analyzer）

用途：用户可以根据需要自定义分析器，结合不同的字符过滤器、分词器和词条过滤器，来实现更符合需求的文本处理。
特点：自定义分析器允许灵活配置，可以满足特定的文本处理需求。
示例：
“`json
"analyzer": {
"type": "custom",
"tokenizer": "whitespace",
"filter": ["lowercase", "stop"]
}
“`

总结

Elasticsearch 提供了多种内建分析器，适用于不同的数据处理需求。常见的分析器类型包括：
– 标准分析器（Standard Analyzer）：适用于大多数语言和通用文本处理。
– 关键词分析器（Keyword Analyzer）：适用于不需要分词的字段，如 ID 和标签。
– 简单分析器（Simple Analyzer）：适用于简单文本的处理。
– 同义词分析器（Synonym Analyzer）：用于同义词处理，提升搜索召回率。
– 自定义分析器（Custom Analyzer）：为特定需求定制分析器。

通过选择合适的分析器，可以根据数据和查询需求对文本进行优化的索引和查询处理。