elasticsearch/lucene 怎么优化多语言搜索？

作者：yodhcn 发布时间：2023-12-25 14:01:45

比如说，一个文档包含以下 3 个字段：
- title_cn # 中文标题
- title_ja # 日文标题
- title_ko # 韩文标题
需求：无论搜索哪种语言的标题中的关键字，都能搜索到该文档
解决方案一：
[写索引] 为每个字段各建立一个索引，分别设置不同的 analyzer 。
[查索引] "query" match title_cn OR "query" match title_ja OR "query" match title_ko
优点：为每种语言配置不同的语言专用的分词器，分词效果好
缺点：3 个字段分别映射到 3 个倒排索引，搜索时需要到 3 个索引上查找，效率低
解决方案二：
[写索引] 3 个字段通过 copy_to 复制到一个字段，建立一个索引，设置一个语言不敏感的 analyzer ，比如基于 ngram 算法的分词器。
[查索引] "query" match title_all
优点：搜索时只需到 1 个索引上查找，效率高
缺点：分词效果不如对应语言专用的分词器，分词效果差
解决方案三（与方案二基本相同，区别只在 analyzer ）：
[写索引] 3 个字段通过 copy_to 复制到一个字段，建立一个索引，设置一个能自动检测语言的 analyzer （实现方式：先检测文本的语言，再使用对应语言专用的分词器分词）
[查索引] "query" match title_all
优点：搜索时只需到 1 个索引上查找，效率高
缺点：如果检测语言的准确率较低，会导致内部使用错误的分词器，最终影响 [写索引] [查索引] 的分词
方案一 & 方案二各有利弊；
方案三似乎解决了问题，但 [自动检测语言] 引入了新的不确定性
矛盾点：
期望不同字段用不同的分词器，并将分词后的词元写入同一个倒排索引。
但是 match 搜索操作，需要对 "query" 也进行分词，所以分词器不同的字段，虽然可以写入到一个索引，但在搜索时无法确定该用哪个分词器对 "query" 分词。
问题：大家遇到过类似的场景吗？又用的哪种方案解决的？

索引, 分词, query, 分词器

elasticsearch/lucene 怎么优化多语言搜索？

相关帖子

浏览过的版块

热门主题

求推荐 300 价位电视盒子

[分享] 纯前端撸了一个「交互式哺乳动物演

她说离婚原因是男的挣不到钱

这是缅北开发的游戏…

短视频里，高速现在都开始堵车了啊，大家都

百度统计或者cnzz的数据，来源分析，直接访

必应移动端有流量的吗？

发现了很多这种后缀的的百度收录，是怎么做

我看那个huoban网站权重被百度干没了。。。

按 Ctrl 好累？我不是一个人吧

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

elasticsearch/lucene 怎么优化多语言搜索？

相关帖子

浏览过的版块

热门主题

求推荐 300 价位电视盒子

[分享] 纯前端撸了一个「交互式哺乳动物演

她说离婚原因是男的挣不到钱

这是缅北开发的游戏…

短视频里，高速现在都开始堵车了啊，大家都

百度统计或者cnzz的数据，来源分析，直接访

必应移动端有流量的吗？

发现了很多这种后缀的的百度收录，是怎么做

我看那个huoban网站权重被百度干没了。。。

按 Ctrl 好累？我不是一个人吧

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告