Havenask的bitmap 高频词字典和配置 有参考不 ?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在 Havenask 中,bitmap 高频词字典 和相关配置是优化索引性能的重要手段。以下是详细的说明和配置参考:
高频词字典通过为高频词建立 bitmap 索引,可以有效减少索引空间并提高检索性能。
- 适用场景:适用于文档中出现频率较高的词(如停用词或常见词汇)。 - 优势: - 减少存储空间占用。 - 提升查询效率,特别是在大规模数据集上。
Havenask 支持两种类型的高频词字典配置:
high_frequency_dictionary
"high_frequency_dictionary": ["高频词1", "高频词2", "高频词3"]
adaptive_dictionaries
{
"adaptive_dictionary_name": "df",
"dict_type": "DOC_FREQUENCY",
"threshold": 1500000
}
{
"adaptive_dictionary_name": "percent",
"dict_type": "PERCENT",
"threshold": 30
}
{
"adaptive_dictionary_name": "size",
"dict_type": "INDEX_SIZE"
}
DOC_FREQUENCY
阈值建议为 50 万,PERCENT
阈值建议为 5。high_frequency_term_posting_type
both
:同时保留 bitmap 和倒排索引。bitmap
:仅保留 bitmap 索引(默认值)。both
。NUMBER
类型索引支持对整型字段(如 INT8、UINT8 等)建立倒排索引,但不支持 fieldmap
、section信息
等复杂结构。index_name
不允许命名为 "summary"
。term_payload_flag
、doc_payload_flag
、term_frequency_flag
设置为 0,以减少不必要的存储开销。file_compress
配置文件级别的压缩,进一步优化存储效率。以上内容详细描述了 Havenask 中 bitmap 高频词字典的配置方法及相关建议。希望这些信息能帮助您更好地理解和应用相关功能!