备案控制台

开发者社区开发与运维文章正文

solr&lucene spatial search 大规模地理搜索性能堪忧

2022-05-02 139

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 假期重新把之前在新浪博客里面的文字梳理了下，搬到这里。最早发布时间2013年的时候。以下内容非最新版本的性能表现。

solr lucene spatial 性能堪忧啊。
(1)4b record 10k qps 场景的一个讨论http://lucene.472066.n3.nabble.com/Improving-performance-for-SOLR-geo-queries-td3719310.html

(2)spatial历史http://www.searchworkings.org/blog/-/blogs/the-state-and-future-of-spatial-search/

(3)目前看20tps 2Mrecord的 benchmark https://issues.apache.org/jira/browse/SOLR-2155?focusedCommentId=12988316&page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel#comment-12988316

(4)filtercache优化性能 http://lucene.472066.n3.nabble.com/Solr-Spatial-Search-for-Specif-Areas-on-Map-td3995051.html#a3995333

spatial的流派、geo模型、开源协议、版本的更新，热点的LSP啊，路还长啊。从上几篇博文看：
(1)tdouble 类型定义隐藏子域类型很有必要，因为geo转换的区间查询时候，trie类型牺牲空间还性能。presicestep由8 调为4
(2)使用LSP 的 RecursivePrefixTreeFieldType 而不是内置的LatLonType 性能有2倍提升
(3)shard record数据量200M，2kw内
(4)filtquery 针对query特征需要适当cache=false
(5)geohash 在3.* 序列其实是暴力遍历的，geohash意味着不要用
(6) lucene4.* 优化的方向就是缩小匹配规模，triegrid也罢，二分查找grid binary grid scheme, using Hilbert Curves希尔伯特曲线，还有不少实践路要走
(7)latlon 类型的基于点模型，满足80%的场景需求

2330w地理数据的单core 压测、性能调优，需要深入挖坑了看来。

文章标签：

测试技术

李雨前

目录

相关文章

热爱技术的小郑

|

6月前

|

SQL JSON 大数据

ElasticSearch的简单介绍与使用【进阶检索】实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序

这篇文章是Elasticsearch的进阶使用指南，涵盖了Search API的两种检索方式、Query DSL的基本语法和多种查询示例，包括全文检索、短语匹配、多字段匹配、复合查询、结果过滤、聚合操作以及Mapping的概念和操作，还讨论了Elasticsearch 7.x和8.x版本中type概念的变更和数据迁移的方法。

热爱技术的小郑

126 1 1

ElasticSearch的简单介绍与使用【进阶检索】实时搜索 | 分布式搜索 | 全文搜索 | 大数据处理 | 搜索过滤 | 搜索排序

1941623231718325

|

8月前

|

缓存监控负载均衡

使用Apache Solr进行搜索优化的技术探索

【6月更文挑战第6天】探索Apache Solr搜索优化，通过字段选择、分析器优化、索引压缩提升索引效率；优化查询分析、缓存、分组排序以增强查询性能；硬件升级、分布式部署及监控调优保证系统稳定性。实战案例展示如何在电商平台上应用这些策略，实现快速准确的搜索服务。Solr在大数据时代展现出广阔的应用潜力。

1941623231718325

158 1 1

小小工匠

|

算法

白话Elasticsearch15-深度探秘搜索技术之使用copy_to定制组合field解决cross-fields搜索弊端

白话Elasticsearch15-深度探秘搜索技术之使用copy_to定制组合field解决cross-fields搜索弊端

小小工匠

99 0 0

架构师研究会

|

机器学习/深度学习人工智能编解码

【搜索引擎】Apache Solr 神经搜索

【搜索引擎】Apache Solr 神经搜索

架构师研究会

199 0 0

小小工匠

|

分布式计算 Java Hadoop

白话Elasticsearch07- 深度探秘搜索技术之基于term+bool实现的multiword搜索底层剖析

白话Elasticsearch07- 深度探秘搜索技术之基于term+bool实现的multiword搜索底层剖析

小小工匠

93 0 0

小小工匠

|

Java 索引

白话Elasticsearch11-深度探秘搜索技术之基于tie_breaker参数优化dis_max搜索效果

白话Elasticsearch11-深度探秘搜索技术之基于tie_breaker参数优化dis_max搜索效果

小小工匠

119 0 0

小小工匠

|

SQL JSON 自然语言处理

白话Elasticsearch01- 结构化搜索之使用term query来搜索数据

白话Elasticsearch01- 结构化搜索之使用term query来搜索数据

小小工匠

319 0 0

架构师研究会

|

分布式计算搜索推荐架构师

【搜索引擎】Solr：提高批量索引的性能

【搜索引擎】Solr：提高批量索引的性能

架构师研究会

104 0 0

小小工匠

|

Java Apache 索引

白话Elasticsearch10-深度探秘搜索技术之基于dis_max实现best fields策略进行多字段搜索

白话Elasticsearch10-深度探秘搜索技术之基于dis_max实现best fields策略进行多字段搜索

小小工匠

104 0 0

架构师研究会

|

存储缓存搜索推荐

【搜索引擎】配置 Solr 以获得最佳性能

【搜索引擎】配置 Solr 以获得最佳性能

架构师研究会

246 0 0

热门文章

最新文章

解决kafka集群由于默认的__consumer_offsets这个topic的默认的副本数为1而存在的单点故障问题

oracle 11g 11204补丁信息

Python 命令行之旅：初探 docopt

时间之箭源于量子纠缠？

输入输出流体系图

Windows Server 2008 R2下部署OCS 2007 R2 边缘服务器

从码农到设计者，从单例模式入手设计代码

瑞典力推储能助太阳能发电计划落实

十张图告诉你互联网发展的八大趋势

第7周-任务3-复数模板类

DeepSeek——DeepSeek模型部署实战

基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证

基于电导增量MPPT控制算法的光伏发电系统simulink建模与仿真

基于排队理论的客户结账等待时间MATLAB模拟仿真

3天功能开发→3小时：通义灵码2.0+DEEPSEEK实测报告，单元测试生成准确率92%的秘密

Sentinel监测到了服务，但是实时监控不显示曲线图，应该怎么解决这个问题？

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

通义灵码 2.0 体验报告：AI 赋能智能研发的新范式

类和对象的简述（c++篇）

模拟实现c++中的vector模版

相关电子书

更多

打造高性能高可用的搜索服务——爱奇艺搜索架构实践

《开放搜索查询分析服务架构分享》

Solr增强HBase检索能力基础介绍及场景

相关实验场景

更多

基于Elasticsearch向量检索的以文搜图

基于Kibana Discover筛选数据，自由搜索航班信息

使用检索分析服务Elasticsearch版实现基础检索

使用阿里云Elasticsearch体验信息检索加速

下一篇

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型