SolrLucene超过300G索引优化参考

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本文分享大索引优化实践经验。

SolrLucene 默认的只要磁盘、内存足够大,单节点是可以构建300G的索引,但是很明显,后面索引构建的速度慢下来了。下面结合具体业务场景分享几个思路。


总结描述  

300G索引,首先想到的是分片。  300G索引,既然分片了,自然是希望在单节点上,这样merge代价降低  300G索引,分片后,在较好的物理机上,自然是分盘,分担IO


解决方案参考  

A: 实时写比例远大于实时读   

首先将索引,按照某种策略执行分片,在solr既可以是core层次分,也可以是core内部分多子目录   实时写,从配置上对增量的路径执行多盘配置,然后写入索引,可以完全随机或者一定策略分布写盘   实时查询,根据策略执行磁盘的主索引和对于增量索引的merge

 
core层分片优势,可以执行lazy加载core,这对于日子类型的,只写不改的,可以充分发挥磁盘和内存利用率。

 
B:实时读写比较相当,二者量都非常大的时候  

首先也是索引的按某种策略分片,在solr即可core层次分,也可以core内部分多子目录(我们是自己改写了)  全量的索引,离线集群构建。  实时写,建议不采取物理机,而是虚拟机,管理多台虚拟机比少量物理机可能效果更好。  这个时候,物理机多磁盘、多核交由 虚拟化 来管理了。  如果仍然存在多盘的 虚拟机,那么针对实时的commitlog,参照A的场景配置多盘符路径,    使得多个磁盘均分IO

3)场景用例简要说明  

A:日志搜索    

每天新增50G以上的新数据构建索引,数据内容就是系统日志。保留最近7天的内容。响应时间3s以内!      


解决方案:    

 14core,每天2core分担增量数据,其他core按照查询 天来执行query      每天定时切换一组(2个)core  


Bkey-value搜索    

每天新增1000w,每天全量,响应时间50ms,大翻页支持     解决方案        

N多个coreN多个子组,每个core管理多个子组        

全量离线并行构建(去掉锁、不落地、调整merge策略是关键),增量写入对应core、对应的子组

目录
相关文章
|
20小时前
|
数据采集 人工智能 安全
|
10天前
|
云安全 监控 安全
|
1天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
822 150
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1587 8
|
6天前
|
人工智能 前端开发 文件存储
星哥带你玩飞牛NAS-12:开源笔记的进化之路,效率玩家的新选择
星哥带你玩转飞牛NAS,部署开源笔记TriliumNext!支持树状知识库、多端同步、AI摘要与代码高亮,数据自主可控,打造个人“第二大脑”。高效玩家的新选择,轻松搭建专属知识管理体系。
353 152
|
6天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
544 152
|
8天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
527 14
|
1天前
|
编解码 人工智能 机器人
通义万相2.6,模型使用指南
智能分镜 | 多镜头叙事 | 支持15秒视频生成 | 高品质声音生成 | 多人稳定对话