实时引擎平台化总结

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。

1 新业务接入
 [a] dump
形式: 走DB、走云梯、走dump中心
 [b]
查询量和更新量:当查询比较平稳而更新较大,此时IO负载需要评估
 [c]
查询出现瓶颈时,可以考虑设置缓存,查看缓存命中率,可以在后台使用admin的相关请求查看
 [d]
新业务索引数据:
     --
尽量只保存DB的 索引字段,而不保存DB的全部信息,最大化发挥引擎性能
     --
尽量减少schema字段,合并或者stored=false索引字段,需要与业务方深入沟通
     --
或者引擎存DB索引字段,而记录内容存mongodbnosql系统
     
 [e]
新业务查询数据
     --
查询翻页,尽量走页面缓存,而不是每次查询
     --
尽量引入输入提示,引导query,引导流量,提升cache命中率和搜索准确性
     --
使用单字分词而不使用模糊匹配,在query解析的时候
     --
流量优先而数据规模增长缓慢的,可以直接使用lucene api 绕过solr解析,提升tps
     --
数据规模增长优先而查询缓慢增长,走普通模式
     --
查询时效性优先,走实时模式
     --
查询时效性优先,同时数据增长优先,走实时模式的 非中心化实现
     --
查询时效性优先,数据增量缓慢,走实时模式的     中心化实现
     -- facet
groupbyscore boost、模糊查询、区间查询、高亮等可以支持
     --
个性化分词策略支持
     --
区间查询比例大,走ecrm这种区间优化策略
     --
排行榜问题,走facet或者sort field

 [f]
预留备用机器,应对节假日高峰请求(高峰的读或者写)
 [g]
申请结点,考虑跨机房,至少cm3cm4 都有结点
 [h]
业务方需求尽量变更批量提交,而不是每一个小需求就立刻变更并立即部署

2
运行时关注问题
 [a]
文件句柄
 [b]
索引全量、增量exception
 [c]
磁盘空间
 [d] load io
情况
 [e] reload
unload core
 [f]
报警处理
 [g] jvm
参数
 [h] log
分析与log规范化

3
动态启停服务,支持平滑变更schema、变更dump逻辑
 [a] reload schema
 [b] reload jar
 [c] reload DB
连接信息
 [d] reload
全量、增量时间配置信息


4
后台系统
 [a]
自动化接入
 [b]
查询
 [c]
统计与报表

5
规范化
 [a] svn
管理
 [b]
文档管理
 [c]
业务管理

6
测试平台与辅助小工具------需要具体数值来量化
 [a]
独立引擎不依赖终搜的集中配置
 [b] dump
与查询本地验证工具
 [c]
系统时间轨迹
 [d]
系统内存轨迹
 [e]
系统tps与超时比例
 [f]
系统tps与数据规模
 [e]
系统tps与读写比例
 [g]
系统tps与内存
 [h]
系统tpscache设置

7
集群资源共享
 [a] dump
中心Index
 [b] dump
中心indexsearch
 [c]
配置推送或者配置常驻系统,只在数据到达后启动服务,最大化集群使用率
 [d]
推荐

目录
相关文章
|
5月前
|
消息中间件 存储 NoSQL
离线与实时数据开发方案
离线与实时数据开发方案
99 0
|
12月前
|
运维 大数据 网络安全
大厂案例 - 实时分析引擎
大厂案例 - 实时分析引擎
55 0
|
2月前
|
消息中间件 监控 关系型数据库
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
Serverless 应用的监控与调试问题之实时离线数仓一体化常用的解决方案有什么问题
|
3月前
|
存储 数据可视化 数据挖掘
实时数据分析系统的构建与优化
【7月更文挑战第29天】实时数据分析系统的构建与优化是一个复杂而细致的过程,需要从需求分析、数据源确定、数据采集与传输、数据处理与分析、数据存储、数据可视化、系统部署与配置、监控与优化等多个方面进行综合考虑。通过选择合适的技术栈和优化策略,可以构建出高效、稳定的实时数据分析系统,为企业决策提供强有力的支持。
|
2月前
|
存储 JavaScript 前端开发
ShareDB:构建实时应用从未如此简单
ShareDB:构建实时应用从未如此简单
46 0
|
3月前
|
SQL Cloud Native 数据挖掘
Hologres:高性能实时数据分析引擎
Hologres:高性能实时数据分析引擎
|
机器学习/深度学习 人工智能 分布式计算
离线实时一体化新能力解读| 学习笔记
快速学习离线实时一体化新能力解读
842 0
离线实时一体化新能力解读| 学习笔记
EMQ
|
SQL 存储 运维
流批结合计算以及更多原生分析能力支持
十月,eKuiper发布了1.7.0版本:引入了查询表和可更新Sink的概念,支持数据流与外部存储的数据一起计算,进一步完善了流批结合的实时计算能力。
EMQ
675 0
流批结合计算以及更多原生分析能力支持
|
存储 Prometheus 运维
阿里云ES全观测引擎TimeStream时序增强功能重磅发布,助力时序场景实现最佳实践
阿里云ES全观测引擎TimeStream时序增强功能最新发布,在云原生ELK全托管基础上,通过TimeStream时序增强功能插件,可实现高性能、低成本时序数据存储和查询分析。本文介绍TimeStream适用场景、功能优势、性能测试结果和实践案例
2166 0
|
存储 SQL 缓存
Hologres揭秘:深度解析高效率分布式查询引擎
从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologers底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologers,请大家持续关注!
10517 3
Hologres揭秘:深度解析高效率分布式查询引擎
下一篇
无影云桌面