实时引擎平台化总结

简介: 假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。

1 新业务接入
 [a] dump
形式: 走DB、走云梯、走dump中心
 [b]
查询量和更新量:当查询比较平稳而更新较大,此时IO负载需要评估
 [c]
查询出现瓶颈时,可以考虑设置缓存,查看缓存命中率,可以在后台使用admin的相关请求查看
 [d]
新业务索引数据:
     --
尽量只保存DB的 索引字段,而不保存DB的全部信息,最大化发挥引擎性能
     --
尽量减少schema字段,合并或者stored=false索引字段,需要与业务方深入沟通
     --
或者引擎存DB索引字段,而记录内容存mongodbnosql系统
     
 [e]
新业务查询数据
     --
查询翻页,尽量走页面缓存,而不是每次查询
     --
尽量引入输入提示,引导query,引导流量,提升cache命中率和搜索准确性
     --
使用单字分词而不使用模糊匹配,在query解析的时候
     --
流量优先而数据规模增长缓慢的,可以直接使用lucene api 绕过solr解析,提升tps
     --
数据规模增长优先而查询缓慢增长,走普通模式
     --
查询时效性优先,走实时模式
     --
查询时效性优先,同时数据增长优先,走实时模式的 非中心化实现
     --
查询时效性优先,数据增量缓慢,走实时模式的     中心化实现
     -- facet
groupbyscore boost、模糊查询、区间查询、高亮等可以支持
     --
个性化分词策略支持
     --
区间查询比例大,走ecrm这种区间优化策略
     --
排行榜问题,走facet或者sort field

 [f]
预留备用机器,应对节假日高峰请求(高峰的读或者写)
 [g]
申请结点,考虑跨机房,至少cm3cm4 都有结点
 [h]
业务方需求尽量变更批量提交,而不是每一个小需求就立刻变更并立即部署

2
运行时关注问题
 [a]
文件句柄
 [b]
索引全量、增量exception
 [c]
磁盘空间
 [d] load io
情况
 [e] reload
unload core
 [f]
报警处理
 [g] jvm
参数
 [h] log
分析与log规范化

3
动态启停服务,支持平滑变更schema、变更dump逻辑
 [a] reload schema
 [b] reload jar
 [c] reload DB
连接信息
 [d] reload
全量、增量时间配置信息


4
后台系统
 [a]
自动化接入
 [b]
查询
 [c]
统计与报表

5
规范化
 [a] svn
管理
 [b]
文档管理
 [c]
业务管理

6
测试平台与辅助小工具------需要具体数值来量化
 [a]
独立引擎不依赖终搜的集中配置
 [b] dump
与查询本地验证工具
 [c]
系统时间轨迹
 [d]
系统内存轨迹
 [e]
系统tps与超时比例
 [f]
系统tps与数据规模
 [e]
系统tps与读写比例
 [g]
系统tps与内存
 [h]
系统tpscache设置

7
集群资源共享
 [a] dump
中心Index
 [b] dump
中心indexsearch
 [c]
配置推送或者配置常驻系统,只在数据到达后启动服务,最大化集群使用率
 [d]
推荐

目录
相关文章
|
5月前
|
消息中间件 存储 NoSQL
离线与实时数据开发方案
离线与实时数据开发方案
59 0
|
7月前
|
运维 大数据 网络安全
大厂案例 - 实时分析引擎
大厂案例 - 实时分析引擎
30 0
|
8月前
|
数据可视化 小程序 BI
火山引擎 DataWind 产品可视化能力揭秘
火山引擎 DataWind 产品可视化能力揭秘
|
机器学习/深度学习 人工智能 分布式计算
离线实时一体化新能力解读| 学习笔记
快速学习离线实时一体化新能力解读
354 0
离线实时一体化新能力解读| 学习笔记
EMQ
|
SQL 存储 运维
流批结合计算以及更多原生分析能力支持
十月,eKuiper发布了1.7.0版本:引入了查询表和可更新Sink的概念,支持数据流与外部存储的数据一起计算,进一步完善了流批结合的实时计算能力。
EMQ
653 0
流批结合计算以及更多原生分析能力支持
|
消息中间件 分布式计算 数据可视化
通过Flink+NBI可视化构建实时分析系统
Flink: Apache Flink是一个计算框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。 Flink主要特点: 1、高吞吐、低延迟、纯流式架构; 2、支持对乱序事件的处理; 3、有状态、提供exactly-once计算; 4、高度灵活的窗口机制; 5、失败恢复、故障转移、水平扩展; 6、批处理、流处理统一的API
通过Flink+NBI可视化构建实时分析系统
|
消息中间件 SQL 运维
如何设计实时数据平台(技术篇)
本文从技术角度入手,介绍RTDP的技术选型和相关组件,探讨适用不同应用场景的相关模式。
|
存储 监控 算法
AliExpress智能营销引擎大揭秘-AnalyticDB如何做到快准狠省
AliExpress(简称AE)是从集团内wholesale孵化出来面向全球消费者的B2C电商平台,目前也是全球化电商业务的排头兵。AnalyticDB MySQL作为链路核心,支撑了AE业务的快准狠省的智能营销。在数据时效性、高并发、低延时以及复杂分析等方面提供了强力的保障。
357 0
AliExpress智能营销引擎大揭秘-AnalyticDB如何做到快准狠省
|
SQL 消息中间件 弹性计算
基于Flink+ClickHouse构建实时游戏数据分析最佳实践
本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。
基于Flink+ClickHouse构建实时游戏数据分析最佳实践
|
存储 分布式计算 DataWorks
利用交互分析(Hologres)进行数据查询解决方案
Hologres致力于低成本和高性能地大规模计算型存储和强大的查询能力,为您提供海量数据的实时数据仓库解决方案和实时交互式查询服务。
利用交互分析(Hologres)进行数据查询解决方案