开发者社区> 问答> 正文

ES Rollup Pipeline是什么?

ES Rollup Pipeline是什么?

展开
收起
游客afijyf435noyu 2021-12-14 11:12:29 554 0
1 条回答
写回答
取消 提交回答
  • image.png

    Rollup,即数据上卷,图中左边大家看到数据有三种颜色,这些数据表示的是一个点 击事件,记录某一些用户点击的事件,性别。在原始的数据里,我们可以想象,假设做一个 网站或系统,pv、uv 的统计,每天可能有上 10 亿的数据量,但是我们分析需求的时候实 际上只需要分析今天什么时候哪个域名点击了多少次,这个我们可以通过 Rollup 这个概念 把数据做一次转换,压缩。到右边,我们的数据就已经精确到天或者按小时。对于 ES 来说, 它其实也是遵循三个关键步骤:第一,原始数据输入到 Elasticsearch 里存起来,中间开 启一个 Rollup 实时计算的能力,然后把数据经过一定的折叠之后,输出到另外一个索引, 这样就完全满足了 Pipeline 的思维,也完全满足了实时计算。所以在这个领域, ES 算做 了一个伟大的创新,只需要一套去处理,就可以把管道模型深切地融入到自己的数据里。如 果基于 Flink 做数据统计,上游会先用 Kafka 输入数据,然后中间用 Flink 计算,比如每 1000 条,每 1 万条数据就 Rollup 一下,然后输出到另外一个下游又会放到 ES 里来存储, 这就会带来技术的成本,实施的代价。

    资料来源于《开源与云Elasticsearch应用剖析》下载地址:https://developer.aliyun.com/topic/download?id=1169

    2021-12-14 12:00:08
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
ES Cross Cluster Search生产实践 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载