开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

什么是数据时效性?

已解决

什么是数据时效性?

展开
收起
游客lmkkns5ck6auu 2022-08-31 11:06:00 922 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    原始数据从左上角的应用产生,经过蓝色和粉色两条链路。 其中,蓝色链路是业务视角上端到端闭坏的链路,应用产生的数据会写入 MySQL 或者 Oracle 等关系型数据库,之后通过 CDC 相关技术,将数据库产生的日志复制到 Kafka 消息队列中,将同一份数据的共享,避免多次读取数据库日志。 在 Kafka 之后,是实时计算平台。实时计算平台除了实现对时效要求较高的计算处理场景之外,它还可以通 过 Flink 结合 HUDI/IceBerg 等产品实现实时数据入湖。而且能将 Flink 的结果输出到 HBase\ES 等联机数据库 中。将这部分数据以服务的形式暴露,即数据中台服务,从而提供给应用调用。

    粉色链路的数据,最终回到数据分析师那里,是蓝色链路的衍生。各个应用产生的数据,通过 Flink 和 Hudi的实时数据入湖,通过 Presto 或 CK 等分析型引擎,供数据分析师进行 BI 分析。通过这条链路,数据时效得以提升,让分析师访问到分钟级延时的热数据,更加实时、准确地做出运营决策。一般高时效的业务场景,都包含在这条技术链路的体系之内。

    以上内容摘自《Apache Flink 案例集(2022版)》电子书,点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

    2022-08-31 13:10:39
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
交易风控数据的海量存储与多种离线计算处理 立即下载
交易风控数据的海量存储于实时访问 立即下载
海量订单系统优化实践 立即下载