问题一:实时计算平台的数据源和用户订阅情况如何?
实时计算平台的数据源和用户订阅情况如何?
参考回答:
实时计算平台接入了30多种数据源,数据量达到万亿级别,每日数据增量为600TB。用户来自全国31个省份公司及联通集团的各个子公司,目前平台支持26种标准化场景,支撑了5000多个规则的订阅。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/670775
问题二:实时计算平台如何确保数据的实时性和准确性?
实时计算平台如何确保数据的实时性和准确性?
参考回答:
数据从产生到进入系统有520秒延迟,系统处理后有310秒延迟,平台通过端到端延迟监控确保不超过5分钟的最大延迟。同时,平台实时下发的数据会保存至HDFS,每日抽取部分数据进行质量比对,确保数据准确性达到95%以上。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/670777
问题三:Flink在实时计算平台中扮演了什么角色?
Flink在实时计算平台中扮演了什么角色?
参考回答:
Flink在实时计算平台中扮演了核心引擎的角色,能够很好地满足实时性、低延迟、高吞吐量的需求,确保用户定义场景的数据不漏发。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/670780
问题四:实时计算平台如何支持用户订阅和数据下发?
实时计算平台如何支持用户订阅和数据下发?
参考回答:
用户通过平台订阅标准化场景,平台将Kafka连接信息和数据Schema返回给用户。用户订阅的筛选条件与数据流匹配成功后,以Kafka形式下发数据。
关于本问题的更多回答可点击原文查看:
https://developer.aliyun.com/ask/670783
问题五:为什么选择从Kafka + Spark Streaming转向Flink?
为什么选择从Kafka + Spark Streaming转向Flink?
参考回答:
因为Kafka + Spark Streaming的第三方平台存在依赖外部系统、大并发下负载高、资源消耗大、支撑体量小、监控粒度不足等问题,难以满足日益增长的需求。而Flink提供了更高的灵活性和可控性,适合自研和定制化开发。
关于本问题的更多回答可点击原文查看: