《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (5) https://developer.aliyun.com/article/1228527?groupCode=ClouderaCDP
三、 CDP 用例场景
1. 现代化数据仓库
构建现代化数据仓库来替代传统数据仓库以解决企业对数据来源、数据量及数据服务时效的需求,使得现代化数据仓库可以使用强大的自助服务工具来为数千名 BI 分析用户提供支持,同时系统提供快速和大规模的向导和自动化管理工具,并且存储所有的数据(包括各种类型和数据量的数据)
在现代化数据仓库平台中,能够容纳所有的数据类型和数据量,并在平台上进行大规模数据的处理和分析,同时通过统一的安全和治理,保证企业数据的合规。
利用 CDP 平台提供的高性能的 ETL 工具 Hive-on-Tez 和交互式低延时 BI 查询工具Impala 来提供现代数据仓库的解决方案。
2. 流式消息处理
Apache Kafka 是一个高性能、高可用性的冗余流消息平台,可以替代更传统的消息代理。消息代理的使用有多种原因(将数据生成和处理分离,缓冲未处理的消息等)。
与大多数消息传递系统相比,Kafka 具有更好的吞吐量、内置分区、复制和容错功能,这使其成为大规模消息处理应用程序的理想解决方案。
Kafka 的功能很像发布/订阅消息系统,但具有更高的吞吐量、内置的分区、复制和容错能力。对于大规模消息处理应用程序来说,Kafka 是一个很好的解决方案。它通常与 Apache Hadoop、Spark Streaming 和 Flink 等一起使用。
在 CDP 中提供了 Kafka 及其周边的小伙伴,来使得 Kafka 更易用,更好用。该图是一种简化的动态数据参考架构,在边缘端显示为 Apache MiNiFi,它从移动资产中提取了机器生成的数据。Apache NiFi 收集数据并转换、解析和过滤到 Kafka的主题,以便 Apache Flink/Spark Streaming 等流处理引擎和其他应用程序可以快速构建和运行分析。
• 使用 CDP7.1,您将获得最新的 Kafka 服务。
• Kafka Connect 支持可用于增强与 HDFS、S3 和 Kafka Streams 的连接。可以直接将 Kafka 的数据写入到对应的存储中。
• Schema Registry 将在整个 Kafka 集群中存储和访问您的 Schema。它与Apache Ranger 集成,来支持对 Schema Registry 的访问控制。
• Stream Replication Manager 可实现业务连续性,该业务连续性支持您的 Kafka集群的复制,以实现灾难恢复和高可用性需求。
• Cruise Control 支持提供基于 API 的工具,以监视和协助 Kafka 集群和主题的重新平衡和扩展。
• Streams Messaging Manager 用于监控和管理发布者、代理、使用者和主题。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (7) https://developer.aliyun.com/article/1228525?groupCode=ClouderaCDP