《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (8)

简介: 《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (8)

《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (7) https://developer.aliyun.com/article/1228525?groupCode=ClouderaCDP


5. 准实时分析


时分析需要变化中的数据提供快速分析能包括结合历史数据和流数据进行分析、查询


由于对实时和批不可和,的意是人机交互中能受的尺度),不是机器动处理的时性量级ns/us )。


分析段:数据价值化到结化,分析从式到式。SQL 是结构化分析的最终段,是:


分析包括汇分析(扫描)与查询扫描)。

数据下都不是问数据下,两种负和。

数据和流窗口上的 SQL 引擎实现也全不

时分析的型场需要时支持读/写应用包括

在线交互式 BI 分析/决策辅助


举例风险时资产图、历史风险好趋势、市场

应用类型:需要准时的/修改分析和查询


时间序列数据


举例市行数据、欺诈检测风险监控线反欺诈

应用类型:需要数据,时结合有的 T+1 数据进行总、分析和计算


机器日志数据分析


举例:台机监控

应用类型:需要过滤量流数据,时结合有的 T+1 数据进行总、分析和计算


在企业数据中心中Lambda 架构来实现准时分析场

image.png

这种混合架构的复杂性无处不在:


同时提供高性能的顺序扫描和随机查询,避免使用 HBase+HDFS 混合架构的

复杂性


必须复杂的代码管理两个之间的数据及同

运维必须管理多个不的一、安全策略以及监控

业务:新数据从HBase HDFS 中有时,不能上供分析

行中,统通到数据到,此需要对过去的数据进行修正等使用不可更的存储(HDFS 文件),将非常不便CDP 平台上通过使用 Kudu+Impala 架构来提供准时数据分析,这里只使用一,不需要时的批来同数据,可以轻松应对数据延迟和数据工作,新数据可以立即用于分析和业务运营

image.png

Kudu+Impala 架构具有下特点


通过 SQL 进行快速分析查询,并大多数的最新性。

入、更新和数据。

索引数据、保数据一性。

式数据入。

Hadoop 成。

群中能进行 HDFS Kudu 之间的 JOIN

ImpalaSparkKafka 成。

这里 Kudu 填充HDFS HBase 两个存储的空缺,支持在快速变化的数据上进行快速分析。

image.png

6. 企业级大规模 IoT/实时流媒体场景


1) 数据收集的挑战


在制造过程中管理所有的所有数据的收集是一项务,它带来了一些挑


评估 IoT 数据的容量和种:许多利用来自多商的现代和传统资产以,并使用各种协议和数据式。可以连接OT 是它们不以于与 IT 数据的方式接。为了实现互连的制和新IoT ,需要一种解决,该解决可以从边缘处理所有类型的各种数据结架构数据进行化,然包括大数据应用任何类型的数据使用者共


管理时数据的复杂性:为了能分析,数据管理平台需要启用对流数据的时分析。该平台需要时或时有地摄取、存储和理流数据,以便立即提供和行

数据从独立孤岛中解放出:制造价值链中的程(新平台、QMS、MES 奖励针对特孤岛解决案量制的不数据源和数据管理平台。


这些解决案限制了企业价值只考虑企业数据可以提供的

小部分,分了业务并制了合作机会的平台必须有从价值链

个方面取、存储、管理、分析和数据的能,并将与数据历史学ERPMES QMS 结合,并利用形成可行的这些解将提供动高价值分析。


衡边缘:了解边缘和云中的数据理之间的是一个挑战就是为什么需要考虑整个数据生命周期的原因。行业中的趋势担忧为公司选择专注于一个或一个有意到自可以并且时做两个事情。计算期分析和大部署它受到制,并且收集大量数据使用其中的一小部分数据。边缘价值在于在将最有价值的数据发送到云以进行进一性能理之,以零延迟对影响最大的边缘作用


2) 使用 Cloudera 数据平台收集数据


步骤 1:收集原数据

业务中的数据包括种来-机器人、白车身磷酸盐涂层度、浓度或给),供应链远信息处理或信息等这部分数据可能是工厂已经收集数据,也可能是的数据源。


步骤 2:为每个厂配置数据

使用 Cloudera 管理(由 Apache NiFi 提供支持)说明该数据收集、以索该数据并将分为(由 Apache Kafka 管理)、以更准模拟

image.png

2:数据集流程图


步骤 3每个的数据吞吐量


现在,所有数据都Kafka 中,数据架构师正监控的数据吞吐量,并整所需的计算和存储资源,以有将数据送到平台所需的吞吐量


步骤 4:从 Apache Kafka 捕获数据


Kafka 获所有数据并将其收集中,这些处将进行过滤丰富,以制和行由运营数据库提供支持的基本业务运营,或者通过企业数据仓库或高级分析的业务企业


步骤 5数据推送到存储决方

由于制量工希望监控动机部署和现场使用特定的制造可追溯性数据被过滤中,并保存在 Apache Hive 中自中。这将CDP 针对数据进行查询,并将与企业数据库中的其他数据结合如维修或客户反馈,以产生性等高级用维护或产品开入。


或者,需要制和基本业务已处理时间的整个数据集发送Apache HBase。此数据将用作其运行库存平台的基础将需要使用/写操每天可以库存数。由于 HBase 在大处理此类数据务,此它是应对这特挑战的最解决


3) 总结

示了取数据的要性,是从运营数据库、企业数据库或高分析机器学习分析中获得基础价值包括使用来自任何企业源的数据,从而打数据孤岛使用所有数据(数据是面向批的数据),以将数据位置以产生所需的下游的能力。使用 CDP,数据业务户可以开收集的数据各种任务,从库存管理到机器学习。由于 Cloudera Data Flow 进了从任何企业源获取时数据的能此可以展和维护它,而无需广解各种编程语言专有数收集果遇的问师还可以创建辑以进行真正的细粒度制。


《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (9) https://developer.aliyun.com/article/1228522?groupCode=ClouderaCDP

目录
相关文章
|
3月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
110 0
|
12月前
|
SQL 安全 大数据
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (1)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (1)
492 0
|
12月前
|
弹性计算 分布式计算 安全
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (2)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (2)
221 0
|
12月前
|
大数据 定位技术
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (3)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (3)
206 0
|
12月前
|
机器学习/深度学习 消息中间件 监控
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (4)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (4)
196 0
|
12月前
|
SQL 分布式计算 安全
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (5)
《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (5)
275 0
|
12月前
|
存储 边缘计算 人工智能
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (1)
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (1)
318 0
|
8月前
|
机器学习/深度学习 Kubernetes Cloud Native
SAP 云平台 (Cloud Platform) 架构概述
SAP 云平台 (Cloud Platform) 架构概述
170 1
|
8月前
|
移动开发 IDE Java
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
SAP 云平台从 Neo 到 Multi-Cloud 的演化历史
161 0
|
8月前
|
数据中心
什么是 SAP 云平台的 multi-cloud architecture
什么是 SAP 云平台的 multi-cloud architecture
62 1