实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案

简介: 实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案

原创申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计4895字,阅读大概需要3分钟

欢迎关注我的个人公众号:不懂开发的程序猿

0、引言

⼤数据与实时⼤数据的区别与挑战: 实时⼤数据除了具备⼤数据的所有特点外,还有⾃⼰的特点。与⼤数据相⽐,在数据集成⽅⾯,实时⼤数据在数据采集设备、数据分析⼯具、数据安全等⽅⾯有着更⾼的要求。

下⾯从数据收集、数据分析、数据安全、数据管理和对标等⽅⾯进行分析。


1 数据收集

1.1、⼴泛的异构性

在处理处理异构时,⼤数据系统可以使⽤ NoSQL 技术和其他新的 存储⽅式,例如 Hadoop HDFS。但这种存储技术对实时性要求不⾼, 数据往往存储⼀次,读取多次。然⽽这种存储技术远远不能满⾜需要数据的实时⼤数据系统的需求。


1.2、数据质量保障

⼤数 据的数据质量有两个问题:如何管理海量数据,如何清洗。在清洗过程中,如果清洗粒度太⼩,很容易过滤掉有⽤的信息;如果清洗粒度太粗,就达不到真正的清洗效果。所以在数量和质量之间需要仔细 考虑和权衡,这在实时⼤数据系统中更为明显。⼀⽅⾯,它要求系统在很短的时间内同步数据;另⼀⽅⾯,也要求系统实时对数据做出 快速响应。对数据传输速度和数据分析的性能要求越来越⾼。

因此,如何把握数据之间的相关性,准确判断数据的有⽤性和有效性,就成为⼀个严峻的挑战。


2、 数据分析

2.1、数据处理的时效性

在实时数据系统中,对时间的要求更⾼。随着时间的推移,数据中包含的知识价值也 在衰减。。实时⼤数据时代 对数据处理的时间线提出了新的更⾼的要求,主要体现在数据处 理模式的选择和改进上。实时数据处理模式主要包括三种模式:流模式、批处理模式和⼆合⼀混合处理模式。


2.2、动态环境下的索引设计

⽬前的解决⽅案基本上是通过NoSQL数据库建⽴索引来解决这个问题,但是已经⽆法满⾜⼤数据实时处理的需求


3 数据安全

3.1、暴露隐藏数据

在实时⼤数据处理中,如何保证数据处理的速度和数据的安全性?


3.2、数据泄露与隐私保护相冲突

如何保证数据隐私与数据公开之间的平衡,是⽬前研究和应⽤中的⼀个难点和热点问题。

MapReduce 提供了⼀种⾼级编程模型,通过简单的编程接⼝⽀持并行处理可划分的⼤规模数据,并为程序员提供了阻塞任务调度、数据存储和传输等细节,编程粒度更⾼。


90e3ebf882314aa8868888b6bdcbb1b0.png


4、实时⼤数据处理real-time big data processing (RTDP)框架

本⽂根据实时⼤数据处理系统对计算能力和时效性的要求,从功能层⾯将RTDP(Real-Time Data Processing)框架划分为Data、 Analytics、Integration和Decision四个层次。

62db71d219fd4f9ab6397b03c3b95fb1.png


4.1、Data

该层主要负责数据的收集和存储,也包括数据清洗和⼀些简单的数 据分析,为Analytics准备数据。在数据采集终端,需要对所有终端进行管理。

⼤数据分析⾸先需要解决的问题是⾼速数据流管理的数据采集侧数据预处理和数据流控制。论文【Adaptive data stream management system using learning automata】提出了⼀种⾃适应海量实时 数据流管理系统根据数据流向和数据分发节点预处理任务,如图6所⽰

da8ba1751afd464282401eeb31b083ac.png


论文【Real-Time Processing for High Speed Data Stream over Large Scale Data】提出了⼀种⼤规模的⾼速数据流实时数据处理⽅法 RTMR(实时 MapReduce)。但是,这种⽅法仍然存在⼀些挑战:如何有效利⽤CPU的处理能力;如何⽀持本地存储⾼并发访问的中间结果。为了解决上述问题,本⽂在【Adaptive data stream management system using learning automata】提出⾃适应海量实时数据流基于逻辑组合的管理系统基于底层的管理适配器(LMA)动态管理的传感器数据处理模式和控制,包括适配器逻辑规则引擎,验证器和执行器三部分,

8109713965594fee8f834e0ee9b0201a.png


Hadoop⾸先需要解决框架内的实时问题建议 RTDP 使⽤多级存储架构解决问题,其架构如图8所⽰


d0a04fc68ca543ff8d1d0168b9eaea23.png

4.2、Analytics

这⼀层是RTDP系统的核⼼,是决定RTDP系统性能的关键层。该层 主要负责数据结构建模、数据清洗等数据分析处理,为算法集成层准备数据。

为保证RTDP系统的灵活性和即时性,本⽂将RTDP帧中的任务按照时间要求优先控制,时延要求最低的任务优先级最⾼,并且可以在实时过程中调整优先级。因此系统分为三个模块:数据存储系统、分析计算系统和订货系统。数据存储系统主要采⽤多级存储系统各种存储⽅式,解析计算系统包括多个RTDP算法包,排序系统任务排序部分。 系统结构如图10所⽰。

79c46d6228514d818b2c58d4d98414ce.png

MapReduce 集群中,数据以⽂件的形式存储在各个节点上,⽽在实时 ⼤数据系统中,数据来⾃不同的异构终端,并且是实时传输的。另⼀⽅⾯, 由于数据源终端异质性导致的实时数据中的数据匹配问题⾮常严重,在 MapReduce中键值对相对稳定。为了解决这些问题,An open, flexible and multilevel data storing and processing platform for very large scale sensor network提出了⼀种适⽤于实时⼤数据的改进 MapReduce 模型,如图 11 所⽰

1c08eaff17f442c9bf1e0c44b2771066.png


4.3、Integration

该层在 RTDP 系统中起着连接作⽤。在这⼀层,它结合了许多常⽤的数 据处理算法包。根据场景调⽤合适的算法进行数据分析和数据展⽰,为分析 层提供技术⽀持,同时为决策层提供决策⽀持和理论依据。同时该层还需要 根据设置的规则识别数据采集层中的设备并部署应⽤程序。

现在⼴泛应⽤于各种⽹络的QoS技术,并不⾜以保证RTDP的实时性、⾼可靠性要求。 RTDP⽹络QoS问题的难点来⾃于RTDP具有 的固有特点:RTDP⽹络是⼀个复杂的、异构的融合⽹络; RTDP 在针 对海量数据处理和 RTDP ⼴泛存在的⼤量动态系统中,存在不确定性 的 RTDP ⽹络 QoS 问题有待认真系统地研究,为实现 RTDP 融合异 构⽹络 QoS,

还需要解决以下问题:

(1)如何获得满⾜应⽤程序的QoS请求的QoS路由计算所需的信息。

(2)如何构建满⾜QoS请求的路径。

(3)如何保持路径设置最短,需要⼀个统⼀ 的框架来满⾜复杂⽹络环境、各类RTDP应⽤的QoS要求。


4.4、Decision

根据数据分析结果进行决策,是数据处理系统的最⾼层,也是数据分析过程的最终⽬标。

决策⽀持是数据分析的最终⽬标,决策⽀持部分需要使⽤⼤量的可视化⼯ 具对数据分析结果进行不同维度的展⽰。数据呈现形式包括商业智能系统、 桌⾯办公系统和移动终端系统等。使⽤的⼯具包括数据仓库系统和图形处理 ⼯具。


5未来的研究方向

提出了未来RTDP系统的基本框架和基本处理模式,但仍有许多问题需要进⼀步研究。要点如下:


如何确定RTDP系统中合适的计算模式,如何确定数据处理模式和途径是决定系统性能的关键因素

如何保证数据处理的正确性。错误检测机制和⾃动修复⻓期以来⼀直是研究的难点,如何处理数据检测和错误诊断以及系统修复是⼀个巨⼤的⼯程。

【参考文献】

[1] Fernandes G, Rodrigues J J P C, Carvalho L F, et al. A comprehensive survey on network anomaly detection[J]. Telecommunication Systems, 2019, 70(3): 447-489.


[2] Mohamed N, Al-Jaroodi J. Real-time big data analytics: Applications and challenges[C]//2014 international conference on high performance computing & simulation (HPCS). IEEE, 2014: 305-310.

[3] Bifet A. Mining big data in real time[J]. informatica, 2013, 37(1).


[4] Zheng Z, Wang P, Liu J, et al. Real-time big data processing framework: challenges and solutions[J]. Applied Mathematics & Information Sciences, 2015, 9(6): 3169.


[5] Yadranjiaghdam B, Pool N, Tabrizi N. A survey on real-time big data analytics: applications and tools[C]//2016 international conference on computational science and computational intelligence (CSCI). IEEE, 2016: 404-409.


[6] Yang W, Liu X, Zhang L, et al. Big data real-time processing based on storm[C]//2013 12th IEEE international conference on trust, security and privacy in computing and communications. IEEE, 2013: 1784-1787.


[7] Liu X, Iftikhar N, Xie X. Survey of real-time processing systems for big data[C]//Proceedings of the 18th International Database Engineering & Applications Symposium. 2014: 356-361.


[8] Gurusamy V, Kannan S, Nandhini K. The real time big data processing framework: Advantages and limitations[J]. International Journal of Computer Sciences and Engineering, 2017, 5(12): 305-312.


[9] Sanla A, Numnonda T. A comparative performance of real-time big data analytic architectures[C]//2019 IEEE 9th International Conference on Electronics Information and Emergency Communication (ICEIEC). IEEE, 2019: 1-5.


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
消息中间件 分布式计算 大数据
大数据Spark Continuous Processing
大数据Spark Continuous Processing
75 0
|
4天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
15 0
|
3天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 1
|
3天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 1
|
3天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
16 0
|
3天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
12 0
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
|
3天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在DataWorks中,从Elasticsearch同步数据到ODPS时同步_id字段的如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
18 0

热门文章

最新文章