实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案

原创申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计4895字,阅读大概需要3分钟

欢迎关注我的个人公众号:不懂开发的程序猿

0、引言

⼤数据与实时⼤数据的区别与挑战: 实时⼤数据除了具备⼤数据的所有特点外,还有⾃⼰的特点。与⼤数据相⽐,在数据集成⽅⾯,实时⼤数据在数据采集设备、数据分析⼯具、数据安全等⽅⾯有着更⾼的要求。

下⾯从数据收集、数据分析、数据安全、数据管理和对标等⽅⾯进行分析。


1 数据收集

1.1、⼴泛的异构性

在处理处理异构时,⼤数据系统可以使⽤ NoSQL 技术和其他新的 存储⽅式,例如 Hadoop HDFS。但这种存储技术对实时性要求不⾼, 数据往往存储⼀次,读取多次。然⽽这种存储技术远远不能满⾜需要数据的实时⼤数据系统的需求。


1.2、数据质量保障

⼤数 据的数据质量有两个问题:如何管理海量数据,如何清洗。在清洗过程中,如果清洗粒度太⼩,很容易过滤掉有⽤的信息;如果清洗粒度太粗,就达不到真正的清洗效果。所以在数量和质量之间需要仔细 考虑和权衡,这在实时⼤数据系统中更为明显。⼀⽅⾯,它要求系统在很短的时间内同步数据;另⼀⽅⾯,也要求系统实时对数据做出 快速响应。对数据传输速度和数据分析的性能要求越来越⾼。

因此,如何把握数据之间的相关性,准确判断数据的有⽤性和有效性,就成为⼀个严峻的挑战。


2、 数据分析

2.1、数据处理的时效性

在实时数据系统中,对时间的要求更⾼。随着时间的推移,数据中包含的知识价值也 在衰减。。实时⼤数据时代 对数据处理的时间线提出了新的更⾼的要求,主要体现在数据处 理模式的选择和改进上。实时数据处理模式主要包括三种模式:流模式、批处理模式和⼆合⼀混合处理模式。


2.2、动态环境下的索引设计

⽬前的解决⽅案基本上是通过NoSQL数据库建⽴索引来解决这个问题,但是已经⽆法满⾜⼤数据实时处理的需求


3 数据安全

3.1、暴露隐藏数据

在实时⼤数据处理中,如何保证数据处理的速度和数据的安全性?


3.2、数据泄露与隐私保护相冲突

如何保证数据隐私与数据公开之间的平衡,是⽬前研究和应⽤中的⼀个难点和热点问题。

MapReduce 提供了⼀种⾼级编程模型,通过简单的编程接⼝⽀持并行处理可划分的⼤规模数据,并为程序员提供了阻塞任务调度、数据存储和传输等细节,编程粒度更⾼。


90e3ebf882314aa8868888b6bdcbb1b0.png


4、实时⼤数据处理real-time big data processing (RTDP)框架

本⽂根据实时⼤数据处理系统对计算能力和时效性的要求,从功能层⾯将RTDP(Real-Time Data Processing)框架划分为Data、 Analytics、Integration和Decision四个层次。

62db71d219fd4f9ab6397b03c3b95fb1.png


4.1、Data

该层主要负责数据的收集和存储,也包括数据清洗和⼀些简单的数 据分析,为Analytics准备数据。在数据采集终端,需要对所有终端进行管理。

⼤数据分析⾸先需要解决的问题是⾼速数据流管理的数据采集侧数据预处理和数据流控制。论文【Adaptive data stream management system using learning automata】提出了⼀种⾃适应海量实时 数据流管理系统根据数据流向和数据分发节点预处理任务,如图6所⽰

da8ba1751afd464282401eeb31b083ac.png


论文【Real-Time Processing for High Speed Data Stream over Large Scale Data】提出了⼀种⼤规模的⾼速数据流实时数据处理⽅法 RTMR(实时 MapReduce)。但是,这种⽅法仍然存在⼀些挑战:如何有效利⽤CPU的处理能力;如何⽀持本地存储⾼并发访问的中间结果。为了解决上述问题,本⽂在【Adaptive data stream management system using learning automata】提出⾃适应海量实时数据流基于逻辑组合的管理系统基于底层的管理适配器(LMA)动态管理的传感器数据处理模式和控制,包括适配器逻辑规则引擎,验证器和执行器三部分,

8109713965594fee8f834e0ee9b0201a.png


Hadoop⾸先需要解决框架内的实时问题建议 RTDP 使⽤多级存储架构解决问题,其架构如图8所⽰


d0a04fc68ca543ff8d1d0168b9eaea23.png

4.2、Analytics

这⼀层是RTDP系统的核⼼,是决定RTDP系统性能的关键层。该层 主要负责数据结构建模、数据清洗等数据分析处理,为算法集成层准备数据。

为保证RTDP系统的灵活性和即时性,本⽂将RTDP帧中的任务按照时间要求优先控制,时延要求最低的任务优先级最⾼,并且可以在实时过程中调整优先级。因此系统分为三个模块:数据存储系统、分析计算系统和订货系统。数据存储系统主要采⽤多级存储系统各种存储⽅式,解析计算系统包括多个RTDP算法包,排序系统任务排序部分。 系统结构如图10所⽰。

79c46d6228514d818b2c58d4d98414ce.png

MapReduce 集群中,数据以⽂件的形式存储在各个节点上,⽽在实时 ⼤数据系统中,数据来⾃不同的异构终端,并且是实时传输的。另⼀⽅⾯, 由于数据源终端异质性导致的实时数据中的数据匹配问题⾮常严重,在 MapReduce中键值对相对稳定。为了解决这些问题,An open, flexible and multilevel data storing and processing platform for very large scale sensor network提出了⼀种适⽤于实时⼤数据的改进 MapReduce 模型,如图 11 所⽰

1c08eaff17f442c9bf1e0c44b2771066.png


4.3、Integration

该层在 RTDP 系统中起着连接作⽤。在这⼀层,它结合了许多常⽤的数 据处理算法包。根据场景调⽤合适的算法进行数据分析和数据展⽰,为分析 层提供技术⽀持,同时为决策层提供决策⽀持和理论依据。同时该层还需要 根据设置的规则识别数据采集层中的设备并部署应⽤程序。

现在⼴泛应⽤于各种⽹络的QoS技术,并不⾜以保证RTDP的实时性、⾼可靠性要求。 RTDP⽹络QoS问题的难点来⾃于RTDP具有 的固有特点:RTDP⽹络是⼀个复杂的、异构的融合⽹络; RTDP 在针 对海量数据处理和 RTDP ⼴泛存在的⼤量动态系统中,存在不确定性 的 RTDP ⽹络 QoS 问题有待认真系统地研究,为实现 RTDP 融合异 构⽹络 QoS,

还需要解决以下问题:

(1)如何获得满⾜应⽤程序的QoS请求的QoS路由计算所需的信息。

(2)如何构建满⾜QoS请求的路径。

(3)如何保持路径设置最短,需要⼀个统⼀ 的框架来满⾜复杂⽹络环境、各类RTDP应⽤的QoS要求。


4.4、Decision

根据数据分析结果进行决策,是数据处理系统的最⾼层,也是数据分析过程的最终⽬标。

决策⽀持是数据分析的最终⽬标,决策⽀持部分需要使⽤⼤量的可视化⼯ 具对数据分析结果进行不同维度的展⽰。数据呈现形式包括商业智能系统、 桌⾯办公系统和移动终端系统等。使⽤的⼯具包括数据仓库系统和图形处理 ⼯具。


5未来的研究方向

提出了未来RTDP系统的基本框架和基本处理模式,但仍有许多问题需要进⼀步研究。要点如下:


如何确定RTDP系统中合适的计算模式,如何确定数据处理模式和途径是决定系统性能的关键因素

如何保证数据处理的正确性。错误检测机制和⾃动修复⻓期以来⼀直是研究的难点,如何处理数据检测和错误诊断以及系统修复是⼀个巨⼤的⼯程。

【参考文献】

[1] Fernandes G, Rodrigues J J P C, Carvalho L F, et al. A comprehensive survey on network anomaly detection[J]. Telecommunication Systems, 2019, 70(3): 447-489.


[2] Mohamed N, Al-Jaroodi J. Real-time big data analytics: Applications and challenges[C]//2014 international conference on high performance computing & simulation (HPCS). IEEE, 2014: 305-310.

[3] Bifet A. Mining big data in real time[J]. informatica, 2013, 37(1).


[4] Zheng Z, Wang P, Liu J, et al. Real-time big data processing framework: challenges and solutions[J]. Applied Mathematics & Information Sciences, 2015, 9(6): 3169.


[5] Yadranjiaghdam B, Pool N, Tabrizi N. A survey on real-time big data analytics: applications and tools[C]//2016 international conference on computational science and computational intelligence (CSCI). IEEE, 2016: 404-409.


[6] Yang W, Liu X, Zhang L, et al. Big data real-time processing based on storm[C]//2013 12th IEEE international conference on trust, security and privacy in computing and communications. IEEE, 2013: 1784-1787.


[7] Liu X, Iftikhar N, Xie X. Survey of real-time processing systems for big data[C]//Proceedings of the 18th International Database Engineering & Applications Symposium. 2014: 356-361.


[8] Gurusamy V, Kannan S, Nandhini K. The real time big data processing framework: Advantages and limitations[J]. International Journal of Computer Sciences and Engineering, 2017, 5(12): 305-312.


[9] Sanla A, Numnonda T. A comparative performance of real-time big data analytic architectures[C]//2019 IEEE 9th International Conference on Electronics Information and Emergency Communication (ICEIEC). IEEE, 2019: 1-5.


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
消息中间件 大数据 关系型数据库
大数据框架NiFi
NiFi 是一个易于使用,功能强大,可靠的处理和分发数据框架。主要用于数据的同步传输,支持灵活的数据格式转换,同时可以设置定时调度任务,他是一个数据同步框架,类似于 kettle。
240 0
|
1月前
|
存储 分布式计算 API
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
大数据-107 Flink 基本概述 适用场景 框架特点 核心组成 生态发展 处理模型 组件架构
84 0
|
5月前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
407 3
经典大数据处理框架与通用架构对比
|
5月前
|
分布式计算 大数据 数据处理
浅谈几个经典大数据处理框架
【6月更文挑战第15天】本文介绍企业如何在数据洪流中保持竞争力需借助可扩展平台和数据策略。数据管道整合多元数据源,便于分析和流转。Kappa架构专注于实时处理(如通过Kafka、Spark Streaming),适合实时响应场景;Lambda架构结合批处理与实时处理(如Spark、Hadoop与Flink),平衡实时性和批处理,易于开发和维护。Apache Beam提供统一模型,适用于流处理和批处理,提升代码复用和效率。这两种架构满足现代应用对数据一致、性能和灵活性的需求。
422 3
浅谈几个经典大数据处理框架
|
1月前
|
弹性计算 缓存 搜索推荐
大数据个性化推荐,AWS终端用户解决方案
大数据个性化推荐,AWS终端用户解决方案
|
2月前
|
数据采集 分布式计算 MaxCompute
MaxCompute 分布式计算框架 MaxFrame 服务正式商业化公告
MaxCompute 分布式计算框架 MaxFrame 服务于北京时间2024年09月27日正式商业化!
93 3
|
1月前
|
分布式计算 监控 大数据
大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理
大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理
53 0
|
3月前
|
SQL 存储 分布式计算
"SQLTask携手Tunnel:打造高效海量数据导出解决方案,轻松应对大数据挑战
【8月更文挑战第22天】SQLTask搭配Tunnel实现高效海量数据导出。SQLTask擅长执行复杂查询,但直接导出受限(约1万条)。Tunnel专注数据传输,无大小限制。二者结合,先用SQLTask获取数据,再通过Tunnel高效导出至目标位置(如CSV、OSS等),适用于大数据场景,需配置节点及连接,示例代码展示全过程,满足企业级数据处理需求。
78 2
|
4月前
|
分布式计算 安全 大数据
HAS插件式Kerberos认证框架:构建安全可靠的大数据生态系统
在教育和科研领域,研究人员需要共享大量数据以促进合作。HAS框架可以提供一个安全的数据共享平台,确保数据的安全性和合规性。
|
4月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中