原创申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址
全文共计4895字,阅读大概需要3分钟
欢迎关注我的个人公众号:不懂开发的程序猿
0、引言
⼤数据与实时⼤数据的区别与挑战: 实时⼤数据除了具备⼤数据的所有特点外,还有⾃⼰的特点。与⼤数据相⽐,在数据集成⽅⾯,实时⼤数据在数据采集设备、数据分析⼯具、数据安全等⽅⾯有着更⾼的要求。
下⾯从数据收集、数据分析、数据安全、数据管理和对标等⽅⾯进行分析。
1 数据收集
1.1、⼴泛的异构性
在处理处理异构时,⼤数据系统可以使⽤ NoSQL 技术和其他新的 存储⽅式,例如 Hadoop HDFS。但这种存储技术对实时性要求不⾼, 数据往往存储⼀次,读取多次。然⽽这种存储技术远远不能满⾜需要数据的实时⼤数据系统的需求。
1.2、数据质量保障
⼤数 据的数据质量有两个问题:如何管理海量数据,如何清洗。在清洗过程中,如果清洗粒度太⼩,很容易过滤掉有⽤的信息;如果清洗粒度太粗,就达不到真正的清洗效果。所以在数量和质量之间需要仔细 考虑和权衡,这在实时⼤数据系统中更为明显。⼀⽅⾯,它要求系统在很短的时间内同步数据;另⼀⽅⾯,也要求系统实时对数据做出 快速响应。对数据传输速度和数据分析的性能要求越来越⾼。
因此,如何把握数据之间的相关性,准确判断数据的有⽤性和有效性,就成为⼀个严峻的挑战。
2、 数据分析
2.1、数据处理的时效性
在实时数据系统中,对时间的要求更⾼。随着时间的推移,数据中包含的知识价值也 在衰减。。实时⼤数据时代 对数据处理的时间线提出了新的更⾼的要求,主要体现在数据处 理模式的选择和改进上。实时数据处理模式主要包括三种模式:流模式、批处理模式和⼆合⼀混合处理模式。
2.2、动态环境下的索引设计
⽬前的解决⽅案基本上是通过NoSQL数据库建⽴索引来解决这个问题,但是已经⽆法满⾜⼤数据实时处理的需求
3 数据安全
3.1、暴露隐藏数据
在实时⼤数据处理中,如何保证数据处理的速度和数据的安全性?
3.2、数据泄露与隐私保护相冲突
如何保证数据隐私与数据公开之间的平衡,是⽬前研究和应⽤中的⼀个难点和热点问题。
MapReduce 提供了⼀种⾼级编程模型,通过简单的编程接⼝⽀持并行处理可划分的⼤规模数据,并为程序员提供了阻塞任务调度、数据存储和传输等细节,编程粒度更⾼。
4、实时⼤数据处理real-time big data processing (RTDP)框架
本⽂根据实时⼤数据处理系统对计算能力和时效性的要求,从功能层⾯将RTDP(Real-Time Data Processing)框架划分为Data、 Analytics、Integration和Decision四个层次。
4.1、Data
该层主要负责数据的收集和存储,也包括数据清洗和⼀些简单的数 据分析,为Analytics准备数据。在数据采集终端,需要对所有终端进行管理。
⼤数据分析⾸先需要解决的问题是⾼速数据流管理的数据采集侧数据预处理和数据流控制。论文【Adaptive data stream management system using learning automata】提出了⼀种⾃适应海量实时 数据流管理系统根据数据流向和数据分发节点预处理任务,如图6所⽰
论文【Real-Time Processing for High Speed Data Stream over Large Scale Data】提出了⼀种⼤规模的⾼速数据流实时数据处理⽅法 RTMR(实时 MapReduce)。但是,这种⽅法仍然存在⼀些挑战:如何有效利⽤CPU的处理能力;如何⽀持本地存储⾼并发访问的中间结果。为了解决上述问题,本⽂在【Adaptive data stream management system using learning automata】提出⾃适应海量实时数据流基于逻辑组合的管理系统基于底层的管理适配器(LMA)动态管理的传感器数据处理模式和控制,包括适配器逻辑规则引擎,验证器和执行器三部分,
Hadoop⾸先需要解决框架内的实时问题建议 RTDP 使⽤多级存储架构解决问题,其架构如图8所⽰
4.2、Analytics
这⼀层是RTDP系统的核⼼,是决定RTDP系统性能的关键层。该层 主要负责数据结构建模、数据清洗等数据分析处理,为算法集成层准备数据。
为保证RTDP系统的灵活性和即时性,本⽂将RTDP帧中的任务按照时间要求优先控制,时延要求最低的任务优先级最⾼,并且可以在实时过程中调整优先级。因此系统分为三个模块:数据存储系统、分析计算系统和订货系统。数据存储系统主要采⽤多级存储系统各种存储⽅式,解析计算系统包括多个RTDP算法包,排序系统任务排序部分。 系统结构如图10所⽰。
MapReduce 集群中,数据以⽂件的形式存储在各个节点上,⽽在实时 ⼤数据系统中,数据来⾃不同的异构终端,并且是实时传输的。另⼀⽅⾯, 由于数据源终端异质性导致的实时数据中的数据匹配问题⾮常严重,在 MapReduce中键值对相对稳定。为了解决这些问题,An open, flexible and multilevel data storing and processing platform for very large scale sensor network提出了⼀种适⽤于实时⼤数据的改进 MapReduce 模型,如图 11 所⽰
4.3、Integration
该层在 RTDP 系统中起着连接作⽤。在这⼀层,它结合了许多常⽤的数 据处理算法包。根据场景调⽤合适的算法进行数据分析和数据展⽰,为分析 层提供技术⽀持,同时为决策层提供决策⽀持和理论依据。同时该层还需要 根据设置的规则识别数据采集层中的设备并部署应⽤程序。
现在⼴泛应⽤于各种⽹络的QoS技术,并不⾜以保证RTDP的实时性、⾼可靠性要求。 RTDP⽹络QoS问题的难点来⾃于RTDP具有 的固有特点:RTDP⽹络是⼀个复杂的、异构的融合⽹络; RTDP 在针 对海量数据处理和 RTDP ⼴泛存在的⼤量动态系统中,存在不确定性 的 RTDP ⽹络 QoS 问题有待认真系统地研究,为实现 RTDP 融合异 构⽹络 QoS,
还需要解决以下问题:
(1)如何获得满⾜应⽤程序的QoS请求的QoS路由计算所需的信息。
(2)如何构建满⾜QoS请求的路径。
(3)如何保持路径设置最短,需要⼀个统⼀ 的框架来满⾜复杂⽹络环境、各类RTDP应⽤的QoS要求。
4.4、Decision
根据数据分析结果进行决策,是数据处理系统的最⾼层,也是数据分析过程的最终⽬标。
决策⽀持是数据分析的最终⽬标,决策⽀持部分需要使⽤⼤量的可视化⼯ 具对数据分析结果进行不同维度的展⽰。数据呈现形式包括商业智能系统、 桌⾯办公系统和移动终端系统等。使⽤的⼯具包括数据仓库系统和图形处理 ⼯具。
5未来的研究方向
提出了未来RTDP系统的基本框架和基本处理模式,但仍有许多问题需要进⼀步研究。要点如下:
如何确定RTDP系统中合适的计算模式,如何确定数据处理模式和途径是决定系统性能的关键因素
如何保证数据处理的正确性。错误检测机制和⾃动修复⻓期以来⼀直是研究的难点,如何处理数据检测和错误诊断以及系统修复是⼀个巨⼤的⼯程。
【参考文献】
[1] Fernandes G, Rodrigues J J P C, Carvalho L F, et al. A comprehensive survey on network anomaly detection[J]. Telecommunication Systems, 2019, 70(3): 447-489.
[2] Mohamed N, Al-Jaroodi J. Real-time big data analytics: Applications and challenges[C]//2014 international conference on high performance computing & simulation (HPCS). IEEE, 2014: 305-310.
[3] Bifet A. Mining big data in real time[J]. informatica, 2013, 37(1).
[4] Zheng Z, Wang P, Liu J, et al. Real-time big data processing framework: challenges and solutions[J]. Applied Mathematics & Information Sciences, 2015, 9(6): 3169.
[5] Yadranjiaghdam B, Pool N, Tabrizi N. A survey on real-time big data analytics: applications and tools[C]//2016 international conference on computational science and computational intelligence (CSCI). IEEE, 2016: 404-409.
[6] Yang W, Liu X, Zhang L, et al. Big data real-time processing based on storm[C]//2013 12th IEEE international conference on trust, security and privacy in computing and communications. IEEE, 2013: 1784-1787.
[7] Liu X, Iftikhar N, Xie X. Survey of real-time processing systems for big data[C]//Proceedings of the 18th International Database Engineering & Applications Symposium. 2014: 356-361.
[8] Gurusamy V, Kannan S, Nandhini K. The real time big data processing framework: Advantages and limitations[J]. International Journal of Computer Sciences and Engineering, 2017, 5(12): 305-312.
[9] Sanla A, Numnonda T. A comparative performance of real-time big data analytic architectures[C]//2019 IEEE 9th International Conference on Electronics Information and Emergency Communication (ICEIEC). IEEE, 2019: 1-5.