5G对未来数据科学发展趋势的影响

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文分析5G对于数据科学领域发展趋势的影响

1 大数据的特点

大数据的大并非只是代表数据的体量巨大,事实上在大数据这个概念的出现前,数据的体量就已经随着人类社会的发展而增加到了一定的程度。通常所认为“大”的定义为以下4个方面:
(1) 数据体量巨大
(2) 数据类型繁多
(3) 数据价值密度低
(4) 数据处理速度快
在云计算出现前,因为系统的处理能力有很大的局限性,因此对于体量巨大、类型繁多并且价值密度低的数据无法进行有效处理,大量的数据因无法处理而未被收集或是已经收集了但过了留存期限而被销毁。按照传统IT架构方式下的数据分析方式,从价值密度低而数量庞大的数据中去挖掘需要的信息所需要的成本大、效率低,因此往往按照经验来总结出一套理论来分析较小体量的数据并在此基础上对未来的同类型问题进行预测,统计学和概率论即在解决这个问题的过程中不断的完善。云计算技术应用后,计算力得到大规模提升,统一的数据仓库形成,同样的统计学算法和概率算法在输入数据爆发性增加后输出值的精确度无限接近于真实情况,大幅度减小了原来基于小规模数据得出的结果的误差。此外,因为云平台降低了计算的成本,所以对于存量数据和增量数据都能够进行反复迭代计算,机器学习由此诞生,其原理是通过对于现有的大量数据进行有监督学习(根据现有数据训练得出规律预测未来)和无监督学习(在海量数据中寻找规律),根据训练的结果总结出模型并预测未来的情况。

2 移动互联网数据特征

互联网时代到来之后,提升了人和人之间的沟通效率,目前通常将人人通过PC机沟通的时代定义为互联网的初级阶段,智能终端的崛起则将互联网推动到了移动互联时代,整个技术发展的趋势就是人类在不断向在线化靠拢。
PC机初步解决了人人在线的问题,虽然在实时程度上还不够但和传统书信、电报及电话相比已经大幅度的增加了人类沟通的便捷性,移动互联则是在此基础上进一步提高人与人之间的在线化程度,移动互联网和PC时代的互联网从沟通效率相比有两个显著的提升是:
(1)终端从固定向移动发展
(2)多人使用一台终端到各人使用一台终端
前者使人能够摆脱原先空间上的限制,保持时刻在线状态,这为电子商务、即时通信和移动支付业务等提供了技术基础,表象体现出来的便捷性提高的背后是整个社会的扁平化以及解决了许多领域信息不对称的问题。后者是各类个性化服务的基础,在PC机时代因为往往多人使用同一台终端并且有空间限制,因此在数据采集方面一是由于非完全实时的因素导致数据采集非连续性,另一个是对个体特征值的提取很不方便,无法精确的根据提取出的数据来判断个体的各项特征并用于未来行为的预测。移动互联网的发展解决了这两个问题,突破了空间的限制并且缩小了用户群体的颗粒度,同时,也在这个过程中带来了大量原先不需要、没能力进行处理和无法取得的数据,而真正改变整个社会消费习惯、生活习惯并创造出数字经济这种经济形态的正是这些海量的数据。因此在技术体系中,云计算、大数据和移动互联网的协同发展和运作是缺一不可的,云计算提供计算力的保障,移动互联网作为数据的源头提供已被现代社会视为重要资源的数据和数据的传输通道,大数据在前两者基础上分析和挖掘数据资源的价值。

3 物联网数据特征

如果说移动互联网提供的还是人与人之间的沟通媒介则近年来开始蓬勃发展的物联网则将人的在线化进一步扩展到物的在线化,根据通常的定义,物联网就是物物相联的互联网,这使数据的来源和预期的数量变成几乎无限,因为如果人还是有个总数的概念则物的总数根本没有办法去统计,因此在云计算未诞生前物联网虽然已经有文献提出过这个概念但是根本没有技术支撑和计算力保证。传统方式下将物与物相联和物与人的相联的方式称为自动控制,即并非传统模式下物与物之间或物与人之间就一点互动也没有,其特点是有明确的边界范围并且提供的数据量非常有限,各个子系统之间既没法互通也没有为以后的互通做好预留接口,更不可能将互通范围扩大到不同领域和不同行业。自动控制与物联网的区别就如同统计学与大数据的区别,其核心的方法没有太大的差异但是因为数据量的提升和对数据利用率要求的提高,造成原来的体系不再适用于如今几乎没有边界的范围。和移动互联网一样,物联网同样是技术协同体系中数据的源头和传输通道,需要云计算提供计算力支撑和大数据对于收集的数据进行分析挖掘。

4 产业互联网数据特征

从生产上各类设备的运行数据属于典型的低价值密度数据因为这些设备在大部分情况下工作是正常的,在原先缺乏计算力的情况下没有办法能够挖掘这些数据,判断设备的故障采用的是安装测量仪表的方式,明显的缺陷是测量仪表只有在故障发生时才能通知运行人员并进行保护动作,而大数据应用后,能够通过历史数据和同类型设备运行数据特别是故障情况下的特征进行挖掘和提取,通过预判来做到在设备可能会发生故障时就通知运行人员处理而不必等到故障真正发生,显而易见,这种预测的模式对于生产效率的提升非常显著。

5 5G对数据科学发展趋势的影响

结合以上几个领域的数据特征和5G的特点,可以判断一下5G对数据科学发展趋势的影响。5G的显著特点就是传输速度快并且时延低,从云管端三个层面来分析,5G处于网络层,传输速度的提高代表非结构化数据(视频、图像、语音等)的大规模接入会是未来的趋势,并且这个发展趋势会同时出现在移动互联网、物联网和产业互联网领域,跟随而来的是对于非结构化数据处理和计算的要求变高,云计算方面各领域对于GPU服务器的需求度将会显著上升。
从数据算法方面面向结构化数据的机器学习算法目前已经在不断向面向非结构化数据和异构数据计算的方向靠近,这个趋势从阿里云天池比赛的赛题设置可以明显的感受到。在5G出现以前,云端其实已经有能力针对大量的非结构化数据进行大规模计算,但是由于传输通道受限,海量单体文件较大的非结构化数据传输是个很大的问题,传输速度的限制导致了实时性也一并降低因此阻碍了很多应用场景的落地。5G使无线传输速度大幅度提升后解决了传输限制,以神经网络为代表的非结构化数据算法才能够大规模在实际中采用,特别是在无人驾驶、医疗、视频监控等数据量大并且实时性要求极高的场景,传输速度直接影响这些场景下数据的有效性(数据价值随时间下降)。网络层限制解决后,平台层方面流计算的应用程度将会提高以确保数据处理和计算迭代速度不会成为新的瓶颈。
产业互联网的典型特征是数据的传输都是双向的,将数据分为反馈信息和控制信息分析,反馈信息进入边缘端或者云端后,通过规则引擎(参见ALIOS IOT平台)计算得出需要发送给感知层的控制指令,对感知层控制设备进行操作。这使网络层的时延必须非常低并且传输非常稳定,由于工业生产过程中各类参数往往在实时波动,因此高延迟不但会造成平台层收到的反馈信息滞后于实际生产过程,更会由于控制信息的返回再次被网络层延迟而造成控制效果变差甚至毫无意义,严重者会干扰工业生产过程的安全运行。5G的低延时性(约为4G的10分之1左右,15ms)从实时性角度看直接关系到产业互联网整个业态的发展,当然在5G实际运用到实时性要求较高的生产场景时,是否真的在可靠性上能够做到和有线传输同等水平比如面对生产环境干扰较多的情况能否不受影响还需要根据其实际落地后并试验后才能验证。

相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
2月前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
72 3
|
5月前
|
机器学习/深度学习 数据采集 供应链
探索数据科学在现实世界中的应用与挑战
本文深入探讨数据科学的实际应用,揭示其在商业、医疗和社会科学等领域的显著影响。文章首先概述了数据科学的基本概念及其重要性,然后通过具体案例分析展示了数据科学如何推动创新和决策过程。接着,讨论了在实施数据科学项目时遇到的技术、伦理和管理挑战,最后提出了未来数据科学的发展方向和潜在机遇。
|
5月前
|
机器学习/深度学习 算法
探索数据科学中的模型优化之道
在这篇文章中,我们将深入探讨数据科学中的一个核心议题——模型优化。通过分析不同模型优化技术的应用与效果,本文旨在为读者提供一套系统的方法论,以改善和提升机器学习模型的性能。文章首先概述了模型优化的重要性和基本原则,随后详细介绍了几种主流的模型优化方法,包括超参数调优、集成学习以及正则化技术等。每种方法都配以实例和数据支持,确保理论与实践相结合。最后,文章讨论了模型优化过程中可能遇到的挑战及应对策略,旨在帮助读者构建更加精确和高效的数据模型。
69 0
|
6月前
|
机器学习/深度学习 人工智能 边缘计算
【机器学习:IT行业的现在与未来】技术应用与趋势探索
【机器学习:IT行业的现在与未来】技术应用与趋势探索
86 1
|
5月前
|
机器学习/深度学习 分布式计算 算法
探索数据科学中的模型优化技术
本文旨在深入探讨数据科学领域中的模型优化技术,通过分析模型优化的重要性、常用方法及其在实际应用中的效果,揭示模型优化对于提升数据分析准确性和效率的关键作用。文章首先定义模型优化的概念并阐述其必要性,随后详细介绍了交叉验证、网格搜索等技术手段,并通过案例分析展示这些技术在实际项目中的应用成效。最后,文章讨论了模型优化面临的挑战及未来发展趋势,为数据科学家提供了宝贵的参考信息和实践指导。
|
机器学习/深度学习 人工智能 算法
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
216 0
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 存储 SQL
2020年数据科学领域4个最热门的趋势
2020年数据科学领域4个最热门的趋势
2020年数据科学领域4个最热门的趋势
|
机器学习/深度学习 人工智能 供应链
从机器学习中受益最大的四个行业
在这个方向上,欧盟正迈着坚定的步伐向前迈进。2020年2月,欧盟委员会发布了《人工智能白皮书》。正如欧盟主席所说,所有欧盟国家的联合战略旨在未来十年每年吸引超过200亿欧元投资人工智能。这一数字预计将通过私营部门的贡献和国家的共同融资来实现。
从机器学习中受益最大的四个行业