5G对未来数据科学发展趋势的影响

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文分析5G对于数据科学领域发展趋势的影响

1 大数据的特点

大数据的大并非只是代表数据的体量巨大,事实上在大数据这个概念的出现前,数据的体量就已经随着人类社会的发展而增加到了一定的程度。通常所认为“大”的定义为以下4个方面:
(1) 数据体量巨大
(2) 数据类型繁多
(3) 数据价值密度低
(4) 数据处理速度快
在云计算出现前,因为系统的处理能力有很大的局限性,因此对于体量巨大、类型繁多并且价值密度低的数据无法进行有效处理,大量的数据因无法处理而未被收集或是已经收集了但过了留存期限而被销毁。按照传统IT架构方式下的数据分析方式,从价值密度低而数量庞大的数据中去挖掘需要的信息所需要的成本大、效率低,因此往往按照经验来总结出一套理论来分析较小体量的数据并在此基础上对未来的同类型问题进行预测,统计学和概率论即在解决这个问题的过程中不断的完善。云计算技术应用后,计算力得到大规模提升,统一的数据仓库形成,同样的统计学算法和概率算法在输入数据爆发性增加后输出值的精确度无限接近于真实情况,大幅度减小了原来基于小规模数据得出的结果的误差。此外,因为云平台降低了计算的成本,所以对于存量数据和增量数据都能够进行反复迭代计算,机器学习由此诞生,其原理是通过对于现有的大量数据进行有监督学习(根据现有数据训练得出规律预测未来)和无监督学习(在海量数据中寻找规律),根据训练的结果总结出模型并预测未来的情况。

2 移动互联网数据特征

互联网时代到来之后,提升了人和人之间的沟通效率,目前通常将人人通过PC机沟通的时代定义为互联网的初级阶段,智能终端的崛起则将互联网推动到了移动互联时代,整个技术发展的趋势就是人类在不断向在线化靠拢。
PC机初步解决了人人在线的问题,虽然在实时程度上还不够但和传统书信、电报及电话相比已经大幅度的增加了人类沟通的便捷性,移动互联则是在此基础上进一步提高人与人之间的在线化程度,移动互联网和PC时代的互联网从沟通效率相比有两个显著的提升是:
(1)终端从固定向移动发展
(2)多人使用一台终端到各人使用一台终端
前者使人能够摆脱原先空间上的限制,保持时刻在线状态,这为电子商务、即时通信和移动支付业务等提供了技术基础,表象体现出来的便捷性提高的背后是整个社会的扁平化以及解决了许多领域信息不对称的问题。后者是各类个性化服务的基础,在PC机时代因为往往多人使用同一台终端并且有空间限制,因此在数据采集方面一是由于非完全实时的因素导致数据采集非连续性,另一个是对个体特征值的提取很不方便,无法精确的根据提取出的数据来判断个体的各项特征并用于未来行为的预测。移动互联网的发展解决了这两个问题,突破了空间的限制并且缩小了用户群体的颗粒度,同时,也在这个过程中带来了大量原先不需要、没能力进行处理和无法取得的数据,而真正改变整个社会消费习惯、生活习惯并创造出数字经济这种经济形态的正是这些海量的数据。因此在技术体系中,云计算、大数据和移动互联网的协同发展和运作是缺一不可的,云计算提供计算力的保障,移动互联网作为数据的源头提供已被现代社会视为重要资源的数据和数据的传输通道,大数据在前两者基础上分析和挖掘数据资源的价值。

3 物联网数据特征

如果说移动互联网提供的还是人与人之间的沟通媒介则近年来开始蓬勃发展的物联网则将人的在线化进一步扩展到物的在线化,根据通常的定义,物联网就是物物相联的互联网,这使数据的来源和预期的数量变成几乎无限,因为如果人还是有个总数的概念则物的总数根本没有办法去统计,因此在云计算未诞生前物联网虽然已经有文献提出过这个概念但是根本没有技术支撑和计算力保证。传统方式下将物与物相联和物与人的相联的方式称为自动控制,即并非传统模式下物与物之间或物与人之间就一点互动也没有,其特点是有明确的边界范围并且提供的数据量非常有限,各个子系统之间既没法互通也没有为以后的互通做好预留接口,更不可能将互通范围扩大到不同领域和不同行业。自动控制与物联网的区别就如同统计学与大数据的区别,其核心的方法没有太大的差异但是因为数据量的提升和对数据利用率要求的提高,造成原来的体系不再适用于如今几乎没有边界的范围。和移动互联网一样,物联网同样是技术协同体系中数据的源头和传输通道,需要云计算提供计算力支撑和大数据对于收集的数据进行分析挖掘。

4 产业互联网数据特征

从生产上各类设备的运行数据属于典型的低价值密度数据因为这些设备在大部分情况下工作是正常的,在原先缺乏计算力的情况下没有办法能够挖掘这些数据,判断设备的故障采用的是安装测量仪表的方式,明显的缺陷是测量仪表只有在故障发生时才能通知运行人员并进行保护动作,而大数据应用后,能够通过历史数据和同类型设备运行数据特别是故障情况下的特征进行挖掘和提取,通过预判来做到在设备可能会发生故障时就通知运行人员处理而不必等到故障真正发生,显而易见,这种预测的模式对于生产效率的提升非常显著。

5 5G对数据科学发展趋势的影响

结合以上几个领域的数据特征和5G的特点,可以判断一下5G对数据科学发展趋势的影响。5G的显著特点就是传输速度快并且时延低,从云管端三个层面来分析,5G处于网络层,传输速度的提高代表非结构化数据(视频、图像、语音等)的大规模接入会是未来的趋势,并且这个发展趋势会同时出现在移动互联网、物联网和产业互联网领域,跟随而来的是对于非结构化数据处理和计算的要求变高,云计算方面各领域对于GPU服务器的需求度将会显著上升。
从数据算法方面面向结构化数据的机器学习算法目前已经在不断向面向非结构化数据和异构数据计算的方向靠近,这个趋势从阿里云天池比赛的赛题设置可以明显的感受到。在5G出现以前,云端其实已经有能力针对大量的非结构化数据进行大规模计算,但是由于传输通道受限,海量单体文件较大的非结构化数据传输是个很大的问题,传输速度的限制导致了实时性也一并降低因此阻碍了很多应用场景的落地。5G使无线传输速度大幅度提升后解决了传输限制,以神经网络为代表的非结构化数据算法才能够大规模在实际中采用,特别是在无人驾驶、医疗、视频监控等数据量大并且实时性要求极高的场景,传输速度直接影响这些场景下数据的有效性(数据价值随时间下降)。网络层限制解决后,平台层方面流计算的应用程度将会提高以确保数据处理和计算迭代速度不会成为新的瓶颈。
产业互联网的典型特征是数据的传输都是双向的,将数据分为反馈信息和控制信息分析,反馈信息进入边缘端或者云端后,通过规则引擎(参见ALIOS IOT平台)计算得出需要发送给感知层的控制指令,对感知层控制设备进行操作。这使网络层的时延必须非常低并且传输非常稳定,由于工业生产过程中各类参数往往在实时波动,因此高延迟不但会造成平台层收到的反馈信息滞后于实际生产过程,更会由于控制信息的返回再次被网络层延迟而造成控制效果变差甚至毫无意义,严重者会干扰工业生产过程的安全运行。5G的低延时性(约为4G的10分之1左右,15ms)从实时性角度看直接关系到产业互联网整个业态的发展,当然在5G实际运用到实时性要求较高的生产场景时,是否真的在可靠性上能够做到和有线传输同等水平比如面对生产环境干扰较多的情况能否不受影响还需要根据其实际落地后并试验后才能验证。

相关实践学习
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
安全 应用服务中间件 网络安全
开源对象存储Minio部署篇
MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。(摘自minio中文站点https://docs.min.io/cn/ 里面有很详细的介绍)。minio部署简单易用,分布式方式部署可以水平扩容且数据分散存储在所有节点上,只要在线节点N/2数据就非常安全,这类似raid6,不同的是卷级别和对象级别,使用方式有网页端、linux端工具mc、多语言SDK。
1557 0
开源对象存储Minio部署篇
|
存储 Java Maven
maven在尝试访问nexus存储库时得到“未授权” Not authorized , ReasonPhrase:Unauthorized
maven在尝试访问nexus存储库时得到“未授权” Not authorized , ReasonPhrase:Unauthorized
976 0
|
4月前
|
SQL 机器学习/深度学习 算法
【数分基本功】 两种不同的用户活跃度,留存率居然完全一致!
两种不同的用户活跃度,留存率居然完全一致。这究竟是为什么?欢迎阅读【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题,必要时增加拓展和深入
143 21
【数分基本功】 两种不同的用户活跃度,留存率居然完全一致!
|
8月前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
304 68
|
11月前
|
SQL 存储 OLAP
大数据-133 - ClickHouse 基础概述 全面了解
大数据-133 - ClickHouse 基础概述 全面了解
274 0
|
人工智能 安全 物联网
未来已来:探索新兴技术的发展趋势与应用场景
在数字化浪潮中,新兴技术如区块链、物联网(IoT)、虚拟现实(VR)等正不断重塑我们的世界。本文将深入探讨这些技术的最新发展趋势和实际应用案例,揭示它们如何影响经济、社会和文化,并提出对未来的展望。通过分析具体数据和前沿研究,我们将展示这些技术如何在医疗、教育、金融等领域创造革命性变化,并讨论它们面临的挑战与机遇。
290 27
|
机器学习/深度学习 人工智能 自然语言处理
揭秘未来:量子计算与人工智能的融合之路
本文旨在探讨量子计算和人工智能(AI)的结合前景及其对科技领域的潜在影响。通过分析当前技术发展态势,揭示两者融合所带来的创新机遇与挑战,并预测其对未来社会变革的可能贡献。文章将深入剖析量子计算在解决复杂问题方面的优势,以及AI在模式识别和数据分析方面的专长,进而展望两者结合在未来技术革新中的关键作用。
|
关系型数据库 MySQL 分布式数据库
PolarDB操作报错合集之当使用DTS(数据传输服务)同步的表在目标库中进行LEFT JOIN查询时遇到异常,是什么导致的
在使用阿里云的PolarDB(包括PolarDB-X)时,用户可能会遇到各种操作报错。下面汇总了一些常见的报错情况及其可能的原因和解决办法:1.安装PolarDB-X报错、2.PolarDB安装后无法连接、3.PolarDB-X 使用rpm安装启动卡顿、4.PolarDB执行UPDATE/INSERT报错、5.DDL操作提示“Lock conflict”、6.数据集成时联通PolarDB报错、7.编译DN报错(RockyLinux)、8.CheckStorage报错(源数据库实例被删除)、9.嵌套事务错误(TDDL-4604)。
182 0
|
SQL 安全 算法
BugKu CTF(Crypto):[+-<>] & 把猪困在猪圈里 & 你喜欢下棋吗 & 小山丘的秘密
BugKu CTF(Crypto):[+-<>] & 把猪困在猪圈里 & 你喜欢下棋吗 & 小山丘的秘密
|
存储 NoSQL 数据处理
Redis Lua脚本:赋予Redis更强大的逻辑与功能
Redis Lua脚本:赋予Redis更强大的逻辑与功能
270 0