1 大数据的特点
大数据的大并非只是代表数据的体量巨大,事实上在大数据这个概念的出现前,数据的体量就已经随着人类社会的发展而增加到了一定的程度。通常所认为“大”的定义为以下4个方面:
(1) 数据体量巨大
(2) 数据类型繁多
(3) 数据价值密度低
(4) 数据处理速度快
在云计算出现前,因为系统的处理能力有很大的局限性,因此对于体量巨大、类型繁多并且价值密度低的数据无法进行有效处理,大量的数据因无法处理而未被收集或是已经收集了但过了留存期限而被销毁。按照传统IT架构方式下的数据分析方式,从价值密度低而数量庞大的数据中去挖掘需要的信息所需要的成本大、效率低,因此往往按照经验来总结出一套理论来分析较小体量的数据并在此基础上对未来的同类型问题进行预测,统计学和概率论即在解决这个问题的过程中不断的完善。云计算技术应用后,计算力得到大规模提升,统一的数据仓库形成,同样的统计学算法和概率算法在输入数据爆发性增加后输出值的精确度无限接近于真实情况,大幅度减小了原来基于小规模数据得出的结果的误差。此外,因为云平台降低了计算的成本,所以对于存量数据和增量数据都能够进行反复迭代计算,机器学习由此诞生,其原理是通过对于现有的大量数据进行有监督学习(根据现有数据训练得出规律预测未来)和无监督学习(在海量数据中寻找规律),根据训练的结果总结出模型并预测未来的情况。
2 移动互联网数据特征
互联网时代到来之后,提升了人和人之间的沟通效率,目前通常将人人通过PC机沟通的时代定义为互联网的初级阶段,智能终端的崛起则将互联网推动到了移动互联时代,整个技术发展的趋势就是人类在不断向在线化靠拢。
PC机初步解决了人人在线的问题,虽然在实时程度上还不够但和传统书信、电报及电话相比已经大幅度的增加了人类沟通的便捷性,移动互联则是在此基础上进一步提高人与人之间的在线化程度,移动互联网和PC时代的互联网从沟通效率相比有两个显著的提升是:
(1)终端从固定向移动发展
(2)多人使用一台终端到各人使用一台终端
前者使人能够摆脱原先空间上的限制,保持时刻在线状态,这为电子商务、即时通信和移动支付业务等提供了技术基础,表象体现出来的便捷性提高的背后是整个社会的扁平化以及解决了许多领域信息不对称的问题。后者是各类个性化服务的基础,在PC机时代因为往往多人使用同一台终端并且有空间限制,因此在数据采集方面一是由于非完全实时的因素导致数据采集非连续性,另一个是对个体特征值的提取很不方便,无法精确的根据提取出的数据来判断个体的各项特征并用于未来行为的预测。移动互联网的发展解决了这两个问题,突破了空间的限制并且缩小了用户群体的颗粒度,同时,也在这个过程中带来了大量原先不需要、没能力进行处理和无法取得的数据,而真正改变整个社会消费习惯、生活习惯并创造出数字经济这种经济形态的正是这些海量的数据。因此在技术体系中,云计算、大数据和移动互联网的协同发展和运作是缺一不可的,云计算提供计算力的保障,移动互联网作为数据的源头提供已被现代社会视为重要资源的数据和数据的传输通道,大数据在前两者基础上分析和挖掘数据资源的价值。
3 物联网数据特征
如果说移动互联网提供的还是人与人之间的沟通媒介则近年来开始蓬勃发展的物联网则将人的在线化进一步扩展到物的在线化,根据通常的定义,物联网就是物物相联的互联网,这使数据的来源和预期的数量变成几乎无限,因为如果人还是有个总数的概念则物的总数根本没有办法去统计,因此在云计算未诞生前物联网虽然已经有文献提出过这个概念但是根本没有技术支撑和计算力保证。传统方式下将物与物相联和物与人的相联的方式称为自动控制,即并非传统模式下物与物之间或物与人之间就一点互动也没有,其特点是有明确的边界范围并且提供的数据量非常有限,各个子系统之间既没法互通也没有为以后的互通做好预留接口,更不可能将互通范围扩大到不同领域和不同行业。自动控制与物联网的区别就如同统计学与大数据的区别,其核心的方法没有太大的差异但是因为数据量的提升和对数据利用率要求的提高,造成原来的体系不再适用于如今几乎没有边界的范围。和移动互联网一样,物联网同样是技术协同体系中数据的源头和传输通道,需要云计算提供计算力支撑和大数据对于收集的数据进行分析挖掘。
4 产业互联网数据特征
从生产上各类设备的运行数据属于典型的低价值密度数据因为这些设备在大部分情况下工作是正常的,在原先缺乏计算力的情况下没有办法能够挖掘这些数据,判断设备的故障采用的是安装测量仪表的方式,明显的缺陷是测量仪表只有在故障发生时才能通知运行人员并进行保护动作,而大数据应用后,能够通过历史数据和同类型设备运行数据特别是故障情况下的特征进行挖掘和提取,通过预判来做到在设备可能会发生故障时就通知运行人员处理而不必等到故障真正发生,显而易见,这种预测的模式对于生产效率的提升非常显著。
5 5G对数据科学发展趋势的影响
结合以上几个领域的数据特征和5G的特点,可以判断一下5G对数据科学发展趋势的影响。5G的显著特点就是传输速度快并且时延低,从云管端三个层面来分析,5G处于网络层,传输速度的提高代表非结构化数据(视频、图像、语音等)的大规模接入会是未来的趋势,并且这个发展趋势会同时出现在移动互联网、物联网和产业互联网领域,跟随而来的是对于非结构化数据处理和计算的要求变高,云计算方面各领域对于GPU服务器的需求度将会显著上升。
从数据算法方面面向结构化数据的机器学习算法目前已经在不断向面向非结构化数据和异构数据计算的方向靠近,这个趋势从阿里云天池比赛的赛题设置可以明显的感受到。在5G出现以前,云端其实已经有能力针对大量的非结构化数据进行大规模计算,但是由于传输通道受限,海量单体文件较大的非结构化数据传输是个很大的问题,传输速度的限制导致了实时性也一并降低因此阻碍了很多应用场景的落地。5G使无线传输速度大幅度提升后解决了传输限制,以神经网络为代表的非结构化数据算法才能够大规模在实际中采用,特别是在无人驾驶、医疗、视频监控等数据量大并且实时性要求极高的场景,传输速度直接影响这些场景下数据的有效性(数据价值随时间下降)。网络层限制解决后,平台层方面流计算的应用程度将会提高以确保数据处理和计算迭代速度不会成为新的瓶颈。
产业互联网的典型特征是数据的传输都是双向的,将数据分为反馈信息和控制信息分析,反馈信息进入边缘端或者云端后,通过规则引擎(参见ALIOS IOT平台)计算得出需要发送给感知层的控制指令,对感知层控制设备进行操作。这使网络层的时延必须非常低并且传输非常稳定,由于工业生产过程中各类参数往往在实时波动,因此高延迟不但会造成平台层收到的反馈信息滞后于实际生产过程,更会由于控制信息的返回再次被网络层延迟而造成控制效果变差甚至毫无意义,严重者会干扰工业生产过程的安全运行。5G的低延时性(约为4G的10分之1左右,15ms)从实时性角度看直接关系到产业互联网整个业态的发展,当然在5G实际运用到实时性要求较高的生产场景时,是否真的在可靠性上能够做到和有线传输同等水平比如面对生产环境干扰较多的情况能否不受影响还需要根据其实际落地后并试验后才能验证。