一个随风飘摇的塑料膜,就可以让多趟列车晚点,数千名乘客滞留在火车站。这是每年多风的季节都可能发生的事故,「北京铁路」更是在今年的 4、5 月份连续通报了数次。
「北京铁路」官方微博今年 5 月份发布的「接触网挂异物」相关视频。图源:https://m.weibo.cn/1916657595/4641508345778988
要想把这类事故的损失降到最低,我们就要在塑料膜挂上接触网的第一时间将其识别出来并发出警告。这也是很多智能巡检系统正在努力做的事情。
但其实,这件事做起来没那么容易。一方面,铁道动辄数百、上千公里,产生的数据会给数据中心造成巨大压力,反馈的实时性很难得到保障;另一方面,户外环境复杂多变,事故类型层出不穷,需要系统不断迭代升级。
这两个问题分别指向了两种解决方案——边缘计算和云计算。前者负责在边缘侧小范围地进行数据及时处理和返回,以及 AI 负载中的推理过程,保证问题能够被及时发现并作出响应;后者负责汇聚各个边缘节点的数据并对其进行分析,完成算法训练和升级,然后将升级后的算法推送到边缘,不断提高和优化边缘设备识别问题的能力。二者之间相互配合的过程,就是云边协同。
物联网场景下云边协同示意图 。图源:http://www.caict.ac.cn/kxyj/qwfb/bps/201907/P020190704540095940639.pdf
在 5G、AI、IOT 技术不断发展的今天,云边协同正变得越来越重要。
中国信息通信研究院 2021 年 7 月发布的《云计算白皮书》显示,随着物联网、工业互联网等行业应用的核心模块都已完成云计算平台的部署,5G 网络促使无线接入侧能力大幅提升,边缘侧业务场景逐渐丰富,各类型应用也将根据流量大小、位置远近、时延高低等需求对整体部署架构提出更高的要求,因此传统上相对独立的云计算资源、网络资源与边缘计算资源不断趋向融合,即需要在云计算、边缘计算以及网络之间实现云网融合、云边协同,才能实现算力服务的最优化 [1]。
白皮书还显示,2020 年应用和计划应用边缘计算的中国企业占比分别为 4.9% 和 53.8%。
这些青睐边缘计算或云边协同的企业通常存在以下痛点:
- 数据量大、传输成本高。工厂流水线设备每隔几秒就会产生一批图像数据,每张图像可能有几十 MB,每分钟产生的数据高达数 GB。这些数据如果都上传到云端进行处理,会对云端造成巨大的压力,还要占用大量带宽。
- 对时延非常敏感。工业自动化的核心是闭环控制系统,而环控制系统的关键点就是将传感器采集的数据在一个控制周期内及时地传给控制和执行器。闭环控制系统对于这种通讯时延的要求通常是毫秒级。而信息传输的时延一旦超过某一阈值,或者发生传输错误,就会带来极大的经济损失,甚至人员伤亡[2]。
- 对持久连接要求高。在工业制造等领域,不少企业都遭受过断网带来的巨大损失。Opengear 发布的一份报告 [3] 显示,超过一半的 IT 决策者和网络管理人员表示,他们曾经历过 4 次或 4 次以上持续时间超过 30 分钟的网络中断,停机造成的损失在 25 万英镑至 500 万英镑之间。
- 对数据安全要求高。出于隐私等方面的担忧,很多行业的数据是没有办法传到数据中心进行统一处理的,这就形成了一个一个的数据孤岛,阻碍了企业的数字化转型和进一步发展。
- ……
要解决这些问题,企业就要想办法把原来的云基础设施向终端和用户侧延伸,在接近数据生成点的地方对数据进行详细分析,即引入边缘计算。但只有边缘计算也是不够的,因为边缘设备只能处理局部数据,无法形成全局认知,因此实际应用中仍然需要借助云计算平台来实现信息的融合。正如信通院发布的另一份报告 [4] 所言,「边缘计算本身就是云计算概念的延伸,即便是赋予其独立的概念,也无法做到与云计算切割开,二者本就是相依而生、协同运作的,云边协同将成为主流模式。」
由此看来,在已经到来的云边协同时代,如何构建一个高效的云边一体化架构将成为不少企业不得不思考的问题。
其实,在这个问题上,我们已经能够看到一些比较成功的案例,比如国内知名制造类企业宁德时代、京东方、美的,以及美国 IT 服务集成商 Insight 等。他们对云边协同的利用涉及产品缺陷检测、不良根因分析、设备性能监测等诸多场景。其中,宁德时代的电池缺陷检测平台已经达到了 99.12% 的准确率和 99.16% 的检出率;京东方的大数据不良根因分析系统带来了 56% 的效率提升。
京东方的云边协同品质控制解决方案。
值得注意的是,这些企业在云边协同架构的搭建上有一个共同点:都使用了来自英特尔的软硬件和服务。
为什么是英特尔?
首先,从硬件来看,英特尔在云边协同方面的产品组合是非常全的,不仅囊括通用处理器(CPU)、图形处理器(GPU)、视觉处理单元(VPU)、现场可编辑逻辑门阵列(FPGA)等针对各种负载的产品,而且覆盖计算、存储和网络整个链路。
在这些硬件产品中,最核心的当然是英特尔上半年发布的基于 Ice Lake 的第三代至强® 可扩展处理器。这款处理器采用了 10nm 制程,可以提供最多 40 个核心,在数据中心负载时性能平均提高了 46%,可在数据中心、云端或边缘灵活部署。
重要的是,第三代至强® 还是业界唯一具有集成深度学习加速功能的主流数据中心 CPU,在前两代已有的高级矢量扩展 512 技术(AVX-512)、深度学习加速技术 Intel Deep Learning Boost(显著提高基于 INT8 推理的性能)的基础上,又加入了对常用的 bfloat 16 浮点格式的支持。与 32 位浮点数(FP32)相比,bfloat16 只通过一半的比特数且仅需对软件做出很小程度的修改,就可达到与 FP32 同等水平的模型精度。有了这一技术的支持,第三代至强® 可扩展处理器的训练性能可以提升 1.93 倍,推理性能可提升 1.9 倍。
同时,英特尔® 至强® 可扩展处理器对英特尔® 傲腾™ 持久内存有着良好的支持。工业生产线每秒处理的数据记录可能高达千万级,对大容量的内存要求非常迫切。英特尔® 傲腾™ 持久内存有远超固态盘,更接近 DRAM 的性能和延时,然而价格低于 DRAM。因此,宁德时代将其纳入了自己的云边协同解决方案。「实测显示,它能把数据落盘的性能提升 6.2 倍,并把系统切换的效率提升两倍,有效支持了大规模生产环境下的实时管控。」宁德时代流程 IT 架构与解决方案部经理赖腾飞表示。
拥有同样优异性能且得到第三代至强® 良好支持的硬件产品还包括英特尔® 傲腾™ 固态盘 P5800X、英特尔® D5-P5316 NAND 固态盘、英特尔® 以太网 800 系列适配器以及英特尔® Agilex FPGA 等。这些产品构成了当前各种云边协同解决方案的基石。
当然,要创建一个云边一体化的架构,只有硬件是不够的,还需要一套完整的软件产品组合。
在软件方面,选对生态非常关键。在云服务领域,绝大多数企业应用(如 SAP、VMware、Microsoft SQL、Oracle、Salesforce、IBM Db2 等) 都不具备对非 x86 架构的商业支持,许多主流的开源软件组件、工具、编排和容器镜像也是如此。相比之下,这些应用都是先以英特尔架构为基础开发的。英特尔在过去的十多年里一直是 Linux 内核的重要贡献者,并活跃于 KVM、Kubernetes、TensorFlow 等 650 多个开源项目。目前,大多数热门的人工智能框架(如 TensorFlow、PyTorch、MXNet 等)都已经过英特尔优化,以利用英特尔 AVX-512 和 DL Boost。这些优化可以将人工智能推理速度提高多达 30 倍。
也就是说,通过选择基于英特尔技术的云基础设施,无论是在本地、在某个云服务提供商内部,还是跨多个云服务提供商,都能实现无缝的企业工作负载迁移,无论何时何地都能找到企业需要的软件。在当前的多云、混合云发展趋势下,这一做法将极大地降低迁移难度和成本。
此外,英特尔还有一套自己的云边协同软件工具,包括开源、统一的大数据分析 + AI 平台 Analytics Zoo、OpenVINO 工具套件、工业边缘洞见平台 (EII) 推理软件等。
Analytics Zoo 可以轻松将 AI 模型(如 TensorFlow、Keras、PyTorch、BigDL、OpenVINO 工具套件等)应用于分布式大数据上,通过「零」代码更改将 AI 应用程序从一台笔记本电脑透明地扩展到大型集群,还可以使特征工程、超参数调整、模型选择、分布式推理等应用机器学习的过程自动化。基于此,美的构建了端到端的工业视觉检测云平台,在 50 毫秒内就能完成对图片的读取和预处理,推理时间从 2 秒缩短到 124 毫秒,识别率高达 99.8%,物料成本减少 30%,人工成本减少 70%。
OpenVINO 工具套件包含深度学习部署工具包和传统的视觉工具包两大部分,可依托英特尔架构处理器集成的显卡(Integrated GPU)、FPGA、VPU 等芯片,来增强云边协同视觉系统的功能和性能。
基于此,Insight 公司为制造商打造了装配线产品质量检测系统,这一系统能轻而易举地识别出产品的尺寸数据(长、宽、 高)、颜色、温度和包装中所含产品的数量(药丸、食品等)。从检测盒子中的饼干数量,到确定芯片中是否包含正确的引脚组,这一系统可胜任各类工作。
EII 由经过实践检验的软件堆栈组成,能帮助系统集成商 (SI)、 独立软件供应商 (ISV) 和设备制造商(如工业 PC 制造商、机器制造商等)更安全地获取、分析和存储视频及时序数据。它基于一个灵活的开源微服务架构,并针对基于英特尔硬件和芯片的解决方案进行了优化,也在 Insight 的解决方案中得到了广泛应用。
借助这些软硬件的协同优化,京东方、宁德时代、美的、Insight 等企业实现了云边一体化平台的快速部署,并在实际生产中节省了大量的人力、物力,产品质量、设备稳定性均得到了显著提升。
当然,英特尔云边协同解决方案的优势还不止这些,其他优势还包括云环境的管理等。目前,AWS Outposts、Azure Stack、Google Cloud 的 Anthos 和 VMware Cloud 等主流的混合云堆栈均针对英特尔架构进行了优化。这些堆栈提供直观的管理功能,可以降低采用云技术的障碍。此外,英特尔处理器还集成遥测功能,可用于实现闭环自动化,以编排容器、优化功耗和简化根本原因分析。例如,节点层面的遥测可以识别没有足够缓存或内存的工作负载,而集群层面的遥测可以帮助优化放置决策、实现扩展和生命周期管理。
近期,我国工业和信息化部印发《新型数据中心发展三年行动计划(2021-2023 年)》,明确指出建设新型数据中心,要实施「云边协同工程」,推动边缘数据中心间、边缘数据中心与新型数据中心集群间的组网互联,促进数据中心、云计算和网络协同发展。毫无疑问,英特尔将在这一计划中扮演重要角色,为企业的数字化转型、云和数据中心转型提供坚实的支撑。
参考链接:[1]http://www.caict.ac.cn/kxyj/qwfb/bps/202107/P020210727458966329996.pdf[2]https://m.haiwainet.cn/middle/3544241/2019/1128/content_31672769_1.html[3]https://www.computerweekly.com/news/252483308/Multiple-network-outages-costing-enterprise-businesses-millions-of-pounds-a-year[4]http://www.caict.ac.cn/kxyj/qwfb/bps/201907/P020190704540095940639.pdf