下一站AI:实时服务

简介: 随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

随着实时服务浪潮逐渐渗透进我们的日常生活,计算基础设施也开始迎来重大变化。从使用自然语言提供即时型个人智能助手,到通过店面分析生成与客户购物行为相关的结论信息,各类实时服务的出现给服务供应商带来了前所未有的巨大市场空间。

为了从这些服务中获取价值,一大基本前提就是保证数据与洞见结论的即时可访问能力;很明显,这种能力在很大程度上需要AI技术作为基础。也正因为如此,Amazon Web Services(AWS)、微软、阿里巴巴以及SK电信等云服务巨头都在开发自己的计算基础设施,用于提供这类服务方案。

lifuHkUfZ1Qts_600

数据中心运营商现在也需要优化计算以满足实时响应要求。为此,IT架构不仅要解决持续快速变化的工作负载与算法需求(主要由AI驱动),同时必须进一步提升计算资源与存储/网络资源的集成水平。

这就给服务供应商带来了新的难题:要求他们提供一套能够实现差异化优势与卓越性能,同样具备高吞吐量、低延迟与灵活软件/硬件堆栈的基础设施平台。这套平台还必须能够处理从递归神经网络、长期/短期内存网络、卷积神经网络以及基于Apache Spark集群计算框架的查询加速等实际任务。

为了建立起这样的差异化优势,服务供应商开始自主构建与众不同的硬件与软件堆栈。例如,AWS Advanced Query Accelerator就是一套包含定制化软件与可编程硬件堆栈的数据分析平台。SK电信最近也立足自家定制化软件与可编程硬件堆栈,开发出支持AI技术的语音与视频分析方案。

下一轮计算还需要具备自适应性,将软件与硬件合并在一处,且硬件与软件都要拥有可编程性以满足业务用例对于实时性能、最高吞吐量以及低延迟/低功耗的要求。随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

实时预测

学术研究人员目前正利用高性能计算(HPC)解决真实世界中存在的各类高复杂度问题。为了加快洞察处理过程与大规模HPC部署工作,原始计算能力、能源效率与适应性已经成为决定项目最终命运的先决条件。

为了回答世界上最具挑战性的科学问题之一,欧洲粒子物理实验室(CERN)约2万名科学家组成的联盟正试图重现宇宙的起源。为此,研究人员必须不断突破技术极限。

大型强子对撞机是世界上最大的粒子加速器。总长27公里的环形隧道由超导磁体组成,可将粒子加速到前所未有的能量水平。每个质子每秒绕隧道运行11000圈,速度接近于光速。环形隧道上还部署有四个定位点(质子每25纳秒经过一次),质子将在这里发生碰撞。对撞的条件将由粒子探测器捕捉并记录。

整个触发系统分两层实现——第一层触发要求AI技术在约3微秒周期内完成事件处理,这对其推理延迟提出了极高的要求。至于第二层,自然是大量的数据传输带宽。

CPU与GPU根本无法满足这样的要求。因此,研究人员在地下100米深、且不受辐射区影响的位置构建起一套用于运行分析算法的FPGA网络。该算法旨在即时过滤生成的数据并识别新型亚粒子结构,借此证明暗物质的存在乃至其他重要物理现象。这些FPGA将同时运行经典与卷积神经网络,负责接收并校准传感器数据、执行跟踪与聚类、运行机器学习对象识别并触发功能——所有操作都需要在事件数据的格式化与交付之前完成。结果就是,这套网络带来了极低的推理延迟(约100纳秒)。

为实时分析提供存储支持

高速存储方案的采用,以及现实用例对于数据密集型应用程序的更高性能要求,已经令现有CPU、内存与存储沦为瓶颈。为此,研究人员的探索重点由计算能力转向通过计算存储完成数据处理。这样的转变,也给应用程序性能与基础设施整体效率带来了深远影响。

最可行的解决方案,自然是尽可能缩小计算与数据间的距离。将数据分析与存储集成在一起,能够极大减少系统层面的数据瓶颈、提高并行度,同时降低总体功耗水平。这种方法也得到IBM及美光科技等厂商的支持,他们据此开发出加速存储与计算存储产品,保证一切处理方案紧紧围绕在数据周边。三星电子还推出SmartSSD,将闪存作为主干建立高性能加速计算体系,借此克服CPU与内存带来的限制。通过将智能元素推送至数据所在的位置,三星SmartSSD成功提高了速度与效率,同时降低了运营成本。

复杂网络

随着虚拟化计算与容器化工作负载的出现,网络也变得越来越复杂。在将这些环境扩展到单一服务器之外时,我们必须与其匹配复杂的覆盖网络。覆盖网络的本质,属于通过分组封装概念动态创建并维护的虚拟化系统。对这种封装进行监管,必然会增强操作系统或虚拟化内核的处理负担。在与传统网络任务配合使用时,这类方案会直接消耗掉近30%的服务器原始CPU周期。

目前比较常见的覆盖网络管理方法当属vSwitch(OvS)协议。基于FPGA的SmartNIC(网卡)能够把这近30%的计算负担从主机CPU转移到自身之上。简而言之,三台配备OvS协议SmartNIC的服务器,足以提供等同于四台配备标准网卡的服务器的计算能力。

基于FPGA的SmartNIC还能显著降低服务器CPU在执行安全与加密任务时面临的计算负担。目前的安全保障方案通常采取深度数据包检查的形式;一旦发现数据包中存在威胁,则将该数据包丢弃。这种方法能够增强甚至彻底取代企业在服务器上运行的传统防火墙软件。另外,SmartNIC也可以轻松承担起各类加密与解密任务。

新的世界,新的秩序

在实时服务新时代之下,考虑到成本、功耗以及纯CPU的扩展能力等各类限制性条件,单纯使用CPU或者多核心CPU来满足业务需求早已不具备可行性。对于大多数复合型工作负载而言,单纯投入更多服务器CPU已经永远无法带来必要的性能表现。

随着摩尔定律的逐步终结,下一代CPU恐怕也无法解决这些实际问题。因此,自适应计算加速器将成为一种可行的解决方案,有望在满足广泛计算需求的同时,极大提高扩展能力以帮助企业控制运营成本。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-26
本文来自:“科技行者”,了解相关信息可以关注“科技行者

相关文章
|
1月前
|
人工智能 自然语言处理 数据可视化
阿里云AI大模型助力客户对话分析——全方位提升服务与体验
随着数字化转型的推进,企业愈发重视客户互动数据的价值。阿里云推出了一套基于AI大模型的客户对话分析解决方案,通过自动化手段分析大量客户对话数据,提取有价值信息,优化服务流程,提升客户体验。本文将结合技术文档和实际体验,全面评测这一解决方案。
54 2
|
2月前
|
SQL 人工智能 运维
在阿里云日志服务轻松落地您的AI模型服务——让您的数据更容易产生洞见和实现价值
您有大量的数据,数据的存储和管理消耗您大量的成本,您知道这些数据隐藏着巨大的价值,但是您总觉得还没有把数据的价值变现出来,对吗?来吧,我们用一系列的案例帮您轻松落地AI模型服务,实现数据价值的变现......
195 3
|
3月前
|
人工智能 API 异构计算
AI智能体研发之路-工程篇(四):大模型推理服务框架Xinference一键部署
AI智能体研发之路-工程篇(四):大模型推理服务框架Xinference一键部署
302 2
|
3月前
|
人工智能 网络协议 Docker
AI智能体研发之路-工程篇(三):大模型推理服务框架Ollama一键部署
AI智能体研发之路-工程篇(三):大模型推理服务框架Ollama一键部署
210 2
|
4月前
|
机器学习/深度学习 人工智能 DataWorks
云上AI服务,中国最佳
云上AI服务,中国最佳
100 10
|
4月前
|
人工智能 自然语言处理 机器人
客户在哪儿AI的ToB获客服务和AI外呼机器人的有何不同
客户在哪儿AI的ToB获客服务 VS AI外呼机器人的ToB获客服务。
|
4月前
|
人工智能 自然语言处理 API
深度融合与创新:Open API技术促进AI服务生态构建
【7月更文第21天】在数字化转型的浪潮中,人工智能(AI)已从概念探索走向实际应用,深刻改变着各行各业。Open API(开放应用程序接口)作为连接技术与业务的桥梁,正成为推动AI服务普及和生态构建的关键力量。本文将探讨Open API技术如何通过标准化、易用性和灵活性,加速AI服务的集成与创新,构建一个更加丰富多元的AI服务生态系统。
226 2
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC-基于EAS服务快速部署一个AI视频生成
AIGC-基于EAS服务快速部署一个AI视频生成
|
3月前
|
人工智能 API 数据安全/隐私保护
通义听悟AI能力问题之API接口服务的潜在应用类别如何解决
通义听悟AI能力问题之API接口服务的潜在应用类别如何解决
74 0
|
3月前
|
人工智能 前端开发 API
AI智能体研发之路-工程篇(五):大模型推理服务框架LocalAI一键部署
AI智能体研发之路-工程篇(五):大模型推理服务框架LocalAI一键部署
152 0

热门文章

最新文章