下一站AI:实时服务

简介: 随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

随着实时服务浪潮逐渐渗透进我们的日常生活,计算基础设施也开始迎来重大变化。从使用自然语言提供即时型个人智能助手,到通过店面分析生成与客户购物行为相关的结论信息,各类实时服务的出现给服务供应商带来了前所未有的巨大市场空间。

为了从这些服务中获取价值,一大基本前提就是保证数据与洞见结论的即时可访问能力;很明显,这种能力在很大程度上需要AI技术作为基础。也正因为如此,Amazon Web Services(AWS)、微软、阿里巴巴以及SK电信等云服务巨头都在开发自己的计算基础设施,用于提供这类服务方案。

lifuHkUfZ1Qts_600

数据中心运营商现在也需要优化计算以满足实时响应要求。为此,IT架构不仅要解决持续快速变化的工作负载与算法需求(主要由AI驱动),同时必须进一步提升计算资源与存储/网络资源的集成水平。

这就给服务供应商带来了新的难题:要求他们提供一套能够实现差异化优势与卓越性能,同样具备高吞吐量、低延迟与灵活软件/硬件堆栈的基础设施平台。这套平台还必须能够处理从递归神经网络、长期/短期内存网络、卷积神经网络以及基于Apache Spark集群计算框架的查询加速等实际任务。

为了建立起这样的差异化优势,服务供应商开始自主构建与众不同的硬件与软件堆栈。例如,AWS Advanced Query Accelerator就是一套包含定制化软件与可编程硬件堆栈的数据分析平台。SK电信最近也立足自家定制化软件与可编程硬件堆栈,开发出支持AI技术的语音与视频分析方案。

下一轮计算还需要具备自适应性,将软件与硬件合并在一处,且硬件与软件都要拥有可编程性以满足业务用例对于实时性能、最高吞吐量以及低延迟/低功耗的要求。随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。

实时预测

学术研究人员目前正利用高性能计算(HPC)解决真实世界中存在的各类高复杂度问题。为了加快洞察处理过程与大规模HPC部署工作,原始计算能力、能源效率与适应性已经成为决定项目最终命运的先决条件。

为了回答世界上最具挑战性的科学问题之一,欧洲粒子物理实验室(CERN)约2万名科学家组成的联盟正试图重现宇宙的起源。为此,研究人员必须不断突破技术极限。

大型强子对撞机是世界上最大的粒子加速器。总长27公里的环形隧道由超导磁体组成,可将粒子加速到前所未有的能量水平。每个质子每秒绕隧道运行11000圈,速度接近于光速。环形隧道上还部署有四个定位点(质子每25纳秒经过一次),质子将在这里发生碰撞。对撞的条件将由粒子探测器捕捉并记录。

整个触发系统分两层实现——第一层触发要求AI技术在约3微秒周期内完成事件处理,这对其推理延迟提出了极高的要求。至于第二层,自然是大量的数据传输带宽。

CPU与GPU根本无法满足这样的要求。因此,研究人员在地下100米深、且不受辐射区影响的位置构建起一套用于运行分析算法的FPGA网络。该算法旨在即时过滤生成的数据并识别新型亚粒子结构,借此证明暗物质的存在乃至其他重要物理现象。这些FPGA将同时运行经典与卷积神经网络,负责接收并校准传感器数据、执行跟踪与聚类、运行机器学习对象识别并触发功能——所有操作都需要在事件数据的格式化与交付之前完成。结果就是,这套网络带来了极低的推理延迟(约100纳秒)。

为实时分析提供存储支持

高速存储方案的采用,以及现实用例对于数据密集型应用程序的更高性能要求,已经令现有CPU、内存与存储沦为瓶颈。为此,研究人员的探索重点由计算能力转向通过计算存储完成数据处理。这样的转变,也给应用程序性能与基础设施整体效率带来了深远影响。

最可行的解决方案,自然是尽可能缩小计算与数据间的距离。将数据分析与存储集成在一起,能够极大减少系统层面的数据瓶颈、提高并行度,同时降低总体功耗水平。这种方法也得到IBM及美光科技等厂商的支持,他们据此开发出加速存储与计算存储产品,保证一切处理方案紧紧围绕在数据周边。三星电子还推出SmartSSD,将闪存作为主干建立高性能加速计算体系,借此克服CPU与内存带来的限制。通过将智能元素推送至数据所在的位置,三星SmartSSD成功提高了速度与效率,同时降低了运营成本。

复杂网络

随着虚拟化计算与容器化工作负载的出现,网络也变得越来越复杂。在将这些环境扩展到单一服务器之外时,我们必须与其匹配复杂的覆盖网络。覆盖网络的本质,属于通过分组封装概念动态创建并维护的虚拟化系统。对这种封装进行监管,必然会增强操作系统或虚拟化内核的处理负担。在与传统网络任务配合使用时,这类方案会直接消耗掉近30%的服务器原始CPU周期。

目前比较常见的覆盖网络管理方法当属vSwitch(OvS)协议。基于FPGA的SmartNIC(网卡)能够把这近30%的计算负担从主机CPU转移到自身之上。简而言之,三台配备OvS协议SmartNIC的服务器,足以提供等同于四台配备标准网卡的服务器的计算能力。

基于FPGA的SmartNIC还能显著降低服务器CPU在执行安全与加密任务时面临的计算负担。目前的安全保障方案通常采取深度数据包检查的形式;一旦发现数据包中存在威胁,则将该数据包丢弃。这种方法能够增强甚至彻底取代企业在服务器上运行的传统防火墙软件。另外,SmartNIC也可以轻松承担起各类加密与解密任务。

新的世界,新的秩序

在实时服务新时代之下,考虑到成本、功耗以及纯CPU的扩展能力等各类限制性条件,单纯使用CPU或者多核心CPU来满足业务需求早已不具备可行性。对于大多数复合型工作负载而言,单纯投入更多服务器CPU已经永远无法带来必要的性能表现。

随着摩尔定律的逐步终结,下一代CPU恐怕也无法解决这些实际问题。因此,自适应计算加速器将成为一种可行的解决方案,有望在满足广泛计算需求的同时,极大提高扩展能力以帮助企业控制运营成本。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-26
本文来自:“科技行者”,了解相关信息可以关注“科技行者

相关文章
|
8月前
|
人工智能 自然语言处理 安全
用AI重构人机关系,OPPO智慧服务带来了更“懂你”的体验
OPPO在2025开发者大会上展现智慧服务新范式:通过大模型与意图识别技术,构建全场景入口矩阵,实现“服务找人”。打通负一屏、小布助手等系统级入口,让服务主动触达用户;为开发者提供统一意图标准、一站式平台与安全准则,降低适配成本,共建开放生态。
698 31
|
人工智能 Java Serverless
【MCP教程系列】搭建基于 Spring AI 的 SSE 模式 MCP 服务并自定义部署至阿里云百炼
本文详细介绍了如何基于Spring AI搭建支持SSE模式的MCP服务,并成功集成至阿里云百炼大模型平台。通过四个步骤实现从零到Agent的构建,包括项目创建、工具开发、服务测试与部署。文章还提供了具体代码示例和操作截图,帮助读者快速上手。最终,将自定义SSE MCP服务集成到百炼平台,完成智能体应用的创建与测试。适合希望了解SSE实时交互及大模型集成的开发者参考。
15305 60
|
11月前
|
存储 关系型数据库 数据库
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
本文通过一个 Agentic RAG 应用的完整构建流程,展示了如何借助 RDS Supabase 快速搭建具备知识处理与智能决策能力的 AI 应用,展示从数据准备到应用部署的全流程,相较于传统开发模式效率大幅提升。
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
|
11月前
|
人工智能 负载均衡 安全
云上AI推理平台全掌握 (3):服务接入与全球调度
阿里云人工智能平台 PAI 平台推出的全球化的服务接入矩阵,为 LLM 服务量身打造了专业且灵活的服务接入方案,正重新定义 AI 服务的高可用接入标准——从单地域 VPC 安全隔离到跨洲际毫秒级调度,让客户的推理服务在任何网络环境下都能实现「接入即最优」。
|
人工智能 弹性计算 智能设计
🎨 三步打造AI创意工坊 | 通义万相图像生成服务极速部署指南
🚀 从零到大师 | 通义万相智能创作系统部署指南
|
9月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
2349 3
|
10月前
|
人工智能 缓存 JavaScript
Function AI 助力用户自主开发 MCP 服务,一键上云高效部署
在 AI 与云原生融合趋势下,MCP(模型上下文协议)助力开发者高效构建多模型智能应用。Function AI 提供 MCP 服务的一键上云能力,支持代码仓库绑定、OSS 上传、本地交付物及镜像部署等多种方式,实现模型服务快速集成与发布,提升开发效率与云端协同能力。
Function AI 助力用户自主开发 MCP 服务,一键上云高效部署
|
9月前
|
人工智能 安全 数据库
构建可扩展的 AI 应用:LangChain 与 MCP 服务的集成模式
本文以LangChain和文件系统服务器为例,详细介绍了MCP的配置、工具创建及调用流程,展现了其“即插即用”的模块化优势,为构建复杂AI应用提供了强大支持。