DPU芯片企业中科驭数加入龙蜥社区,构建异构算力生态
近日,中科驭数(北京)科技有限公司(以下简称“中科驭数”)签署了 CLA(Contributor License Agreement,贡献者许可协议),正式加入龙蜥社区(OpenAnolis),将携手社区生态合作伙伴,推动构建软硬件创新技术及应用生态发展。中科驭数专注于专用处理器研发,设计了业界首颗网络数据库一体化加速功能的 DPU 芯片和智能网卡系列产品。其自研了敏捷异构 KPU 芯片架构,提出了软件开发平台 HADOS、研发了网络卸载引擎 NOE 和数据计算卸载引擎 DOE。基于 DPU 芯片核心技术,中科驭数研发了超低时延智能网卡、数据计算加速卡以及面向金融计算领域的极速风控、极速行情等解决方案。中科驭数高级副总裁张宇表示:“中科驭数 DPU 芯片核心的差异化在于我们以‘软件定义加速器’为技术路线,拥有自研的 KPU 芯片架构,以异构众核方式设计 DPU。未来,中科驭数将积极参与龙蜥社区生态建设,在产品兼容性适配、社区生态共创等方面展开合作。基于中科驭数在软硬件一体化加速产品和解决方案的技术积累和应用经验,共同推动异构计算创新技术的应用和生态繁荣。”龙蜥社区理事刘宏倩表示:“中科驭数有多年专用处理器技术积累,相信其具有网络数据库一体化加速功能的产品与龙蜥操作系统适配后,将极大地提升龙蜥操作系统的数据处理速度。欢迎中科驭数加入龙蜥社区,与更多合作伙伴一起实现资源共享、共建开源新生态。”截至目前,已有 200+ 家企业签署 CLA 协议加入龙蜥社区,包括安全厂商格尔软件、海泰方圆,数据库厂商南大通用、巨杉数据库,中间件厂商东方通、中创中间件、宝兰德等,欢迎更多企业加入。 龙腾计划可参看:“龙腾计划”启动!邀请 500 家企业加入,与龙蜥社区一起拥抱无限生态。—— 完 ——加入龙蜥社群加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】与你同在;加入钉钉群:扫描下方钉钉群二维码。欢迎开发者/用户加入龙蜥社区(OpenAnolis)交流,共同推进龙蜥社区的发展,一起打造一个活跃的、健康的开源操作系统生态!关于龙蜥社区龙蜥社区(OpenAnolis)由企事业单位、高等院校、科研单位、非营利性组织、个人等在自愿、平等、开源、协作的基础上组成的非盈利性开源社区。龙蜥社区成立于 2020 年 9 月,旨在构建一个开源、中立、开放的Linux 上游发行版社区及创新平台。龙蜥社区成立的短期目标是开发龙蜥操作系统(Anolis OS)作为 CentOS 停服后的应对方案,构建一个兼容国际 Linux 主流厂商的社区发行版。中长期目标是探索打造一个面向未来的操作系统,建立统一的开源操作系统生态,孵化创新开源项目,繁荣开源生态。目前,龙蜥OS 8.4已发布,支持 X86_64 、Arm64、LoongArch 架构,完善适配 Intel、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。欢迎下载:https://openanolis.cn/download加入我们,一起打造面向未来的开源操作系统!https://openanolis.cn
5月硬核预告!明晚开讲:Virtio 虚拟化技术趋势与 DPU 实践 | 第16 期
龙蜥大讲堂第 16 期直播如约而至!本期龙蜥大讲堂直播邀请了云豹智能高级工程师 Will Sun 分享《Virtio 的技术趋势与 DPU 实践》,快来扫码入群,预定前排小板凳观看直播吧!直播主题及内容介绍本期主题:Virtio 的技术趋势与 DPU 实践直播时间:2022 年 05 月 11 日 (本周三)16:00-17:00直播内容:Virtio 背景、技术规范与关键技术以及 Virtio 技术在 DPU 中的实践应用。DPU Virtio 硬化给数据中心基础设施加速带来的收益与产品优势。听众受益:深入理解 Virtio 相关背景、技术规范与关键技术交流在 DPU 上的硬化实践。适合人群:云计算、虚拟化、DPU 相关行业人员。讲师介绍:Will Sun:云豹智能应用与解决方案高级工程师,主要负责云豹 DPU 产品应用与解决方案,具备 10+ 年数据通信、SmartNIC 相关行业经验。如何观看直播?钉钉扫描下方海报二维码入群即可观看直播。 龙蜥大讲堂 5 月预告 「龙蜥大讲堂」5 月预告抢先看,多位大咖带你共享技术盛宴!提前扫码进群,参与互动还有龙蜥精美周边等你来拿。5 月精彩分享直达———— 完 ——关于龙蜥社区龙蜥社区(OpenAnolis)由企事业单位、高等院校、科研单位、非营利性组织、个人等在自愿、平等、开源、协作的基础上组成的非盈利性开源社区。龙蜥社区成立于 2020 年 9 月,旨在构建一个开源、中立、开放的Linux 上游发行版社区及创新平台。龙蜥社区成立的短期目标是开发龙蜥操作系统(Anolis OS)作为 CentOS 停服后的应对方案,构建一个兼容国际 Linux 主流厂商的社区发行版。中长期目标是探索打造一个面向未来的操作系统,建立统一的开源操作系统生态,孵化创新开源项目,繁荣开源生态。目前,龙蜥OS 8.4已发布,支持 X86_64 、Arm64、LoongArch 架构,完善适配 Intel、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。欢迎下载:https://openanolis.cn/download加入我们,一起打造面向未来的开源操作系统!https://openanolis.cn
科技云报道:DPU市场火热,未来会任由几家大厂吃独食吗?
科技云报道原创。有人说它叫DPU(dataprocessing units),也有人说它叫IPU(infrastructureprocessing units),我们不妨用“数据基础设施”一词来一个和稀泥式的命名,因为它的出现本就是数据基础设施领域近年来的一大创新。为了方便起见,本文还是把它叫做DPU。 经典的传统服务器架构中,CPU在处理各种业务工作负载的同时,还要负责包括网络、存储、安全以及虚拟化软件等非业务型工作负载,由于CPU需要承担很多非工作型负载,导致可用于运行业务负载的空间大大压缩,DPU的出现就是为了缓解这一问题。DPU与SmartNIC智能网卡有千丝万缕的关系,有人说DPU就是SmartNIC的加强版,在一些语境下两者就是一回事儿,在下文讲出具体的区别之前,我们谈两者的共同点,那就是,都能用卸载来减少CPU资源消耗,从而提升服务器乃至数据中心的运行效率。英伟达的黄仁勋曾表示,在虚拟化和微服务等技术的推动下,数据中心CPU要处理的任务越来越多,在每年出货的大约3000万台服务器中,有三分之一用来运行数据中心的软件定义的网络堆栈,他认为必须将这部分工作负载卸载掉。来自谷歌和Facebook的研究也表明,CPU周期里有22%到80%都用来处理各种微服务工作负载。我们可以粗暴地认为,如果能把这些工作负载交给别人来做,数据中心在CPU资源方面的投入,可以省下22%到80%。许多研究数字表明,卸载的效果将非常诱人,然而,这场关于卸载的创新与变革,历经近二十年时间才完成。虚拟化技术的创新,将CPU卸载进行到底1998年的VMware x86虚拟化完全由软件独立完成,由于缺少硬件支持,全靠软件模拟,其性能损耗堪称灾难,以至于没多少人能看出这有什么用。2005年以来,Intel VT-x和AMD-V技术的出现,解决了CPU和内存的硬件虚拟化问题,从而提升了整个虚拟化系统的性能,越来越多的人开始注意到虚拟化技术的价值。随着PCIe SR-IOV以及IntelVT-d等技术的兴起,I/O硬件虚拟化,包括网络和存储的硬件虚拟化方面都取得重大进步,在性能和灵活性上都有极大提升。从纯软件模拟的原始虚拟化阶段,到后来的半虚拟化阶段,虚拟化技术越来越多地利用硬件本身的能力,系统的性能和运行的效率也随之提升。下图是技术大神Brendan Gregg汇总的亚马逊云(AWS) EC2虚拟化技术变迁的历史,同样也记录了整个虚拟化技术的发展历程。 发展历程中,值得划重点的历史时刻是2017年。这一年,亚马逊云发布Nitro系统,同年,阿里云也宣布有类似功能的神龙架构。回看过去,我们可以将这一年称之为DPU元年,直到三年后英伟达将其命名为DPU之后,才有了一个统一的叫法。亚马逊云的Nitro系统有专有的硬件,不仅完成了I/O的硬件虚拟化,更重要的是,它还将虚拟化管理程序Hypervisior从原来的CPU卸载到了专用硬件上,于是,虚拟化技术的性能损耗趋近于零,CPU的能力几乎完全用来运行业务负载。从使用的角度看,亚马逊云Nitro不仅为云主机带来了虚拟化技术的灵活性,还带来了近似裸金属的性能,鱼和熊掌兼得。从经济的角度看,当宝贵的CPU资源能被充分利用,同样的成本可以得到更多性能,整个工业界为之震撼。从虚拟化技术的角度看,虚拟化技术的性能损耗问题,因为有了专有硬件的卸载而取得了巨大进步,同时,也意味着cpu的卸载也进入了新阶段。DPU燃起来的三把火虽然,此前也有过一些把存储和网络以及安全等能力卸载到专用硬件上的做法,但直到2020年英伟达发布BlueField-2并将其命名为DPU之后,DPU一词才真正走进了大众视野。尽管有争议,但DPU的名字能叫起来说明还是有些道理的,那么,到底什么是DPU?DPU的命名者英伟达是怎么区别SmartNIC和DPU的呢?上图可见,英伟达认为基于SoC的智能网卡就是DPU,DPU是功能最强大的SmartNIC,DPU新增了虚拟化,网络功能虚拟化(NFV),安全,存储等功能,这种说法也基本符合我们看到的趋势。维基百科上解释,DPU通常包含做通用计算的CPU、NIC网卡和可编程数据加速引擎,使得DPU同时具有通用计算能力和可编程性,而且,在网络数据包、存储IO处理方面的效率都非常高。所以,我们可以认为,做网络、安全、存储以及虚拟化的专用系统都算是DPU。DPU话题热度非常高,DPU被称作是CPU、GPU之后的第三个主力芯片,市场空间不难想象的大,国内市场上芯启源、中科驭数、星云智联、云豹智能都受到了很高的关注,包括资本市场的青睐。DPU之所这么火,说起来有不止三把火的助攻。2020年英伟达BlueField-2的发布点燃了DPU的第一把火。上图是英伟达对DPU加速卡的介绍BlueField-2集成了Mellanox的网卡和ARM处理器,可以将包括Hypervisor、网络、安全以及存储方面的工作负载从CPU迁移到DPU上。英特尔对IPU定位的描述英特尔的入局则是点燃了第二把火。2021年,英特尔发布了2个IPU卡和一个代号为MountEvans的IPU SoC,IPU卡基于FPGA和低功耗至强,Mount Evans则是基于ASIC和ARM核心,总之都是打破原来由CPU扛下所有的模式,将一部分工作负载交给了专有的设备(未来支持Hypervisior卸载)。Pensando的Distributed Services Card2022年,AMD的入局算是点燃了第三把火。这是AMD收购Pensando是DPU领域的又一大事件,Pensando的思路与前者没有太大区别,也做网络、存储以及虚拟化的卸载,它用的也是ARM处理器,网络部分是强项,它带有一个P4可编程pipeline引擎。Marvell的DPU平台的基本架构除了英伟达、英特尔、AMD三家巨头的三把火,还能看见,Marvell也有基于ARM的Octeon10,Fungibled有基于MIPS架构的F1,Broadcom也有基于ARM的Stingray,做的事情大体上一样,局部有不同的侧重点,可以粗暴地认为,都是在抢战DPU市场。另外,DPU的背后还有2个不可忽略的大佬。第一个是ARM,不难发现,多个DPU方案都用到了ARM核心,ARM在数据中心市场的门口辗转了好些年,终于被DPU以一种更容易接受的方式,正式抬进了数据中心的大门。另外一个是VMware,VMware的Project Montery支持让ESXi Hypervisior软件运行在除CPU以外的更多设备上,帮DPU卸载Hypervisior,已有多家DPU厂商参与了Project Montery。 DPU会任由几家大厂吃独食吗?可以肯定的是,DPU绝对不会像通用计算CPU那么聚集,也绝对比GPU市场更加多元化,从构成上来看,就分为基于ASIC的和基于FPGA的两大类,ASIC和FPGA两者已经共存多年,可见的未来两者必将长期存在。从功能上来看,除了卸载存储、网络、安全以及虚拟化以外,还有许多方案提供用于机器学习等加速功能,也就是说,做网卡和智能网卡的厂商,以及许多做机器学习加速芯片的厂商都可能以各种形式参与到DPU的混战中。但最终想取得成功,得看用户需求,DPU兴起于亚马逊云等大型公有云服务商,目前最大的用户群体仍然是大型互联网公司、大型公有云服务商以及大型电信运营商。大型公有云都多少有自己的DPU,比如亚马逊云有自己的Nitro系统,阿里云有自己的神龙架构,此外,华为云、腾讯云也都有一些功能相对少一些的智能网卡。谷歌与英特尔合作推出了Mount Evans,微软的Catapult v3用的其实是英特尔的FPGA。UCloud和国内另外一个规模较小的公有云服务商也使用了英伟达的DPU方案,百度同时使用了英伟达和英特尔的DPU方案。云服务商对技术很开放,完全不介意几种方案并存,未来市场上,如果有谁宣布采用了多种DPU解决方案将非常正常,因为云厂商相互间内卷得非常厉害。比如,云厂商的云主机类型就非常多样,很多公有云主机同时使用英特尔、AMD的x86和ARM处理器,按照不同场景又分为不同的类型,比如内存优化型、计算优化型和网络优化型等,分门别类多种多样。有不同侧重的DPU将帮助云服务商提供更丰富多样的云主机。比较典型的是亚马逊云,亚马逊的Nitro卡插在服务器上就能很快让服务器变成云主机,Nitro卡成了亚马逊云实例类型丰富的重要推动力。多样化的云主机类型将帮助云服务商构建差异化的服务,免于在同质化的竞争中遭受价格战,从这一角度看,无疑是有利于云行业发展的。 【关于科技云报道】专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。
阿里云张献涛:自主最强DPU神龙的秘诀
微信公众号搜索“弹性计算百晓生”,获取更多云计算知识。如果细数最近火爆的科技概念,DPU必然位列其中。这是英伟达一手捧红的新造富故事,是2021年SoC领域最热火朝天的创业赛道,也是数据中心继CPU、GPU后的又一大“台柱子”。尽管在云计算领域已经培育多年,但对于外界来说,DPU并不是一个容易理解的概念,各路玩家的产品定义和结构设计也不尽相同。总体来说,DPU是个软硬一体的数据处理单元,通常以架构的形式存在,可以帮CPU“减负”,解决一些CPU处理数据方面的短板问题,并提供硬件加速的网络、存储、安全、基础设施管理等服务。 而追溯DPU的源头,真正实现大规模商用DPU架构的,历数全球,主要有两家云计算巨头——西方的亚马逊云AWS,东方的阿里云。2017年10月,阿里云的神龙架构横空出世;仅1个月后,AWS的Nitro也走到了历史台前。这两个为了解决虚拟化问题而相继问世的创新产品,被业界视作迄今最成功的两款DPU。一手促成神龙架构诞生的张献涛,也是国内最懂DPU的人物之一。如今,第四代阿里云神龙已经开始支撑阿里云的大规模云上业务,并在计算、存储、网络、安全四项关键指标达成业界最高水平。近日,芯东西独家对话阿里巴巴集团研究员、阿里云弹性计算产品线负责人张献涛(花名旭卿),听他讲述云端业务需求变化、持续创新的研发心得,以及对DPU热潮的独到思考。在他看来,这不是一类适合走通用路线的芯片,对于云厂商而言,DPU是一个软硬件技术栈结合极其密切的工作,是软件定义的计算架构,DPU必须以自研为主,做到相关软硬件技术栈完全可控,且经过超大规模验证。而做通用DPU的公司很难满足云厂商的需求,被收购或许是最佳结局。01 风起云计算 DPU的新风口来得突然。2020年10月,在NVIDIA GTC 2020大会上,NVIDIA创始人兼CEO黄仁勋宣布推出一种全新数据处理器——DPU。这颗被称作“未来计算三大支柱之一”的处理单元,赫然闯入大众和资本的视野。此时,距离阿里云软硬一体虚拟化架构「神龙」的诞生,已经过去整整四年。如今,其被市场视作阿里云的DPU,而这个颇具开创性的创新架构,当初是为解决传统虚拟化技术应用到云计算带来的成本、性能、服务质量以及安全问题而生的。张献涛是负责阿里云神龙的核心人物,于2014年加入阿里云,彼时他已经从事虚拟化技术研究约十年,阿里云刚走到第五个年头。传统虚拟化架构的种种缺陷,日渐成为掣肘这家云计算公司降本增效、提升服务质量的顽疾。虚拟化技术是云计算的基础,它将原本不可分割的硬件资源抽象成共享资源池,按需分配和共享计算、存储、网络资源。而管理资源,就需占用掉一些原本用于运行业务负载的CPU和内存,也就造成了资源损耗。比如一个工厂有100位工人,如果他们全部去流水线上干活,那么资源利用率是100%;但如果从中抽出10人负责统筹管理,那么余下只有90人在流水线上干活,利用率则降为90%。随着云计算业务规模持续扩大规模,资源争抢、算力损失、性能瓶颈等问题日益严峻,寻求解局之道已然迫在眉睫。经过两年摸索,阿里云的稳定性不再是问题。2016年,张献涛开始思考下一代虚拟化技术方案在哪里?什么样的方案,才能符合阿里云未来长期的发展?神龙(X-Dragon)应运而生。这是团队头脑风暴的结果。假如造出一个专门负责做虚拟化的架构,那么CPU的算力资源就被释放出来,能够更聚焦于运行云上业务。第一代神龙正式立项的时间是2017年4月1日。将问题定义出来后,张献涛开始组建团队,从系统架构设计到芯片及硬件开发,到服务器开发,再到系统软件的研发适配,初始团队总共二十几个人干了半年的时间,成功于2017年10月将神龙上线。自此以后,作为处理高速数据流的高手,神龙架构从CPU手头接过虚拟化的重任,一路带飞存储、网络、安全等关键性能。02 从小试牛刀,到大规模落地 一开始,张献涛其实不太接受「DPU」这个命名方式。DPU的“D”有几种常见解释,包括“数据”、“数据中心”、“以数据为中心”等。可严格意义上来讲,数据中心的哪个主力芯片(如CPU、GPU)不符合这些特征呢?因此,阿里云对神龙架构的阐述是,真正为云而生的、软硬一体的技术架构。在他看来,未来是一个云的时代,需要这样的技术架构来全面解决成本、性能、安全等问题。目前来看,DPU想做的似乎是类似的事情,市场也认为阿里云和AWS做的就是DPU。阿里云和AWS之所以近乎“同步”地推出DPU,最直接的原因是云计算发展到一定阶段后,研发人员意识到,有了这样的数据处理架构,成本将大幅下降,同时性能会大幅提升,再加上云厂商的规模化优势能为客户提供更有竞争力的高性价比服务。无论是阿里云的神龙,还是AWS的Nitro,早期都主攻虚拟化的性能损耗、资源损耗问题,即成本和性能问题。张献涛给我们算了一笔账,那时阿里云营收规模已经达到上百亿元,如果存储、网络占用约10%的CPU资源,则意味着年损失10多亿元。无论从提升性能还是优化成本的角度,研发神龙都势在必行。取得技术突破只是第一步。神龙上线后,如何大规模应用成为新的挑战。阿里云先在内部业务试水,2017年双十一期间部署了1000台支撑天猫大促业务,成功验证没有问题。上汽集团是第一家吃螃蟹的外部客户,提出愿意尝试这个新产品,与阿里云共担风险。双方一起磨了近两个月,到临近春节,终于将稳定性、性能等问题通通解决。在此类种子客户的支持下,阿里云神龙打磨出大规模上云的功底,并开始成长为阿里云最核心的竞争力之一。从2019年起,阿里巴巴集团的所有业务、包括阿里云的计算类服务全部迁至神龙架构。到2021年10月,第四代神龙架构问世,其存储IOPS高达300万、网络PPS达5000万、网络延时最低5微秒等多项指标刷新业界最高水平。根据知名国际市场研究机构Gartner公布的2021年度全球云计算厂商整体能力评估报告,阿里云IaaS基础设施能力超越AWS拿下全球第一,并在计算、存储、网络、安全四项核心评比中获得最高分。▲Gartner Solution Scorecard 2021报告显示,阿里云四项能力超AWS03 云厂商必须自研DPU 云计算市场正在飞速扩容,当每台云服务器中都需要一个DPU,谁能跻身头部,谁就可能享受到难以估量的市场红利。仅在2021年,获得新融资的国内DPU企业就有不少于7家,包括湖州芯启源、北京大禹智芯、珠海星云智联、上海益思芯科技、深圳云豹智能、上海云脉芯联、北京中科驭数等。其中多数企业单笔融资额达数亿元,且投资方不乏知名科技企业身影。比如,星云智联A轮融资由美团独家投资,腾讯投资了云豹智能,云脉芯联的投资方有字节跳动、壁仞科技……但资本只看见热度,未必能看清里面的坑。在张献涛看来,DPU不应该被视作「智能网卡」的继任者,智能网卡只解决网络加速问题,而DPU的功能远比智能网卡丰富。有些DPU创企其实仍在做智能网卡,也有创企想在智能网卡的基础上做演进。但他认为:“在一个智能网卡上打补丁是解决不了的,因为本身设计理念是不一致的。”从架构层面来讲,DPU的架构是在DPU系统上插入一台服务器从而解决整台服务器相关的数据处理加速和安全及管控问题,而智能网卡架构则是在服务器上插入一个网卡解决网络加速的问题,二者有本质性的区别。形虽差之毫厘,神却谬以千里。自2017年推出神龙后,张献涛印象中,几乎所有DPU公司的DPU架构、接口、功能模块、能力实现等,都是仿照神龙已公开的架构来设计。可为何仿照神龙设计,仍然很难做好DPU?核心问题出在对云业务的理解。张献涛说,第三方厂商通过跟客户、工程师沟通,只能得到对云业务需求的片面了解,所以最终做出来的效果很难满足客户需求。他坚信,云厂商必须自研DPU架构。“如果不熟悉软件架构和系统软件栈,不熟悉自家技术栈中哪些地方才是瓶颈,很难把它设计得很好,而这些都是外部DPU公司很难拿到的技术信息。”换个角度来看,对云厂商而言,只有从硬件架构到固件到软件栈都自研,才能做到整个技术链路的可控,它才能成为一个负责任的云厂商。近年云计算厂商的动向印证了张献涛的判断。京东云研发基于自研智能芯片的虚拟化架构京刚,谷歌云与英特尔合作研发基础设施处理芯片IPU,字节跳动宣布其自研DPU将通过火山引擎云产品对外服务……“从终局上判断,今天DPU的创业公司没有太好的出路,最好的出路就是把相关业务出售,卖给有需要的云计算公司,通过被收购变现。”张献涛说,如果对云计算业务不够了解,一味想把DPU做成通用架构是很难成功的,做DPU的公司,最终都要和云厂商做产品和技术的共建合作,这样成功的可能性才会提升。04 DPU不适合走通用路线 “业界投资的DPU都想尝试着做一颗通用的DPU,有的甚至想推配套的软件技术栈作为业界标准,其实出发点就是有问题的。”这是因为DPU完全由软件定义的架构,由客户需求或业务发展形态驱动,与客户整个后端软件栈结合非常紧密,很难做到通用的程度。在张献涛看来,真正做出DPU,并且让客户规模化用起来,其实比AI芯片还要难。关键难点在于,它的软件生态注定培养不起来,因为各家公司的软件技术栈都发展多年,很难废掉去适配一个难于自控的外部厂商推荐的技术栈,所以在三年之后,DPU领域一定会出现整合,一些公司可能会消失或者被卖掉。DPU的使用者通常是云计算公司或做虚拟化软件的公司。如果只是针对某一个软件栈来做,无法实现通用,如果想做得非常通用,“因为各家的软件栈都不一样,整个安全机制的设计也都不一样,则很难和云厂商进行适配”。这与GPU+CUDA的逻辑不同。英伟达花了十多年研发,又遇到深度学习爆发的契机,才将这样的生态稳固下来,成为业界的标准。而在DPU领域,各家公司的软件栈已经存在,互不相同,强行标准化很难实现,并且研发周期长、固件很难开放、接口的定义不一致等都是不可控的因素。“如果想做一个统一的标准,放之四海而皆准的标准或者软件生态,是非常难的。”张献涛解释说,当每家软件栈不一样时,DPU要处理的数据格式也都不同,因此很难将这样的一个完全固化、做出统一的东西。▲阿里巴巴集团研究员、阿里云弹性计算产品线负责人张献涛05 配合软件迭代节奏,升级安全可信功能 经过四年的历练,神龙架构积累了哪些优势?又如何取得超越AWS Nitro的性能?张献涛首先提到「快速迭代」。做软硬融合,需要架构随着软件迭代而升级改造。研发一颗ASIC的周期大概是24个月起步,这对于互联网软件迭代的节奏来说,实在太久了。因此,阿里云神龙采用FPGA的模式来做,并且做到了FPGA和配套系统软件全面在线实时热升级的能力,以便每周均可升级,通过灵活地持续优化,最终实现更极致的性能。“到今天为止,最适合做DPU的还是可编程可升级的FPGA。”张献涛亦谈到选用FPGA的局限性,随着将更多功能做到DPU里,FPGA的逻辑单元数等可能会制约DPU的发展,这就更需要技术人员不浪费每一个逻辑单元把必要功能和性能做到极致。要做出好的DPU,对于「软硬件融合设计的理解」也必须到位。这是一个从软件、硬件到对应固件和上层系统不断迭代的过程。软硬件之间的接口甚至寄存器的设计,都需与软件充分融合,如果企业对自己的软件掌握程度很高,又对软硬件协同的思路、对架构和相关协议理解深刻,才能逐步打磨好性能。第一代神龙的网络转发做到了每秒600万数据包,当时Nitro大约为每秒300万;经过更多数据链路上的任务改用硬件加速,第三代神龙做到2400万,最新一代更是做到了5000万。传统RDMA组网能力通常为千台规模,而第四代神龙的eRDMA组网能力可至数10万台,真正实现了RDMA能力的通用化和平民化,助力高性能计算以及当前流行的云原生软件架构的发展需求。此外,新一代神龙加入了对「可信计算与加密计算」的支持,实现系统可信防篡改与数据可用不可见,确保客户对「安全」的要求。后续阿里云计划在所有数据链路经过神龙架构时做更多预处理,从而大大提升DPU的计算效率。原来计算1万条数据,所有数据都落到内存里挨个算,现在做预处理后可能只需要计算50条,这样一来,效率就提升了数倍。据张献涛透露,接下来,除了做到速度更快、带宽更高、延迟更低、每秒IO次数更多外,神龙架构还将在性能、稳定性、安全性方面层层加码,推动神龙作为加密计算的载体。06 结语:未来走向,破解内存墙难题 随着DPU一路走俏,云计算厂商陆续通过自研或投资的方式谋篇这一赛道,一些DPU设计创企亦开始崭露头角。“我们2017年神龙的架构就公开了,大家都在follow这个标准来做,今天发展到这样的程度,我们觉得还是挺欣慰的。”张献涛认为,DPU发展正在走入正轨,更多人意识到它的重要性对于业界是一件好事,它将提升整个云计算的效率。DPU本质上是一种基础软硬件协同设计的系统,从研发出来到一些种子用户去用起来,需要两三年时间。他相信,未来两到三年内,DPU的热度都将持续,但到一定的阶段,它会像今天做AI芯片一样走向收敛,一些不正确的思路将被逐渐淘汰掉。面向未来,DPU领域可做的东西还很多。比如新兴的存内计算,本质上要解决的问题与DPU是一致的,即如何减少数据搬移,从而提升计算效率和降低功耗。所有数据经过DPU时都可以进行一次存内计算过滤,只有有效的数据才会进入主CPU内存,这样整个计算系统的性能也将会数倍的提升。“纵观未来,你会发现尤其是今天异构计算变成潮流的情况下,几乎所有DPU努力的方向都是为了解决掉内存墙带来数据处理效率下降的问题。”张献涛相信,未来DPU的发展值得期待,并将一定和某种业务结合度越来越高。(本文来源于芯东西 ,作者心缘)
AI黄金新十年,浪潮奔涌向何方?
AI技术面世已有数十年时间,不过正式商用却不过才十年光景。2010年前后,谷歌、百度等互联网巨头探索将深度学习技术应用到搜索等业务,成为AI技术走出实验室的开端。接下来的十年AI技术经历“黄金十年”大发展,深度学习技术日益精进,2016年AlphaGo战胜李世石则让AI技术的价值举世皆知,加速AI产业化进程,AI被应用到更多场景,改变着人们的生活与工作,影响着社会的治理与运转。量变终将引发质变。2021年将是AI技术从“AI产业化”向“产业AI化”转变的分水岭,AI迎来黄金新十年,计算格局将因此被深刻改变。产业AI化加速,AI迎来“黄金新十年”2020年,LSTM发明人、深度学习元老Jürgen Schmidhuber的文章《深度学习十年简史》在AI圈广为流传。在文中,Jürgen Schmidhuber回顾了深度学习技术自2009年兴起以来的发展历程,总结到:在2010年代,人工智能在虚拟世界中表现出色,例如游戏、互联网、营销。“在2020年代,活跃的AI(Active AI)将越来越多地入侵现实世界,驱动工业流程、机器和机器人,就像电影中表现的那样。”他提出“现实AI(Real AI)”的说法,指出“现实AI”会影响到人类所有的生产,因而成为经济发展的更大部分:“2020年代几乎所有AI研究都将致力于使人类的寿命更长、更健康、更轻松、更快乐。自1941年以来,每5年计算机的价格就会便宜10倍 。这种趋势不会很快消失,每个人都将拥有廉价但功能强大的AI,从许多方面改善她/他的生活。”简言之,过去十年AI技术主要在数字世界发挥作用。虽然百度等巨头在积极推动AI应用到传统产业,但AI依然只是在各行各业的少数场景被规模应用,科技强相关行业成为AI应用主力军,这是AI产业化阶段;接下来AI则会全面渗透到真实世界,各行各业都会大规模应用AI技术,“现实AI”将无处不在,如同电一样,这就是产业AI化阶段。2021年将是AI产业化向产业AI化阶段全面转变的分水岭。在中国市场,产业AI化加速更是天时地利人和。中国市场规模巨大,经济基础厚重,应用场景丰富,在发展AI上向来强调应用与技术并举,《促进新一代人工智能产业发展三年行动计划(2018-2020年)》等政策明确强调AI的应用落地,中国AI玩家也强调AI在业务场景中的应用。在人才、算法、算力等AI基础设施相对成熟后,AI大规模应用的时间点已经来临。不约而至的疫情,更是让全社会对智能化达成高度共识。疫情期间我国提出“新基建”战略,人工智能是其重要组成部分之一。已经结束的地方两会也表明,全国多地正加速建设数字经济、发展人工智能产业、加快产业智能化升级。后疫情时代,经济复苏迹象明显,数字经济成为破局的关键点之一。2021年是十四五开局年,在十四五规划纲要中,“科技”出现36次,“数字”出现17次,“智能”出现7次。规划纲要明确指出要“推动互联网、大数据、人工智能等同各产业深度融合。” “AI与产业融合”即AI产业化被国家战略重视。企业也已就AI的价值达成共识。2020年底,IDC报告就曾预测到2021年至少有65%的中国1000强企业将利用自然语言处理、机器学习和深度学习等AI工具,赋能60%在客户体验、安全、运营管理和采购等业务领域的用例。天时地利人和,2021年人工智能将从小范围应用走向大规模落地。如果说前一个十年是AI技术的“黄金十年”,那么下一个十年则是AI应用的“黄金新十年”。AI计算需求大爆发,挑战却日益严峻随着产业AI化加速,数据正在快速膨胀且结构日趋复杂,而AI本质是对数据的学习、挖掘、训练和推理,因此,AI计算量出现指数级增长,同时AI计算变得更复杂:边缘计算兴起,云端协同成为新的核心计算架构;融合视觉、语音、语义等AI能力的多模态计算,正在取代古典计算成为主流;自动驾驶等实时AI应用,对计算时效性、准确性、稳定性提出更高要求;计算成本日益高涨,降本增效成为普遍需求;……种种挑战下,IT时代基于冯诺依曼结构的通用计算,已越来越难以满足AI计算需求,比如流行的X86、ARM等芯片架构就很难适应AI计算“大、多、杂、散”的计算需求,因此面向AI的新计算架构出现就是一种必然。瞄准AI时代计算需求的变迁,服务器巨头浪潮在2016年提出“智慧计算”战略,明确智慧计算框架;2017年系统完成以AI为核心的智慧计算业务布局;2020年4月提出智算中心概念,智算中心具有开放标准、集约高效、普适普惠的特征,是智慧时代最主要的计算力生产中心和供应中心。AI计算需求的爆发式增长,证明浪潮布局智慧计算“押对了宝”。根据IDC 2020Q4《中国x86服务器市场季度追踪报告》和2020H2《中国加速计算市场半年度追踪报告》,AI计算在计算产业中地位越来越重要,2019年AI计算占整体计算的12.41%,2020年提升至16.10%,预计2023年该比例将达到18.18%。AI计算将取代传统计算成为未来的主流形态。各地快马加鞭地建设智算中心,难以满足爆炸式增长的AI计算需求。与此同时,产业AI化阶段,AI计算迎来新一轮挑战。在浪潮数据中心合作伙伴大会(IPF)2021上,中国工程院院士,浪潮集团执行总裁、首席科学家王恩东指出,计算产业正面临着“多元化、巨量化和生态化”的新挑战。首先是多元化。多元化是相对于IT时代计算的场景通用性而言。AI带来更多计算类型,AI推理、AI训练、大数据等都需要不同的计算类型,有的对数值精度要求很高,比如地震波模拟的科学计算,有的则要求速度快、能耗少,对精度要求相对较低,如AI推理。AI计算多元化和代工模式兴起等原因导致芯片种类繁多,进一步增强AI计算多元化的特征。其次是巨量化。巨量化指计算模型需求的指数级增长正在挑战算力极限,主要体现在三个方面:1、数据和模型巨量化。以自然语言处理为例,其训练模型参数正在飙升,2020年GPT-3模型的参数量首次突破了千亿大关,达到1750亿,预计到2023年模型参数量会突破百万亿。巨量模型正在挑战内存与存储的极限。2、算力需求指数级增长,深度学习从2011年兴起到今天,算力需求每隔3、4个月翻一倍。随着产业AI化,AI更大规模的普及应用,算力需求增长曲线或更陡峭。3、模型应用规模大,AI正在被应用到海量场景,比如互联网巨头的AI开放平台每天要承载着数万亿次的调用量、数百万小时的语音识别、超过百亿张图像社别、超过万亿句自然语言的理解,如此巨量的调用对计算中心的算力和应用能力产生极大挑战。最后是生态化。主要体现在产业链与应用落地的脱节上,直接制约了产业AI化。一方面,供给侧与落地侧的供需无法有效结合,导致有技术的找不到产品,有产品的找不到技术的难题。埃森哲的调查显示,70%以上有技术的研究机构和科技公司缺少需求场景、领域知识和数据,70%以上的行业用户缺少技术人才、AI平台和实践能力,即有技术的没场景、有场景的缺技术,“锤子与钉子”的高效连接日益迫切。另一方面,微软、谷歌等科技公司自建从芯片到架构的生态闭环,像一座座烟囱,缺乏横向打通和整合。IT时代少数科技巨头建立标准,行业再拼积木一样地应用,问题较小;不过AI产业却呈现出高度离散、碎片和多元的特征,AI算法、框架、芯片架构、指令集与编程库五花八门,严重制约AI技术的应用和发展。2016年就战略布局智慧计算的浪潮,事实上已成为AI计算的Key Player,形成了技术、产品和生态壁垒,事实上成为AI计算的探路者、推动者和基建方。身处产业中心、立于AI潮头,浪潮对AI计算的洞见一直都在深刻地影响着行业。早在2017年浪潮就认为未来社会计算的80%是智慧计算,提出“计算力是AI发展的基本动力”;2018年IPF大会上提出“计算力就是生产力”的观点,其认为计算力对于智慧时代,就像电力对于电气时代,是衡量社会和经济发展水平非常重要、非常关键的一个指标;2019年浪潮明确提出人工智能是智慧计算的核心,代表智慧计算发展方向,人工智能产业向开放、融合、敏捷、生态方向发展;2020年提出的“智算中心”构想已得到业界认可与接纳。时间一次次证明了浪潮关于AI计算和智慧计算的预判。浪潮本次提出AI计算“多元化、巨量化与生态化的挑战”,在前几年就已初现端倪,只不过产业AI化时代这些挑战更加严峻,身处AI计算产业中心的浪潮对此更有发言权。前些年AI应用只是“涓涓细流”,产业AI化才是“大江大河”:AI会应用到更加广泛的场景,AI计算会进一步“多元化”;AI会被更大量的应用,AI计算会更“巨量”;AI有利可图,各个国家与企业均在战略布局,AI生态分崩离析的态势只会愈演愈烈。多元化、巨量化和生态化的挑战成为产业AI化的拦路虎。如何应对?王恩东院士认为:多元化、巨量化、生态化的挑战和困难亟需解决,计算技术和产业需要构建新的发展格局,计算向智慧计算转型,多元算力融合,智算中心基建化是接下来的趋势。计算格局生变,浪潮如何继续弄潮?挑战与机遇同在。回顾计算发展历程不难发现,每一次技术变革都会对计算产业格局产生深远影响,比如在芯片市场,互联网的兴起让Win-Tel联盟坚不可摧;移动互联网到来却改变了游戏规则,ARM阵营强势崛起,X86溃不成军;AI时代越来越多AI芯片玩家浮出水面,昔日王者被挑战。前些年,浪潮在AI计算上持续深耕,拥有全球领先的AI算力供应能力。在AI计算技术层面,浪潮具有全球竞争力,2020年在自动机器学习的全球顶级赛事NeurIPS AutoDL中获总决赛第三,问鼎全球顶级计算机视觉挑战赛CVPR VQA世界冠军,浪潮已成为全球人工智能技术标准的参与和主导者;在AI计算产品层面,浪潮提供业界最全的AI服务器产品,拥有覆盖训练、推理、边缘AI场景的全栈产品阵列,提供GPU\FPGA\AISC等多元化架构支持。同时提供Caffe-MPI、AIStation、AutoML Suite等深度学习框架、资源管理平台和应用优化等全栈AI能力。押注智慧计算的浪潮在一众服务器巨头中逆势增长。IDC数据显示2021年3月浪潮以16.4%的市场占有率位居全球AI服务器市场第一,在中国市场2020市占率高达54.7%,连续四年市占过半,稳居第一。AI服务器的成功,对浪潮服务器保持全球第三,中国第一的地位功不可没。AI黄金新十年,浪潮如何抓住产业AI化红利?从IPF2021大会上透露的信息来看,浪潮采取的是一贯的思路:想方设法解决计算行业面临的挑战,帮助客户解决实际的计算问题,市场份额、业务增长与商业价值就会随之而来。浪潮在IPF2021年上推出新五年计划,在技术、产品、方案和生态四个维度发力,包括创新智算体系结构、构建智算产品体系、推动智算中心落地和建设元脑产业链生态,来帮助行业清理多元化、巨量化和生态化三只拦路虎。首先,计算架构是计算的“顶层设计”。浪潮提出“面向应用的硬件重构+软件定义”的智慧计算创新体系架构“融合架构3.0”:硬件层将计算、存储、网络等资源分类进行资源整合,同类资源池化后不同设备间可任意重组;软件层面利用主动业务资源需求智能感知技术,进行自适应硬件资源重构、动态组合和智能分配,简单地说,这一架构在软件定义计算、软件定义存储、软件定义网络的基础上,通过具备应用感知的资源管理和调度系统,为智算中心建立起一套具备智能化的操作系统。这一架构摒弃了通用计算的“控制与计算融合、计算与存储分离”的理念,而是将控制与计算分离、计算与存储融合,再利用智能网卡来实现多元算力融合,最大化计算效率,克服多元化与巨量化的计算新挑战。其次,软硬件产品是计算的核心组件。浪潮提供全新异构融合产品,通过完整的智算产品体系,化解智算多元化、巨量化挑战。围绕智算中心的算力、数据、互联以及平台,浪潮已形成完整、成熟的创新产品体系布局:算力层可提供AI算力、通用算力、关键算力以及边缘侧算力;存储层涵盖集中、分布式数据存储以及大数据分析平台;互联层拥有开放网络系统以及实现加速数据流动和调度的智能网卡;平台层拥有具备软件定义特征的元脑OS,在实现智算中心的智能化管控和运维的基础上,提供算力的汇聚、调度、释放。在IPF2021大会上,浪潮推出一揽子的异构融合AI计算产品:AI视频加速器及具备极致视频AI分析的VPU SERVER;采用NVIDIA A100 Tensor Core GPU的全新服务器NF5488;与寒武纪联合研发扬子江AI服务器,业界首款搭载8颗寒武纪最强思元290 AI加速卡,单机输出AI算力高达4096TOPS;AIStation训练版、推理版:AIStation 训练平台可实现计算资源统一分配调度、训练数据集中管理并加速、模型流程化开发训练;AIStation推理平台-为企业提供可靠、易用、灵活的推理服务部署及计算资源管理平台。可提升AI应用生产效能的AutoML Suite;面向智慧计算的全新M6服务器,聚焦多云、边缘计算、人工智能等多样化应用场景需求;面向关键计算的K1 Power高端服务器,具备“三高一强”特征;面向边缘计算的EIS800系列智算边缘微服务器。在涵盖算力生产、聚合、调度、释放等环节的AI算力产品外,浪潮针对数据资源构建全新计算框架、面向集中式存储推出具有极致性能的全闪阵列产品、推出具有“多合一”架构的分布式存储系统,可提供多种主流架构数据套件的智能存储产品浪潮云海Insight。基于SONiC构建的Inspur NOS则可帮助超大规模智算中心实现网络敏捷管控、资源集中调度和网络自动管理,智能网卡可化解智算中心网络流量调度复杂挑战。智算中心操作系统元脑OS则可充分释放算力、实现智能化运维。可以看到浪潮AI计算产品体系正在日益完整,且思路清晰:1、不只是提供算力产品,而是涵盖AI计算特别是智算中心所需的各种基础组件,如智能存储、智能联接、运维系统等;2、与寒武纪等不同领域的顶尖大鳄联合共创,各展所长;3、面向视频等垂直AI应用针对性地推出专用AI产品;4、针对通用、关键与边缘等不同计算场景推出针对场景优化的融合产品。再其次,智算中心是AI时代的计算新基建。数据中心是IT时代面向通用计算的基建,已难以满足AI时代的AI计算需求。针对此,浪潮在2020年提出智算中心的构想,是提供AI计算所需的算力服务、数据服务和算法服务的公共算力新型基础设施,在AI时代将扮演算力生产供应平台、数据开放共享平台、智能生态建设平台和产业创新聚集平台等多重角色。智算中心普及,可降低全社会AI应用成本、加强政府社会治理能力、增强企业创新转型动能、推动人工智能产业聚集。智算中心是化解AI计算“多元化、巨量化和生态化”的终极解决方案,浪潮积极推动智算中心落地:一方面,“开放标准”是智算中心三大特征之一。浪潮依托开放计算战略推动智算中心标准开放。作为OCP、Open19和ODCC全球三大开放社区成员,浪潮拥抱开放设计、参与开放标准制定,力争让智算中心可以成为不同模块的堆叠,实现“装配式”建设。2020年9月,浪潮联合国家信息中心发布《智能计算中心规划建设指南》,明确智算中心的概念、内涵、功能定位和技术架构,初步探索智算中心建设的技术路线和实施路径,探讨建设智算中心的经济社会价值,为地方健康有序开展智算中心建设提供借鉴和参考。另一方面,浪潮与合作伙伴积极打造智算中心标杆:与寒武纪联合给南京建成智能计算中心,已投入运营的部分已达到E级计算能力,即支持每秒百亿亿次人工智能基本运算;助力OPPO打造的智能计算基础设施,支撑着OPPO的机器视觉、自然语言处理、知识图谱、对话技术、推荐与搜索算法等前沿AI创新,支持OPPO 多终端智能服务,助力OPPO IoT战略落地;与荣联科技、趋动科技一起给西湖大学建设智算中心,成为我国高校中AI算力架构最优,人均AI算力最高,可共享弹性资源最多的顶级人工智能智算平台。最后,开放的AI计算生态可以推倒“烟囱”,拉通社会AI计算资源,克服“生态化”挑战。技术层面,浪潮是开放计算的核心玩家,多年来一直践行开放计算的理念,引领开放计算的标准,是全球唯一的三大开放组织成员,牵头服务器全部国标。生态层面,2019年IPF大会上浪潮发布了“元脑生态计划”,聚合社会化AI计算资源助力产业AI化。在IPF大会2021上,浪潮发布元脑生态2.0计划,吸纳智算合伙人,整合技术、产品、方案和服务能力,实现生态伙伴的业务聚合、资源聚合和战略聚合。一体化智算产业聚合平台AI Store则将成为元脑伙伴能力的“聚合器”和“孵化器”。写在最后发现趋势不难,难的是抓住趋势。很多科技企业都意识到AI是未来的技术趋势,不过今天真正具有技术核心竞争力的AI玩家却屈指可数。不少计算巨头早已意识到AI带来的计算挑战与机遇,但抓住机遇的玩家却是凤毛麟角。浪潮算是“知行合一”的玩家之一,在一次次准确判断智慧计算的趋势的同时,躬身入局,笃定地进行AI计算的战略布局。2018年前后很多人认为AI技术存在较大泡沫时,浪潮提出“AI计算力就是生产力”的观点,同时不断完善AI产品线、夯实AI计算基础技术、依托JDM模式与百度等AI先行者探索AI服务器大规模定制化生产交付的敏捷创新。正是有着“因为相信而看见”的信念,正是因为日拱一卒的深耕,正是因为架构、技术、产品和生态齐头并进的发展策略,浪潮才得以持续引领AI计算,面对一众同行重注AI计算的追赶依然可以保持领先,吃到AI计算红利的最大蛋糕。从IPF2021年来看,AI黄金新十年,浪潮不只是洞察到了计算行业新的挑战与机遇,同时也已做好准备迎接自己的黄金时代,同时推出全新的计算架构、发布一揽子产品、完善开放计算生态、推动智算中心落地,解决客户的计算新挑战,顺带获取属于自己的价值。正如丘吉尔所言:“这不是结束,甚至不是结束的开始,只是开始的结束。”“黄金新十年”不是AI应用落地的结束,而是AI全面爆发的开始。LSTM发明人、深度学习元老,Jürgen Schmidhuber在《深度学习十年简史》一文指出,“在更遥远的未来,大多数能自我驱动、自我复制,具备好奇、 创造力和意识的 AI将会运用于大多数物理资源所在的地方,最终征服和改造整个可见宇宙,这可能是众多可计算宇宙的其中之一。”我想“万物皆可计算”才是AI的星辰大海,才是浪潮奔涌的方向。
从芯开始,解读华为云的全栈全场景与全球化布局
这两天,ICT业界最关注的事件莫过于HUAWEI CONNECT 2018,也就是第三届华为全联接大会了。而其中的焦点,则是华为轮值董事长徐直军发布的两款覆盖全场景人工智能的华为Ascend(昇腾)系列芯片以及基于华为Ascend(昇腾)系列芯片的云服务和华为全栈全场景AI解决方案。什么是全栈全场景?华为云又因此获得哪些优势?想必一定是云计算行业关注的重点。何谓全栈全场景所谓全栈全场景,在华为的标准说法是:华为在业界率先实现全栈和全场景AI解决方案。这里面所说的全栈,是技术功能视角,是包括芯片、芯片使能、训练和推理框架和应用使能在内的全堆栈方案;而全场景则包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等在内的全场景部署环境。当然这里面所说的全栈全场景,是特指AI,因为华为有AI芯片、AI产品和解决方案,也有云、边缘计算和终端。而对于云来说,几乎所有的云计算用服务器都采用的是Intel的处理器,Intel本身又不做云,因此刨除芯片,ICT基础设施的四大件——服务器、存储、网络、安全,华为均有覆盖,特别是网络能力,是大多数云计算提供商所不具备的,也是华为的优势所在。华为全栈全场景AI解决方案举个例子,在芯片方面,华为不仅发布了AI芯片,实际上也一直在用自己开发的网络芯片,比如业界首款单芯片100G云智能网卡,使得网络率先进入到100G的时代。“我们通过100G的云智能网卡实现了网络转发能力的突破,这实际上是得益于芯片控制架构层面做到类NP的架构,从而实现了数据中心内部百万节点的网络连接。”华为云BU CTO张宇昕解释说,“NP架构过去是运用于运营商领域的,正是华为在这一领域长期的积累,才使得华为的云智能网卡在单芯片SoC和多协议的基础上,性能达到过去业界最佳的2.5倍,功耗低50%,带给从虚机到容器、到Serverless应用后更大规模计算节点的支撑。”显然,华为是业界为数不多的能够把企业的数据中心网络、云接入网络、华为云数据中心的内部网络以及华为云骨干网络协同起来的进行端到端创新的云服务商。端网云协同研发“企业数据中心网络是华为私有云的网络方案;云接入和云骨干本质是运营商网络,华为一直在从事这个领域的工作;华为云数据中心里面的网络由华为云BU在持续创新。”在张宇昕看来,华为不仅仅具备全部能力,而且关键是华为能进行端到端的协同创新,这一点充分体现了华为在运营商和企业的技术积累对华为云的帮助。换句话说,华为Cloud BU虽然成立时间不长,但实际上是站在巨人的肩膀上前进。据了解,华为的创新分为三类:第一类是基础技术的创新,比如芯片,无论是计算的芯片、存储的芯片、网络的芯片,比如软件,从操作系统、数据库到虚拟化、分布式的技术,比如大数据、AI的创新,华为用OCR的技术来处理自己的工程交付文档,便于新人或新项目找出有经验的参考,而这些,很多是在华为没有成立云BU之前的已有基础,无疑是云BU可以利用的。”华为自己内部叫做三代战略,应用一代、开发一代和研究一代。”张宇昕介绍说,“现在我们看到的市场上华为销售的产品和服务都是应用一代了,而开发一代和研究一代是华为过去八年研发投入将近4000亿人民币的投资。”据悉,华为在北美大约有将近20个研发中心,在欧洲也有30多个研发中心,都是跟当地的研究机构、学校、公司建立很好的创新连接。去年,华为的研发投入在全球高科技公司里已经排名第六。而这些基础研究,是华为的第二类创新。华为的第三类创新是面向客户场景的技术创新,其中包括在客户业务场景下的工程方案和面向业务的使能技术。“在2011年,华为由单一的运营商业务拓展到企业和消费者业务,使得华为形成了‘端、网、云’协同的优势。”在张宇昕看来,华为通过几年的时间,在中国主要的行业市场里积累了丰富的经验,只有跟客户不断进行联合创新,才能理解客户的要求,从而突破这一类的技术。“大家看到很多互联网客户上到华为云上面来。他们为什么使用华为云?是因为我们基于Intel V5的计算实例性能达到业界领先,是因为华为网络的优势,可以帮助互联网客户提性能,支持客户的高峰流量能够平稳渡过,这都是面向客户场景经验的积累。”据张宇昕介绍,在电信、金融、医疗、教育、互联网等各个领域,都有很多客户采用了华为的IT方案和华为云,因为华为与这些行业客户长期合作,理解了他的业务,也更好地理解了他们对于云基础设施和IT基础设施的要求。全球化AI布局在笔者看来,正是有了“端网云协同研发”和“全栈全场景”的基础,才使得华为在2017年年底确定了新的愿景和使命——“把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界”,华为希望每个人、每个家庭、每个组织都能“+智能”,从智能中受益。事实上,华为认为未来10年,各行各业的ICT主战场在于AI,因此将平台+生态的战略升级为“平台+AI+生态”,华为云也是如此,在AI基础算力上,华为云将提供从虚拟机、容器到裸金属各种形态的服务,从“芯”开始,全面进入AI时代。值得一提的是,AI的关键一个是计算力,另一个是算法,算法的基础是数学,而在数学和算法上,华为的投入和布局是全球化的。“华为十几年前建立的第一个华为数学研究所在俄罗斯,在那里面招募了一批俄罗斯顶尖的数学家;后来华为又在法国巴黎开了数学所,近年来在东欧也在陆续建立新的研究所。”张宇昕介绍说,“我们在EC加速方面核心算法比别人优就是来源于俄罗斯的数学家帮助我们很多年在算法上的积累,无论是磁盘的利用率,还是在开启重删压缩的时候性能不下降等技术都是业界领先的。今天华为把这些技术放在云上,都是华为的独创。”事实上,今天华为做每一个业务,都是从一开始就是全球化的,而华为云也不例外。据华为云BU副总裁邓涛介绍说:“在中国、亚太、非洲、中东等区域,华为主要发展华为云;在欧洲、拉美和中国等地,华为与主流的运营商合作发展伙伴公有云,包括与德国电信、中国电信、西班牙电信、Orange等进行联合创新,助力中国企业走出去,海外企业走进来,推动全球数字经济发展。”据悉,华为云香港站在2018年3月开服,俄罗斯站同月开服,而且华为云是唯一一个在当地落地的全球化公有云提供商;2018年9月,泰国投资促进委员会(BOI)授予了华为运营公有云的许可证,华为云泰国站正式上线提供云服务,同样是泰国首家本地云服务国际供应商。我们知道,公有云厂商提供全球化运营服务的关键在于,后台需要有一个高效且自动化的全球运维管理平台。而华为同样在这一领域早在2014年就开始了每年1000多万美元的投资和建设,打造大运维平台,支撑各个业务部门精兵作战,来实现业务的降本增效,永远在线。据了解,如今华为全球计算资源的利用率从28.45%上升到了70.89%,大多数应用访问性能从10秒降到了3秒——华为的SmartIT运营平台和eSee平台架构,实现了端到端全栈“毛细血管级”的数字化运营,管理着华为全球200多个数据中心,5万多个机柜,30多万台服务器,1000+PB的数据、百万级的VM和多个异构的云环境。或许正是因为此,华为云如今已经在短短一年时间内,已经上线了18大类,128个云服务,以及ICP、IoT等60多个通用解决方案,聚焦电商、游戏、金融、互联网等80多个领域;华为云EI在城市、制造、物流、互联网等8大行业,超过200个项目进行探索和应用;华为云云市场新增上架应用已经达到1500个,发展的合作伙伴超过6000家,超过9万名的开发者。有数字显示,2018年上半年,华为云收入同比增长7倍。如今,华为云“从’芯’开始,全栈全场景布局,坚持平台+AI+生态战略的背景下,或将迎来AI时代全新的跨越式发展。
浪潮发布全新智能网卡,宣布建立NFV开放实验室
6月14日消息,由Linux基金会组织的OPNFV Summit在北京举行,会上,浪潮联合中国电信展示了首个运营级NFV(Network Function Virtualization)整机柜解决方案,并共同推出面向NFV技术优化的智能网卡,浪潮还宣布建立“NFV开放实验中心”。
细节方面,该NFVI方案支持两路、四路和八路节点混插,整机吞吐量1.2Tbps,可扩展80个10G/25/40G/100G网卡、160端口。
就智能网卡的配置方面,经过实际测试,配置40G双端口的智能网卡,在报文长度1280byte基准测试下,该方案吞吐量75000Mpps,效能提升4倍;同时,在提供可扩展的、基于服务器的网络功能时,CPU的占用仅有原来的1/10。该网卡实现对x86服务器处理器资源的释放,提升网络处理性能,加速NFV解决方案的落地。
此外,浪潮还宣布建立面向ICT融合的创新中心——NFV开放实验中心,并组建NFV专业技术团队,加速推动NFV解决方案的落地。该实验中心将作为联合方案平台携手更多合作伙伴在NFV领域进行开发、认证和授权,提供NFV整体方案。
本文转自d1net(转载)
参加2017开放数据中心峰会,探2020数据中心网络十大热点问题
随着互联网和云计算行业的快速发展,数据中心网络的重要性前所未有的凸显。展望2020年,数据中心网络技术会有哪些热点问题受业界关注,面临这些技术热点问题你会如何应对?
热点10:SDN的浪潮下,CLI/SNMP运维管理方式是否会被淘汰?
上榜指数:
上榜原因:CLI/SNMP难以满足大规模网络运营管理的要求。
CLI命令行和SNMP简单网络管理协议可以说是和网络设备历史一样悠久的古老运维管理技术手段,特别是CLI敲打如飞一度是CTO(Chief Troubleshooting Officer)的体现。今天大部分企业的网络运维管理系统仍然依赖CLI和SNMP,然而CLI和大量SNMP MIB的私有性导致适配工作量很大,同时CLI和SNMP在大规模网络场景下性能和实时性差、可靠性差的缺点也凸显出来。
随着Openflow、OVSDB、gRPC、Openconfig、RestAPI等技术手段的不断出现和发展,预计2020年,Telemetry的订阅和推送机制、RestAPI、Yang model数据结构的组合也许会成为新一代数据中心网络运维管理系统的主流选择,取代CLI/SNMP。
热点 9:智能网卡发展迅猛,会取代现有服务器网卡吗?
上榜指数:
上榜原因:网卡容易被忽视,但它的重要性日趋明显。
过去的几年中,网卡从千兆网卡变成万兆网卡,以及25G网卡,速率不断提升,并且网卡还可以通过SRIOV、TSO等技术提供性能加速。然而,工程师们对网卡有更高的期望,比如将Open VSwitch、DPDK、Vxlan等软件特性由网卡实现,提高服务器网络性能、降低时延、节约CPU。对公有云企业来说,一台服务器只要能节约出一个CPU核,就可以在不长时间内把服务器智能网卡额外的成本收回来。
可以预计,在2020年,智能网卡将会成为公有云服务器、网关类服务器、NVF服务器的标配。
热点 8:核心交换机功耗越来越高,你的机架电力和散热还撑得住吗?
上榜指数:
上榜原因:机架真的快撑不住了。
在万兆时代,一台满配36*40G线卡的16槽核心交换机需要10~12KW以上的机架电力支持;在25G时代,一台满配36*100G线卡的16槽核心交换机将这个数字提高到18~20KW;
在2020年的50G/100G时代,一台满配36*400G线卡的16槽核心交换机对机架电力的要求预计很可能会高达30~40KW。30~40KW的机架不仅电力改造的成本非常巨大,而且传统风冷散热非常困难。
可以预计,如果2020年IDC机架液冷散热技术仍然不能大规模普及,核心交换机采用8槽甚至更小的机箱降低单机功耗是更为可行的选择,代价是需要解决网络核心设备数量大幅增加带来的额外管理、架构设计等问题。你的网络架构做好准备了吗?
热点 7:交换芯片体系架构,缓存会成为瓶颈吗??
上榜指数:
上榜原因:缓存对数据中心应用的影响不可忽视。
大部分交换芯片的片上缓存都不大,一般都是几十MB,比如Trident 2是12MB,Trident 3是32MB,甚至有些交换芯片按pipeline分割使用缓存。网络端口速率从千兆发展万兆再到25G,服务器的全速率发送能力增加到25倍,交换芯片缓存与此同时仅增大为2~3倍左右。如果用同样的全速率发送流量模型进行测试,会发现25G网络下多打一导致的Tcp in_cast现象比万兆网络更加明显,相应的对业务和应用的优化要求或丢包率容忍度要求会更高。当然,我们知道Tcp in_cast并不是通过缓存能够避免发生的,相反过大的缓存还可能会导致网络时延的大幅增加。
预计2020年,受制于时钟、总线带宽的能力缓存性能难以大幅提升,考虑到功耗、成本的平衡缓存容量也不会大幅增加,而我们可能要通过适度轻载、部署优先级、端到端实时性流控等方式尽可能优化对时延和丢包敏感的关键业务流量的性能,如RDMA流量。
热点 6:可编程芯片,是否会广泛应用?
上榜指数:
上榜原因:P4及可编程技术打开了网络的另外一扇门。
长久以来,网络工程师们面对的是功能固化的交换芯片,即便是openflow等SDN技术,也只能在传统转发pipeline上通过ACL等表项模拟所需的转发行为。然而以Barefoot等为代表的新一代可编程交换芯片提供了改变这一现状的机会。这类芯片在提供同等转发性能的同时,可以让网络工程师对转发Pipeline的部分行为进行定制化设定。
然而,我们真的需要在线的交换机随时可以通过芯片级编程来改变转发行为吗?似乎网络工程师们还看不到这样的迫切需求。但毫无疑问的是,可编程芯片已经为自定义INT(In-band Network Telemetry)、下一次支持类似vxlan封装等这类场景做好了准备。
可以预计,2020年,会有很多网络工程师利用可编程芯片验证新的类似INT的运营管理手段,验证vxlan、service chain、openflow等类似应用,以便确定线上最终部署所需的芯片工作模式。至于最终线上部署的交换芯片是否应该是可编程芯片,我的答案是,如果价格足够便宜、稳定性足够高、性能足够好,为什么不那?
本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
基于IP SAN的ISCSI的存储系统
前言
最近公司的平台进行了升级,每天都产生很多的日志文件与数据文件,之前的服务器磁盘大小不符合最新的平台要求,磁盘空间一直处于90%左右,我也一直收到磁盘空间的报警邮件(由于我对磁盘做了脚本的监控,如果磁盘空间使用达到90%就发送报警),所以我提出了一个建议,使用“基于IP SAN的ISCSI的存储系统”,这样可以在不改变现有的架构下、不花费钱(如果你不买HBA卡的话)、最简单的搭建存储系统。
下面是iscsi的介绍(从网上找的)
一、Linux网络环境iSCSI技术的实现主要有三种方式:
1.纯软件方式
服务器采用普通以太网卡来进行网络连接,通过运行上层软件来实现iSCSI和TCP/IP协议栈功能层。这种方式由于采用标准网卡,无需额外配置适配器,因此硬件成本最低。但是在这种方式中,服务器在完成自身工作的同时,还要兼顾网络连接,造成主机运行时间加长,系统性能下降。这种方式比较适合于预算较少,并且服务器负担不是很大的用户。目前不论是MicrosoftWindows、IBMAIX、HP-UX、Linux、NovellNetware等各家操作系统,皆已陆续提供这方面的服务,在价格上,比起前两种方案,远为低廉,甚至完全免费。但由于Initiator驱动程序工作时会耗费大量的CPU使用率及系统资源,所以性能最差。在此建议,最好是采用1GHz以上CPU的主机,如此才能获得较佳的效能表现,如果公司主机CPU在1GHz以下,那么最好不要采用。至于在各类协议的支持上,Initiator驱动程序可以同时支持iSCSI、NFS及CIFS协议。当然现在大多数服务器CPU都可以满足这个要求。这里免费的iSCSIInitiator驱动程序,才可以将一般Gigabit网卡仿真成iSCSIInitiator。然后再透过iSCSI桥接器将一般SCSI接口的存储配备仿真成iSCSITarget,如此就形成一个iSCSI-SAN。
2.iSCSITOE网卡实现方式
在这种方式中,服务器采用特定的TOE网卡来连接网络,TCP/IP协议栈功能由智能网卡完成,而iSCSI技术层的功能仍旧由主机来完成。这种方式较前一种方式,部分提高了服务器的性能。在三种iSCSIInitiator中,价格比iSCSIHBA便宜,但比软件Initiator驱动程序贵,性能也居于两者之间。目前市面上Intel的TOE(TCPOffloadEngine,TCP卸载引擎)HBA价格在150美金左右。
3.iSCSIHBA卡实现方式
使用iSCSI存储适配器来完成服务器中的iSCSI层和TCP/IP协议栈功能。这种方式使得服务器CPU无需考虑iSCSI技术以及网络配置,对服务器而言,iSCSI存储器适配器是一个HBA(存储主机主线适配器)设备,与服务器采用何种操作系统无关。该方式性能最好,但是价格也最为昂贵。在三种iSCSIInitiator中,价格最贵,但性能最佳。目前价格已由一开始的1000美金左右,下降跌至500美元左右。对于有高效能应用需求的企业,最好采用iSCSIHBA卡,如此才能获得最好的性能。
二、应该使用硬件initiator还是软件initiator?
iSCSIinitiator是使用硬件还是软件要取决于多种因素,包括预算、性能要求以及服务器工作负荷。软件iSCSIinitiator能够实现成本最低的iSCSI解决方案。纯软件iSCSIinitiator使用标准以太网卡,并依靠主机CPU来处理iSCSI命令和TCP/IP栈。对于具有2GCPU的最新一代服务器来说,大部分客户工作负荷在iSCSI协议处理方面不会引发明显的性能开销。如果您的服务器拥有千兆以太网卡则对软件initiator的评测过程几乎不会有任何问题,原因是在绝大多数流行的操作系统中,initiator都是免费提供的。如果CPU较陈旧,服务器的负荷较重,则可能更适合采用硬件iSCSIinitiator。硬件iSCSIinitiator会将iSCSI和TCP/IP处理工作转移到iSCSIHBA中。其结果就是能够大幅度降低CPU的性能开销,这点堪与光纤通道HBA相比。硬件initiator还能提供软件解决方案所不具备的功能,例如支持高可用性环境的硬件多通道功能,支持密集服务器环境中的远程引导功能。
三、硬件和软件initiator如何影响应用程序的性能?
如果应用程序位于负担较轻的服务器上,在大多数情况下,采用软件initiator的iSCSI的性能开销也不会明显影响应用程序的性能。如果服务器的负荷较重,则必须采用硬件iSCSIinitiator。不过,在大多数环境中,传输带宽以及主机CPU的性能开销完全不是问题—应用程序性能问题在很大程度上要归因于存储的轴数有限(承担工作负荷的磁盘太少)。这不是协议或传输问题。这是直连式存储系统的一个普遍问题,但是采用基于iSCSI的SAN解决方案可以非常方便地解决这一问题。
四、考虑到公司使用Linux服务器使用千兆网络,而且网络负载不大,所以我使用第一种方式搭建存储系统。
环境
以上服务器的系统均是rhel5.4版本
1、服务端test2(比如安装在各省的备用服务器上)需要安装iscsitarget软件
下载iscsitarget
[root@test2 src]# wget http://sourceforge.net/projects/iscsitarget/files/iscsitarget/1.4.20.2/iscsitarget-1.4.20.2.tar.gz
解压
[root@test2 src]# tar zxvf iscsitarget-1.4.20.2.tar.gz
[root@test2 src]# cd iscsitarget-1.4.20.2
编译与安装
[root@test2 iscsitarget-1.4.20.2]# make
[root@test2 iscsitarget-1.4.20.2]# make install
启动服务
[root@test2 iet]# service iscsi-target start
加入开机启动
[root@test2 iet]# chkconfig --level 35 iscsi-target on
修改/etc/iet/ietd.conf的第35与52行
35#Target iqn.2001-04.com.example:storage.disk2.sys1.xyz
52#Lun 0 Path=/dev/sdc,Type=fileio,ScsiId=xyz,ScsiSN=xyz
修改为
35 Target iqn.2012-02.com.test:storage.disk2.sys1.xyz
52 Lun 0 Path=/dev/sda10,Type=fileio,ScsiId=xyz,ScsiSN=xyz
重启服务
[root@test2 iet]# service iscsi-target start
下图是当前的磁盘空间情况
2、客户端(比如安装在各省的引擎服务器上),安装iscsi软件
使用yum安装iscsi
[root@test5 ~]# yum install iscsi*
启动服务
[root@test5 ~]# service iscsi start
可以使用如下命令查看下iscsi-target主机划分了那些的lun
[root@test5 send_targets]# iscsiadm -m discovery -t sendtargets -p 10.1.88.178:3260
10.1.88.178:3260,1 iqn.2012-02.com.test:storage.disk2.sys1.xyz
使用iscsiadm与iscsi target建立连接
[root@test5 send_targets]# iscsiadm -m node -T iqn.2012-02.com.test:storage.disk2.sys1.xyz -p 10.1.88.178 -l
Logging in to [iface: default, target: iqn.2012-02.com.test:storage.disk2.sys1.xyz, portal: 10.1.88.178,3260]
Login to [iface: default, target: iqn.2012-02.com.test:storage.disk2.sys1.xyz, portal: 10.1.88.178,3260] successful.
从fisk可以看出,iscsi的共享磁盘为sdb,大小为10.4GB,接下来就可以通过fdisk命令对整个磁盘进行重新分区、格式化、创建文件系统了等操作了。
可以使用iscsiadm -m session --print=2来查看iscsi的状态
[root@test5 send_targets]# iscsiadm -m session --print=2
Target: iqn.2012-02.com.test:storage.disk2.sys1.xyz
Current Portal: 10.1.88.178:3260,1
Persistent Portal: 10.1.88.178:3260,1
**********
Interface:
**********
Iface Name: default
Iface Transport: tcp
Iface Initiatorname: iqn.1994-05.com.redhat:babeb593b5af
Iface IPaddress: 10.1.88.177
Iface HWaddress: <empty>
Iface Netdev: <empty>
SID: 1
iSCSI Connection State: LOGGED IN
iSCSI Session State: LOGGED_IN
Internal iscsid Session State: NO CHANGE
************************
Negotiated iSCSI params:
************************
HeaderDigest: None
DataDigest: None
MaxRecvDataSegmentLength: 262144
MaxXmitDataSegmentLength: 8192
FirstBurstLength: 65536
MaxBurstLength: 262144
ImmediateData: Yes
InitialR2T: Yes
MaxOutstandingR2T: 1
BTW:在测试环境里部署之后没有发现问题,目前已经在生产环境了进行了部署,如果各位对iscsi有建议的话,请不吝赐教,谢谢!
本文转自 dl528888 51CTO博客,原文链接:http://blog.51cto.com/dl528888/791117,如需转载请自行联系原作者
下一站AI:实时服务
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!
随着实时服务浪潮逐渐渗透进我们的日常生活,计算基础设施也开始迎来重大变化。从使用自然语言提供即时型个人智能助手,到通过店面分析生成与客户购物行为相关的结论信息,各类实时服务的出现给服务供应商带来了前所未有的巨大市场空间。
为了从这些服务中获取价值,一大基本前提就是保证数据与洞见结论的即时可访问能力;很明显,这种能力在很大程度上需要AI技术作为基础。也正因为如此,Amazon Web Services(AWS)、微软、阿里巴巴以及SK电信等云服务巨头都在开发自己的计算基础设施,用于提供这类服务方案。
数据中心运营商现在也需要优化计算以满足实时响应要求。为此,IT架构不仅要解决持续快速变化的工作负载与算法需求(主要由AI驱动),同时必须进一步提升计算资源与存储/网络资源的集成水平。
这就给服务供应商带来了新的难题:要求他们提供一套能够实现差异化优势与卓越性能,同样具备高吞吐量、低延迟与灵活软件/硬件堆栈的基础设施平台。这套平台还必须能够处理从递归神经网络、长期/短期内存网络、卷积神经网络以及基于Apache Spark集群计算框架的查询加速等实际任务。
为了建立起这样的差异化优势,服务供应商开始自主构建与众不同的硬件与软件堆栈。例如,AWS Advanced Query Accelerator就是一套包含定制化软件与可编程硬件堆栈的数据分析平台。SK电信最近也立足自家定制化软件与可编程硬件堆栈,开发出支持AI技术的语音与视频分析方案。
下一轮计算还需要具备自适应性,将软件与硬件合并在一处,且硬件与软件都要拥有可编程性以满足业务用例对于实时性能、最高吞吐量以及低延迟/低功耗的要求。随着实时解决方案的增长与人工智能技术的发展,工作负载的日益提升以及非结构化数据的爆炸式增长,数据中心的发展方向正朝着加速计算、存储与网络适应性前进。
实时预测
学术研究人员目前正利用高性能计算(HPC)解决真实世界中存在的各类高复杂度问题。为了加快洞察处理过程与大规模HPC部署工作,原始计算能力、能源效率与适应性已经成为决定项目最终命运的先决条件。
为了回答世界上最具挑战性的科学问题之一,欧洲粒子物理实验室(CERN)约2万名科学家组成的联盟正试图重现宇宙的起源。为此,研究人员必须不断突破技术极限。
大型强子对撞机是世界上最大的粒子加速器。总长27公里的环形隧道由超导磁体组成,可将粒子加速到前所未有的能量水平。每个质子每秒绕隧道运行11000圈,速度接近于光速。环形隧道上还部署有四个定位点(质子每25纳秒经过一次),质子将在这里发生碰撞。对撞的条件将由粒子探测器捕捉并记录。
整个触发系统分两层实现——第一层触发要求AI技术在约3微秒周期内完成事件处理,这对其推理延迟提出了极高的要求。至于第二层,自然是大量的数据传输带宽。
CPU与GPU根本无法满足这样的要求。因此,研究人员在地下100米深、且不受辐射区影响的位置构建起一套用于运行分析算法的FPGA网络。该算法旨在即时过滤生成的数据并识别新型亚粒子结构,借此证明暗物质的存在乃至其他重要物理现象。这些FPGA将同时运行经典与卷积神经网络,负责接收并校准传感器数据、执行跟踪与聚类、运行机器学习对象识别并触发功能——所有操作都需要在事件数据的格式化与交付之前完成。结果就是,这套网络带来了极低的推理延迟(约100纳秒)。
为实时分析提供存储支持
高速存储方案的采用,以及现实用例对于数据密集型应用程序的更高性能要求,已经令现有CPU、内存与存储沦为瓶颈。为此,研究人员的探索重点由计算能力转向通过计算存储完成数据处理。这样的转变,也给应用程序性能与基础设施整体效率带来了深远影响。
最可行的解决方案,自然是尽可能缩小计算与数据间的距离。将数据分析与存储集成在一起,能够极大减少系统层面的数据瓶颈、提高并行度,同时降低总体功耗水平。这种方法也得到IBM及美光科技等厂商的支持,他们据此开发出加速存储与计算存储产品,保证一切处理方案紧紧围绕在数据周边。三星电子还推出SmartSSD,将闪存作为主干建立高性能加速计算体系,借此克服CPU与内存带来的限制。通过将智能元素推送至数据所在的位置,三星SmartSSD成功提高了速度与效率,同时降低了运营成本。
复杂网络
随着虚拟化计算与容器化工作负载的出现,网络也变得越来越复杂。在将这些环境扩展到单一服务器之外时,我们必须与其匹配复杂的覆盖网络。覆盖网络的本质,属于通过分组封装概念动态创建并维护的虚拟化系统。对这种封装进行监管,必然会增强操作系统或虚拟化内核的处理负担。在与传统网络任务配合使用时,这类方案会直接消耗掉近30%的服务器原始CPU周期。
目前比较常见的覆盖网络管理方法当属vSwitch(OvS)协议。基于FPGA的SmartNIC(网卡)能够把这近30%的计算负担从主机CPU转移到自身之上。简而言之,三台配备OvS协议SmartNIC的服务器,足以提供等同于四台配备标准网卡的服务器的计算能力。
基于FPGA的SmartNIC还能显著降低服务器CPU在执行安全与加密任务时面临的计算负担。目前的安全保障方案通常采取深度数据包检查的形式;一旦发现数据包中存在威胁,则将该数据包丢弃。这种方法能够增强甚至彻底取代企业在服务器上运行的传统防火墙软件。另外,SmartNIC也可以轻松承担起各类加密与解密任务。
新的世界,新的秩序
在实时服务新时代之下,考虑到成本、功耗以及纯CPU的扩展能力等各类限制性条件,单纯使用CPU或者多核心CPU来满足业务需求早已不具备可行性。对于大多数复合型工作负载而言,单纯投入更多服务器CPU已经永远无法带来必要的性能表现。
随着摩尔定律的逐步终结,下一代CPU恐怕也无法解决这些实际问题。因此,自适应计算加速器将成为一种可行的解决方案,有望在满足广泛计算需求的同时,极大提高扩展能力以帮助企业控制运营成本。
【云栖号在线课堂】每天都有产品技术专家分享!课程地址:https://yqh.aliyun.com/live
立即加入社群,与专家面对面,及时了解课程最新动态!【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
原文发布时间:2020-05-26本文来自:“科技行者”,了解相关信息可以关注“科技行者”