阿里自研NPU将于下半年推出,阿里云十年再出发,达摩院加持

简介: 智能升级后,阿里云(智能)于 3 月 21 日召开了第一场发布会,主论坛上,不仅发布了与 AI 相关的产品,还透露了阿里自研的第一款 NPU 将于今年下半年推出的消息。

2018 年,双十一之后不久,阿里巴巴集团 CEO 张勇对阿里架构进行了重大调整:阿里云升级为阿里云智能,集团首席技术官(CTO)张建锋兼任阿里云智能事业群总裁。


3 月 21 日,2019 阿里云峰会·北京在国家会议中心召开,这是「阿里云」升级为「阿里云智能」后的首场开发布会,也是张建锋上任后首次公开亮相。


微信图片_20211130220411.jpg


阿里云「十年再出发」


会上,张建锋首先阐述了阿里云的战略思考。通过十年,阿里云的市场份额达到 2-8 名总和。阿里云组织架构的升级意味着「阿里云」将变成「云上的阿里巴巴」,成为「阿里巴巴经济体的技术底座」和「阿里巴巴所有技术和产品的输出平台」。


微信图片_20211130220426.jpg

阿里云前 logo(左)、阿里云现 logo(右)


升级后的「阿里云」具备以下四个优势:


1. 技术:达摩院加持的云。整个阿里巴巴的技术变成阿里云的一部分,达摩院的先进技术作为云智能的一个基础部分。


2. 产品,数据智能的云。产品一定是基于数据智能的、非常稳定可靠的云。


3. 商业,最佳实践的云。「我们和绝大多数云服务商不一样,我们是自带最佳实践的云。我们运营了最大的电子商务平台,也运营了最大的支付平台。我们有非常多的技术实践、产品实践和商业实践,阿里云是一个最佳实践的云。」


4. 生态,被集成的云。「我们会跟合作伙伴建立更紧密的关系,我们的合作伙伴成功了,我们的客户成功了,才说明阿里云这个云智能模式、这个系统、这个产品、这个技术是成功的。今天是阿里云第一次明确说我们是一个被集成的、生态化的云。


张建锋指出,未来一到两年,阿里巴巴 100% 的业务要跑在公共云上,自己用的技术会跟阿里云上的产品保持一致,将来阿里巴巴经济体内的 To B 服务都会通过阿里云平台对外输出。阿里云将加大科研投入,持续扩大云的技术代差;将加大行业战略性投入,聚焦新零售、新金融、数字政府


他还表示,阿里云将练好内功「被集成」,把阿里云变成合作伙伴行业解决方案的一部分。「阿里云自己不做 SaaS,让大家来做更好的 SaaS。」


自研的第一款阿里巴巴 NPU 将在下半年正式发布


「三年前成立了达摩院,我们在持续加大投入。在量子计算、机器智能、嵌入式芯片、数据库进行了广泛投入。在芯片端我们在 IoT 端嵌入式芯片发展非常快,去年销售约 2 亿片芯片。」张建锋在会上透露。


很快,网上便出现了「阿里达摩院去年芯片卖出 2 亿片」、「阿里云张剑锋:去年阿里云 IOT 芯片卖出 2 亿元」等相关报道。机器之心记者就「阿里 IoT 端嵌入式芯片发现非常快,去年销售约 2 亿片芯片」一事向阿里云、达摩院多位公关求证后获悉,这约 2 亿片 IoT 端嵌入式芯片是「中天微」的。


去年 4 月 20 日,阿里巴巴宣布全资收购中天微。当时,中天微是中国大陆唯一基于自主指令架构研发嵌入式 CPU 并实现大规模量产的 CPU 供应商,专注于 32 位嵌入式 CPU IP 研发与规模化应用,面向多媒体、安防、家庭、交通、智慧城市等 IoT 领域,全球累计出货超过 7 亿颗芯片。


宣布收购中天微的前一天(2018 年 4 月 19 日),阿里宣布,达摩院在研发一款神经网络芯片——Ali-NPU, 该芯片将运用于图像视频分析、机器学习等 AI 推理计算。


张建锋透露,自研的第一款阿里巴巴 NPU 将在今年下半年正式发布,并且,这个芯片的性能「在这个同等芯片里面都是非常非常领先的,它不是领先一倍两倍的问题,是领先十倍以上的。」


与 AI 相关的几款产品


2019 阿里云峰会·北京主论坛上,共发布了数十款产品,第一个被推出的是神龙异构超算集群 SCC-GN6


这款产品采用了英特尔定制的 96 核 CPU,采用英伟达 V100、单机 8 卡、可提供 1000T-TFLOPS 性能,支持 1Tb/s 的高性能 CPFS 并行文件系统,50Gbps 的 RDMA 高速网络、时延小于 2us(微秒)。


微信图片_20211130220431.jpg


据介绍,SCC-GN6 是首个基于弹性裸金属服务器神龙 X-Dragon 架构的超算异构产品,能将深度学习训练时间缩短至分钟级,可满足无人驾驶、智能推荐、机器翻译等人工智能场景的高性能计算需求。


在媒体群访环节,针对「SCC-GN6 能将深度学习训练时间缩短至分钟级」这个点,阿里云智能创新产品线负责人张献涛、阿里云异构计算研发负责人龙欣、阿里云高级产品专家王志坤做了如下拓展:


「在 AI 的深度学习的场景中,特别是训练场景下,单机的计算力已经没有办法满足在绝大部分场景下训练诉求,需要天甚至上月的时间才能达到比较好的模型的收敛。在很多场景下,大家希望把多台机器去互联起来做集群性运算,去加速模型的训练。但是这种背景下,传统虚拟化网络,其实是没有办法满足在多机训练场景下的诉求。


在超算场景下,一直有它的一些解决方案,类似于 IB 或者 RDMA 这样的网络协议,这种协议天然地和数据中心是不兼容的,因为它有安全上的一些问题。


神龙的出现解决了一个什么样的问题?不仅解决了计算的物理机交互,还解决了网络上和虚拟网络不兼容的这样一个物理网络的交付,通过 RDMA 把我们多台训练的机器进行互联。一是,高带宽的互联,同时保证了在多机互联的情况下,我们的线性伸缩比会非常好,这是我们要用一个物理的网络去把它接起来,把它称做超级计算集群很重要的点。这项技术最重要,其实就是我们的神龙技术。」


「单机情况下,我们现在交付的是单节点 1000 TFLOPS 的性能,根据客户需求,可以选择 8 个节点或者 16 个节点,这个数字就可以做一个简单的倍加,就得到一个算力。」他们还透露,「最多我们现在单集群可以支持 512 个节点,就是 4000 个 GPU 的计算力,近似于线性的形式做。人工智能的客户,比如在一些大模型训练上面,效率提升是非常高的。」


阿里云表示,以 ImageNet 竞赛的 128 万张图片的数据集为例,用普通计算资源训练 ResNet50 模型,如要达到 75% 的精度需要数天甚至一周的时间,而使用该神龙异构超算集群产品,模型训练可以缩短到几分钟,大大提升 AI 算法研发效率,加速业务创新。


此外,阿里云还发布了国内首个公共云上的轻量级 GPU 异构计算产品——vGN5i,打破传统直通模式局限,提供比单颗物理 GPU 更细粒度的服务,从而让用户以更低成本、更高弹性开展业务。


会上还推出了机器学习和深度学习平台 PAI v3.0


微信图片_20211130220436.jpg


据悉,PAI 3.0 推出了全新的算法模型市场,涵盖电商、社交、广告、金融等多个行业,数十种场景的算法模型;新增流式算法组件、图神经网络、增强学习组件等平台工具。


据「AI 前线」报道,作为机器学习平台的内核,PAI 的智能计算引擎也进行了全面升级,通过编译技术优化通用计算引擎,训练性能提升 400%;深度学习优化分布式引擎,单任务支持上千 worker 并发训练,支持 5k+ 超大规模异构计算集群;发布大规模图神经网络,缓存机制效率提升 40%,算子速度提升 12 倍,系统端建图时间从数小时降至 5 分钟。


「大家可能知道,人工智能今天还不能做到去通用解决任何问题,但是它可以很好地解决在某一个专业领域、专业点的问题。我们也是有这样一个算法平台开放出来,让丰富的算法放到这个平台当中,同时提供和过去相比高达 4 倍的计算效率。」阿里云智能产品管理部经理马劲在现场介绍道。


通州区引入城市大脑,防控环境污染

 

微信图片_20211130220440.jpg

主论坛上,北京市通州区宣布与阿里云在生态环境综合治理方面达成合作。


据了解,通州副中心规划面积 155 平方公里。预计在「十二五」期间,新城将初具规模。


由于当前处于施工建设期,如何保障城市环境不受影响成为当地最为关注的问题之一,通州区决定引入城市大脑技术。全区接入了 1437 路城市环境监测视频、1100 个大气监测及扬尘预警传感设备;打通融合城管委、住建局、环保局等多部门的信息平台;平均每 10 分钟就可以完成一次全区域视频扫描。


通州区副区长苏国斌介绍,「城市大脑·生态环境」平台在通州上岗以来,实现了通州核心区的环境污染事件从人工发现到实时自动感知,从多部门多头处置到一网通办的本质提升。


苏国斌副区长还表示,未来水源监测、建筑施工、垃圾清理、排污降噪等等也将引入城市大脑相关技术。



本文为机器之心原创,转载请联系本公众号获得授权

相关文章
|
6月前
|
Ubuntu Linux Windows
IP地址查看方法
本指南介绍了在不同操作系统中查看设备IP地址的方法。在Windows系统中,可通过命令提示符(输入`ipconfig`)或设置界面查找IPv4地址;Linux系统中,使用终端命令`ifconfig`或`ip addr show`获取网络接口的IP;Mac系统则可在“系统偏好设置”中的“网络”查看,或通过终端执行相同命令获取。这些方法简单易行,适用于各种常见场景。
3425 11
|
安全 网络安全 数据安全/隐私保护
|
6月前
|
编解码 人工智能 JSON
飞桨x昇腾生态适配方案:10_ONNX转OM
本章节主要介绍如何将ONNX模型转化为昇腾AI处理器支持的OM模型,并进行离线推理。通过昇腾张量编译器(ATC),可实现静态OM、动态BatchSize、动态分辨率、动态维度及动态shape等多种模型转换。文中详细说明了ATC工具的使用方法、参数配置、命令格式以及常见问题解决方法,同时提供了具体示例和可视化工具辅助输入参数确认,帮助用户高效完成模型转换与部署。
912 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
结合DeepSeek-R1强化学习方法的视觉模型!VLM-R1:输入描述就能精确定位图像目标
VLM-R1 是基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像目标,支持复杂场景推理与高效训练。
684 0
|
机器学习/深度学习 传感器 监控
红外小目标检测:基于深度学习
本文介绍了红外小目标检测技术的优势、基本原理及常用方法,包括背景抑制、滤波、模型和深度学习等,并探讨了多传感器融合的应用。通过一个基于深度学习的实战案例,展示了从数据准备到模型训练的全过程。最后,文章展望了该技术在军事、安防、交通等领域的广泛应用及未来发展趋势。
|
弹性计算 安全 虚拟化
万字干货分享 | 阿里云CIPU技术解析
2022年6月,阿里云发布了云基础设施处理器CIPU(Cloud  Infrastructure Processing  Unit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这个全新体系架构下,CIPU向下对数据中心计算、存储、网络等底层基础设施快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机,实现资源的灵活编排和调度,给用户提供高质量弹性云计算算力集群。
万字干货分享 | 阿里云CIPU技术解析
|
监控 网络安全 网络虚拟化
【服务器】交换机带外管理和带内管理
【服务器】交换机带外管理和带内管理
1357 1
|
人工智能 云栖大会
【2023云栖大会】一张图看懂飞天企业版
阿里云在2023云栖大会发布飞天企业版演进路线和创新能力,重新定义AI时代政企云平台。
787 0
|
敏捷开发 测试技术 持续交付
软件开发过程中的最佳实践和代码质量评估
在软件开发过程中,采用最佳实践和评估代码质量对于确保软件的稳定性和可维护性至关重要。通过明确的需求、合理的开发流程、良好的代码规范以及严格的代码评估,我们可以降低软件开发过程中的风险,并提升开发效率和软件质量。
1582 2