RDMA

首页 标签 RDMA
# RDMA #
关注
469内容
阿里云斩获2022全球分布式云大会两项大奖
阿里云弹性计算团队凭借在算力领域的创新突破与全面的分布式云产品矩阵布局,荣获“2022 年度中国算力先锋 TOP3”、“2022 年度分布式算力市场领导力企业”两项大奖。
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
小白学网络系列之---从物理网络到云网络
本文由阿里云技术服务部枫桥撰写,围绕物理网络和云网络的基础知识展开,强调网络在云计算中的重要性。文章首先介绍了OSI模型下的物理层、数据链路层、网络层、传输层和应用层,解释了各层的功能与作用。接着探讨了云网络的必要性及其核心技术,如VPC(虚拟私有网络)、Overlay和Underlay网络,并阐述了它们之间的协作关系。最后,文章分析了AI大模型浪潮下云网络的演进方向,包括高速RDMA网络架构、高性能集合通信库ACCL和高性能数据主动加载加速软件KSpeed等技术的应用,展示了云网络在支持大规模分布式AI训练中的关键作用。通过本文,读者可以深入了解从物理网络到云网络的技术演进及其未来发展趋势。
阿里云服务器CPU处理器Intel Xeon(Ice Lake) Platinum 8369B
阿里云服务器CPU处理器Intel Xeon(Ice Lake) Platinum 8369B,基频2.7 GHz,全核睿频3.5 GHz,计算性能稳定。目前阿里云第七代云服务器ECS计算型c7、ECS通用型g7、内存型r7等规格均采用该款CPU
超级计算实现自然语言训练
本实践适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS 进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。
5G 多址接入|带你读《5G空口特性与关键技术》之五
采用正交多址方式,用户间相互不存在干扰。采用非正交多址方式,每个用户的信号有可能与其他用户的信号相互叠加干扰,但是这种干扰通常在接收时可以采用信号处理的方式去除,以还原某个特定用户的信号。
免费试用