RDMA

首页 标签 RDMA
# RDMA #
关注
469内容
超级计算实现自然语言训练
本实践适用于自然语言训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS 进行NLP的训练,采用Bert模型。这里不使用容器,直接使用裸机进行NLP的Bert训练,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。
从铜线到云端:网络技术的跨越与未来趋势
本文围绕物理网络和云网络基础知识科普进行展开,最后浅谈在AI大模型浪潮下云网络的演进方向。
阿里云服务器实例规格、云盘、带宽选择思路参考
阿里云服务器如何选择实例云盘带宽等参数?很多用户以往只用过物理服务器,对于阿里云服务器的实例规格、云盘和带宽等不知道如何选择,下面小编今天就带大家来深入学习阿里云服务器应该如何选择这些参数。
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
万字干货分享 | 阿里云CIPU技术解析
2022年6月,阿里云发布了云基础设施处理器CIPU(Cloud Infrastructure Processing Unit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这个全新体系架构下,CIPU向下对数据中心计算、存储、网络等底层基础设施快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机,实现资源的灵活编排和调度,给用户提供高质量弹性云计算算力集群。
机器学习领域技术大图:硬件算力
硬件算力可以说在人工智能三要素中处于发动机的角色,特别是深度学习在最近 10 年之所以获得突飞猛进的发展,很大程度得益于硬件算力在摩尔定律的驱动下获得持续的增长,如 GPU 在最近 10 年的理论算力获得了近几十倍的性能提升。所以,硬件算力也是阿里在人工智能技术领域的重中之重,并进行了重点布局和持续的技术研发投入,我们的技术核心战略是“通过建设核高基领域的研发能力,提供极致性价比的算力供给,奠定阿里云在 IaaS/PaaS 层具备产品易用性、多样性和差异化服务的能力”。 本文将分享当前阿里所有 AI/异构算力的方方面面。
免费试用