RDMA

首页 标签 RDMA
# RDMA #
关注
461内容
DeepSeek开源周第五弹之一!3FS:支撑V3/R1模型数据访问的高性能分布式文件系统
3FS是DeepSeek开源的高性能分布式文件系统,专为AI训练和推理任务设计,提供高达6.6 TiB/s的读取吞吐量,支持强一致性保障和通用文件接口,优化AI工作负载。
DeepSeek 开源周第二弹!DeepEP:专为 MoE 训练和推理设计的并行通信库
DeepEP 是 DeepSeek 开源的首个专为混合专家模型(MoE)训练和推理设计的通信库,支持高吞吐量、低延迟通信,优化 NVLink 和 RDMA 网络性能。
从铜线到云端:网络技术的跨越与未来趋势
本文围绕物理网络和云网络基础知识科普进行展开,最后浅谈在AI大模型浪潮下云网络的演进方向。
小白学网络系列之---从物理网络到云网络
本文由阿里云技术服务部枫桥撰写,围绕物理网络和云网络的基础知识展开,强调网络在云计算中的重要性。文章首先介绍了OSI模型下的物理层、数据链路层、网络层、传输层和应用层,解释了各层的功能与作用。接着探讨了云网络的必要性及其核心技术,如VPC(虚拟私有网络)、Overlay和Underlay网络,并阐述了它们之间的协作关系。最后,文章分析了AI大模型浪潮下云网络的演进方向,包括高速RDMA网络架构、高性能集合通信库ACCL和高性能数据主动加载加速软件KSpeed等技术的应用,展示了云网络在支持大规模分布式AI训练中的关键作用。通过本文,读者可以深入了解从物理网络到云网络的技术演进及其未来发展趋势。
面向AI的服务器计算互连的创新探索
面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
云上普惠高性能计算平台,助力HPC行业创新
EHPC(弹性高性能计算)产品架构分为三个层次:资源层、服务层和使用界面层。资源层按HPC行业需求编排ECS实例、存储和调度管理资源,形成支持VPC和RDMA网络的集群。服务层提供集群资源管理、应用管理和作业调度等功能,并支持基于负载的弹性伸缩。使用界面层包括控制台、HPC PORTAL和Open API,方便不同用户操作。今年新发布的功能包括基于英特尔八代处理器的HPC实例、RDMA网络支持IB Verbs接口、拓扑感知的弹性伸缩能力以及Instant计算环境,优化了性能和成本。EHPC通过这些设计帮助客户快速上云并高效利用资源。
阿里云2024 KCD雅加达之旅精彩回顾
2024年11月30日,KCD在印尼雅加达顺利举行。活动涵盖Kubernetes生态的主题演讲与实操,吸引众多开发者与技术达人参与。阿里云作为赞助商,与印尼科技生态链接,4位专家为350余名参会者带来了1场主论坛和3场分论坛的分享。
马斯克X AI鲶鱼效应 倒逼AI行业快速发展
全球数据中心面临放缓困境,AI大模型的迭代因高质量数据短缺和高昂的建设成本而受限。马斯克的xAI公司迅速建设超大规模数据中心,引发OpenAI等竞争对手的焦虑,新一轮数据中心竞赛即将展开。
|
5月前
|
GlusterFS支持哪些挂载选项?
【10月更文挑战第1天】GlusterFS支持哪些挂载选项?
免费试用