PANAMA: 共享机器学习集群的网内聚合框架(下)

简介: PANAMA: 共享机器学习集群的网内聚合框架(下)

5. 聚合加速器设计


接下来我们将介绍用于支持 PSwitch 中浮点线速聚合的硬件加速器架构(见图 6a)。


① 包头解析器。 每个输入端口的解析器模块检查传入数据包的EtherTypeDSCP字段(图 4),以将聚合数据包从其他流量中分离出来。DSCP字段值为 56 的 IPv4 报文被认为是聚合报文,被发送到专用的聚合缓冲区,而其他数据包则直接转发到交换芯片,从而确保非聚合包不会因为聚合包发生行首阻塞,并且在通过加速器时只会经历最小的延迟。


② 控制逻辑。 加速器为作业保持以下状态: Ports_bitmapExpected_VIDPorts_bitmap寄存器是由 PANAMA 控制器在配置作业的聚合树时设置的,标识了聚合中的加速器输入端口。Expected_VID寄存器用于纠正聚合以及错误引起的丢包检测,初始化为 0。加速器依靠图 4 所示的作业 ID(Job ID, JID)和树 ID(Tree ID, TID)字段来识别执行聚合任务时必须使用的Ports_bitmapExpected_VID。实践中,必须为每个作业维护一个Ports_bitmap,并且必须为作业中的每个聚合树维护一个Expected_VID。我们用图 6a 中的例子来说明加速器对于单个作业和单个聚合树的聚合控制逻辑。需要维护一个Ports_bitmap寄存器和一个Expected_VID寄存器。由于Ports_bitmap寄存器被设置为 1111,控制器必须等待,直到四个输入端口中的每个端口至少有一个数据包可用。当这个要求被满足时,数据包的头被复制到头寄存器中,它们的VID字段与Expected_VID寄存器中的 0 值进行比较。因为工作节点在具有相同VID的数据包中封装了相同的梯度集,因此数据包上的VID字段可以作为梯度标识符。同时还可以充当数据包序列号,工作节点为聚合树中发送的数据包分配递增的VID。由于聚合树保证按顺序交付,加速器使用Expected_VID寄存器跟踪预期数据包,由此确保正确的梯度聚合,并允许检测由数据包损坏引起的丢包。当所有的VID字段与Expected_VID寄存器的当前值相匹配时,如图 6a 所示,梯度通过聚合数据路径内的加法树(adder tree) 传递,Expected_VID寄存器被递增。否则,缺失值的梯度将被丢弃,聚合将以下一个Expected_VID继续进行。工作节点通过设置数据包头的FIN位来通知加速器已经发送了所有聚合数据包,从而重置加速器状态。


浮点支持。 使网内聚合实用化的一个关键挑战是在当前数据速率(10Gbps 和 40Gbps)和未来数据速率(100Gbps)下支持浮点聚合。我们的设计是在假设一定的时钟速率(见附录 A 的图 11)的前提下,通过调整从每个输入端口向每个输出端口传输数据的总线宽度来实现这一目标,以匹配所需的端口速率。聚合包有效载荷从参与工作的每个专用缓冲区流向多个加法树,并行加法树的数量与数据总线中可承载的梯度数量成正比。如图 6a 所示,从而实现 SIMD 架构,其中梯度被划分到两个加法树上,加法树并行工作,结果被串联起来并被送到输出端口。


image.png

图 6. PANAMA 硬件设计细节。


6. 基于 FPGA 的原型


我们评估了在配备有 1 个 Xilinx Virtex-7 FPGA 和 4 个 10 Gbps 收发器的 NetFPGA-SUME 板(Zilberman et al.,2014)上实现聚合加速器的可行性。我们将 Xilinx LogiCORE IP 核(Xilinx,2014)纳入设计,以支持浮点加法(与 IEEE-754 单精度标准完全兼容)。LogiCORE IP 核将最大时钟速率限制在 220MHz,因此我们实例化了两个加法树副本,以满足所需的线路速率(10 Gbps),并选择了 200 MHz 时钟速率。表 1 总结了加速器由非聚合数据包和聚合数据包观察到的快速转发时延。如图所示,加速器引入的延迟是最小的,甚至对聚合数据包也是如此。我们还测量了针对最近的 VU19P FPGA 板(Xilinx, 2021)的资源利用率(见附录 A 的表 2)。结果显示,我们的设计具有较小的资源占用,对于触发器(FF, Flip-Flops)的可用查找表(LUT, Lookup-Tables)分别只使用了 1%和 0.26%。这一点很重要,表明我们的设计可以很容易的安装在小芯片上,从而有可能通过 chipleg 将其与主交换芯片共同封装。此外,还表明有空间通过实例化更多加法树来增加并行性,以维持更高的数据速率。初步分析表明,我们的设计可以扩展到 100 多个端口,基于 FPGA 实现每端口 100Gbps,或者基于 ASIC 实现每端口 400Gbps(见附录 A)。


image.png


原型评估设置。 我们用 4 台 Dell R740 双核 PowerEdge 服务器、10 Gbps 光收发器和一个 Arista 7050S 交换机构建了一个 PANAMA 测试平台,通过如图 6b 所示的串连配置将 FPGA 板连接到服务器和交换机之间。


功能正确性。 如图 4 所示,我们使用 libtins 库(libtins, 2021)来构造 PANAMA 包来评估架构的正确性。模拟 ML 作业生成的梯度的随机生成的浮点数被封装在 PANAMA 包中,并发送到 PSwitch 进行聚合。在所有实验中,我们观察所有收到的数据包中正确的聚合值。


吞吐量性能。 我们首先测量两台服务器在没有任何中间 FPGA(NoFPGA)的情况下,通过交换机直接互连时可以达到的最大吞吐量。我们使用四个并行的iperf实例,以确保实验不受 CPU 的限制。然后,我们将 FPGA 连接到模拟 PSwitch 架构的交换机上(第 3 节),并使用相同的工作负载运行两个额外的实验来测量 FPGA-noagg FPGA-agg 路径的吞吐量。为了与 iperf 兼容,我们修改了控制逻辑,使单一输入穿越聚合路径。我们将Port bitmap寄存器值初始化为0001,并将数据包生成服务器连接到加速器的第一个端口。我们使用 UDP 数据包而不是 TCP 数据包,因为在后者的聚合过程中,数据包的有效载荷会被聚合修改,因此,TCP 校验会失败。图 7 显示,FPGA-noagg 的吞吐量与 NoFPGA 的吞吐量接近,表明对于非聚合数据包,FPGA 引入的开销可以忽略不计。然而,在 FPGA-agg 的情况下,吞吐量的变化稍大(在 8.86Gbps 到 10.48Gbps 之间震荡)。这是使用 UDP 而不是 TCP 的结果,因为 UDP 会导致流量激增。尽管如此,平均吞吐量与以前的实验一致,证实了我们的原型有能力支持 10Gbps 的聚合。


7. 大规模模拟


本节我们使用OMNeT++包级网络模拟器的定制版本(Ltd.,2021)评估 PANAMA 在大规模网络下的性能。模拟分析的主要收获是: (i)与最先进的 Ring-AllReduce 相比,PANAMA 将 99%的短流量(<40 MB)完成时间(FCT, flow completion time)降低了 4.5 倍,将长流量的吞吐量提高了 1.33 倍,并将聚合流量的训练时间加快了 1.34 倍。(ii)PANAMA 更高的性能是由于它有能力减少网络上传输的数据量,以及有能力在拥堵期控制工作节点的数据包发送率。我们证明了 PANAMA 比没有我们的拥塞控制协议的基线要好 3.5 倍,减少了 99%短流量的 FCT。(iii)PANAMA 的多树聚合技术可以平衡聚合流量对网络路径的负载。(iv)PANAMA 的拥塞控制算法为所有流量提供了公平的带宽分配。


方法和设置。 在我们的实验中,假设网络为非阻塞的交叉 CLOS 拓扑结构(Al-Fares et al.,2008),包括 1024 台服务器通过 10Gbps 链接互连。我们将 ECN 标记阈值设置为 85 个数据包,并根据最先进的 FPGA(Intel,2016; Xilinx,2021)的最大缓冲容量,将聚合加速器的缓冲容量限制在 64MB。假设我们的工作负载由不同规模的聚合流量和非聚合流量组成,这些流量来自网络搜索和数据挖掘流量分布(Alizadeh et al.,2013; Greenberg et al.,2009)。流量到达时间采用指数分布(泊松过程),我们改变平均到达时间以模拟不同的网络负载。对于聚合流量,分配给每个作业的节点数量是随机选择的,范围从 16 到 96,而 DNN 模型是从六个著名的图像分类模型(VGG16、AlexNet,Resnet152、Resnet50、Inceptionv3 和 GoogleNet)中使用加权随机分布选择的。为了对计算时间进行建模,我们在第 2 节的实验中使用 P100 GPU 测量的值。


调度作业。 我们的作业调度器将属于同一作业的节点尽可能靠近,以确保最佳的基线性能。非聚集流的源头和目的地是统一选择的(Alizadeh et al.,2013)。我们使用 DCTCP(Alizadeh et al.,2010)作为非聚合流的默认传输层协议,并使用 PANAMA 拥塞控制来处理聚合流。


配置。 我们考虑五种网络配置: (1) Ideal: 理想设置,其中聚合流、短流和长流完全分离,并在各自的专用集群中提供服务,没有任何资源共享。(2) Ring-AllReduce: Horovod(Sergeev & Balso,2018)中使用的分布式训练的最先进技术。(3) SwitchML∗: 最近基于 Tofino 的网内聚合建议的增强版(Sapio et al.,2021)。我们的增强使 SwitchML 能够支持多租户、作业共享和负载均衡。然而,正如其最初的实现一样,它没有拥塞控制机制。(4) PANAMA: 我们的建议。(5) PANAMA-0.88 和 PANAMA-0.94: PANAMA 的两个部分同步版本。数字 0.88 和 0.94 代表了 PANAMA 在每个迭代中同步的聚合节点的比例。这两种配置对于评估忽略最慢的链路和在收到工作节点的 88%(或 94%)的数据包后立即进行聚合的影响很有用。


PANAMA 减少了聚合流量对短流量(<40MB)的影响。我们从基线网络(20%的负载由非聚合流量组成)开始,慢慢增加 DNN 训练作业的到达频率,将聚合流量引入网络,直到 80%负载。图 8a 显示,随着聚合负载的增长,使用传统的 Ring-AllReduce 方法,短流量的 99%-tile FCT 明显增加。相比之下,PANAMA 减轻了拥堵的影响,即使在高负载下也紧跟理想线。在最高负荷下(80%),PANAMA 比 Ring-AllReduce 减少了 4.5 倍的 FCT。PANAMA 的收益来自于网内聚合与拥塞控制和负载均衡的结合。SwitchML∗执行了网内聚合,能够减少 FCT,并进一步与负载均衡相结合。然而,它缺乏拥塞控制,因此无法与 PANAMA 相提并论,在牺牲短流量的 FCT 的情况下,给聚合流量带来了不公平的优势。同样,PANAMA-0.88 和 0.94 的部分聚合也接近 SwitchML∗,因为没有使工作节点的速度减慢到足以与拥挤的链接相匹配。


image.png

图 8. 与其他训练计划相比,PANAMA 在共享数据中心设置中的表现。


网内方案提高了长流量的吞吐量。 接下来,我们研究了聚合负载的增加对长流量的影响。图 8b 的结果表明与 Ring-AllReduce 相比,PANAMA 能够将长流量的吞吐量提高到 1.33 倍。但是,由于长流量和聚合流较大(>40 MB),这种改进与其他网内方案相匹配,可以充分利用额外的可用带宽。


网内方案提升了 ML 作业的完成时间。 如图 8c 所示,PANAMA 比基线 Ring-AllReduce 方法提高了 1.34 倍的 ML 作业训练时间,而 SwitchML∗的表现仅略胜一筹,为 1.05 倍。SwitchML∗和其他 PANAMA 变体的表现优于 PANAMA,因为它们忽略了网络内的拥堵,牺牲了短流量。然而,这些方法所测得的训练时间并没有考虑到由于 SwitchML∗不支持浮点运算而产生的潜在精度损失(或迭代次数的增加),也没有考虑到 PANAMA-0.88 和 PANAMA-0.94 中忽略部分梯度的影响。


负载均衡的影响。 为了确定网络流量负载均衡的重要性,我们创建了图 3 所示的拓扑结构,并用 8 个工作节点运行聚合训练作业。我们通过增加产生长流量的节点数量来增加网络负载。与之前实验不同的是,我们考虑了训练工作的完成时间,在这个实验中,我们只考虑了在一个迭代中计算的聚合梯度的时间(聚合延迟)。图 9 显示了 6 种情况下的聚合延时: PANAMA,只有一棵聚合树的 PANAMA(即标记为 PANAMA-Agg1,..., PANAMA-Agg4 的四个场景),以及 Ring-AllReduce。如图所示,因为 PANAMA 使用了所有 4 个聚合树,因此其性能优于其他所有方案。有趣的是,使用单一聚合树的网内聚合的性能可能比 Ring-AllReduce 的性能差。与可以通过 ECMP 或数据包散射等路由技术实现多样化的终端主机路径不同,从每个工作节点到 PSwitch 的路径是唯一的,如果负载没有得到适当的平衡,聚合时间将受到严重影响。


image.png

图 9. 负载均衡的影响。


公平。 为了证明 PANAMA 的拥塞控制机制实现了跨流的公平速率分配,我们建立了一个实验,在聚合流和对延迟敏感的非聚合流之间共享瓶颈链路。我们从非聚合流开始,0.25 秒之后启动聚合流。图 10a 显示 PANAMA 在两个流之间平均共享链路带宽。相比之下,图 10b 显示,如果没有 PANAMA 的拥塞控制协议,对延迟敏感的非聚合流会面临饥饿。


image.png

图 10. PANAMA 在聚合流和非聚合流之间实现了公平的带宽分配。


8. 相关工作


我们的工作与 SwitchML(Sapio et al.,2021)和 ATP(Lao et al.,2021)密切相关,这两种方法都使用市面上的可编程交换机(Intel,2018)来执行梯度聚合。虽然使用可编程交换机简化了部署,但有两个重要的限制。首先,今天的可编程交换机只支持定点算术。因此,SwitchML 和 ATP 需要仔细的将特定模型的浮点梯度转换为定点表示,这可能会影响达到目标精度所需的训练时间。其次,Tofino 交换机在不同的流水线中不保持状态,并且每个流水线中的阶段数量有限(Gebara et al.,2020)。因此,SwitchML 和 ATP 在单项工作可使用的端口数量方面是有限的,在最大数据包大小方面也是如此。相比之下,PANAMA 的加速器设计很灵活,可以支持线速的浮点运算,并且可以扩展到数百个端口。Li 等人提出了网内聚合,以加速强化学习工作,使用的设计是在单个 FPGA 内实现所需的聚合逻辑和交换功能(Li et al.,2019)。与我们不同的是,他们的建议假定了可以存储在片上的小规模模型(RL 模型),但这使得他们的设计无法适用于今天具有数十亿参数的大规模 DNN 模型。此外,还要求网络的速度随着聚合线速的增长而成比例增长。Mellanox 提出了一个名为 Sharp(Bloch,2019)的网内聚合解决方案,使用交换机内专门用于集合还原操作(allreduce)的定制硬件。但由于没有公开设计,很难推测是如何实现的,以及是否/如何能够扩展到高数据率。此外,Sharp 是面向 HPC 的,需要专属的网络访问,使得它不太适合今天云数据中心的共享 ML 集群。同样,Klenk 等人提出了一个硬件单元,可以纳入交换机,以加速 allreduce 操作(以及其他集合原语)(Klenk et al.,2020)。然而,他们的解决方案依赖于共享内存原语,为了确保作业没有别名指针而引入了额外的复杂性。更广泛的说,与所有先前的工作不同,我们通过考虑现实的共享环境而不是专用集群,重点关注使用网内聚合对整个数据中心流量的影响。


9. 结论


最近的建议主张使用网内聚合来改善分布式 ML 训练时间。然而,由于缺乏有效的聚合硬件、路由和拥塞控制协议,这些方法的实际可行性受到了限制,不适合共享数据中心环境。本文迈出了填补这一空白的第一步,提出了 PANAMA,作为在共享集群中运行的新型网内聚合框架。PANAMA 利用网内聚合的独特属性,在不牺牲精度的情况下实现快速硬件加速,并有效和公平的使用网络资源。与通常的观点相反,我们证明了网内聚合的好处可以延伸到非聚合流量,并且不只限于数据并行的 ML 作业。


致谢


感谢我们的匿名评论者。这项工作得到了微软研究博士奖学金项目、英国 EPSRC 基金 EP/L016796/1、NSF 基金 CNS-2008624、ASCENT2023468 和 SystemsThatLearn@CSAIL Ignite 基金的部分支持。


参考资料

Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M., Kudlur, M., Levenberg, J., Monga, R., Moore, S., Murray, D. G., Steiner, B., Tucker, P., Vasudevan, V., Warden, P., Wicke, M., Yu, Y., and Zheng, X. TensorFlow: A System for Large-Scale Machine Learning. In Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation (OSDI’16), pp. 265–283, USA, 2016. USENIX Association. ISBN 9781931971331.


Al-Fares, M., Loukissas, A., and Vahdat, A. A scalable, commodity data center network architecture. In Proceedings of the ACM SIGCOMM 2008 Conference on Data Communication (SIGCOMM’08), pp. 63–74, New York, NY, USA, 2008. Association for Computing Machinery. ISBN 9781605581750. doi: 10.1145/1402958.1402967. URL https://doi.org/10.1145/1402958.1402967.


Alizadeh, M., Greenberg, A., Maltz, D. A., Padhye, J., Patel, P., Prabhakar, B., Sengupta, S., and Sridharan, M. Data Center TCP (DCTCP). In Proceedings of the ACM SIGCOMM 2010 Conference (SIGCOMM’10), pp. 63–74, New York, NY, USA, 2010. Association for Computing Machinery. ISBN 9781450302012. doi: 10.1145/1851182.1851192. URL https://doi.org/10.1145/1851182.1851192.


Alizadeh, M., Yang, S., Sharif, M., Katti, S., McKeown, N., Prabhakar, B., and Shenker, S. Pfabric: Minimal near-optimal datacenter transport. In Proceedings of the ACM SIGCOMM 2013 Conference on SIGCOMM (SIGCOMM’13, pp. 435–446, New York, NY, USA, 2013. Association for Computing Machinery. ISBN 9781450320566. doi: 10.1145/2486001.2486031. URL https://doi.org/10.1145/2486001.2486031.


Amazon. Amazon Elastic Graphics. https://aws.amazon.com/ec2/elastic-graphics/, 2021.


Azure, M. GPU-ACCELERATED MICROSOFT AZURE. https://www.nvidia.com/en-us/data-center/gpu-cloud-computing/microsoft-azure/, 2021.


Bloch, G. Accelerating Distributed Deep Learning with In-Network Computing Technology, Aug. 2019. URL https://conferences.sigcomm.org/events/apnet2019/slides/Industrial_1_3.pdf.


Bosshart, P., Gibb, G., Kim, H.-S., Varghese, G., McKeown, N., Izzard, M., Mujica, F., and Horowitz, M. Forwarding Metamorphosis: Fast Programmable Match-Action Processing in Hardware for SDN. In Proceedings of the ACM SIGCOMM 2013 Conference on SIGCOMM (SIGCOMM’13), pp. 99–110, New York, NY, USA, 2013. Association for Computing Machinery. ISBN 9781450320566. doi: 10.1145/2486001.2486011. URL https://doi.org/10.1145/2486001.2486011.


Broadcom. BCM56990 25.6 Tb/s Tomahawk 4 Ethernet Switch. https://docs.broadcom.com/docs/12398014, 2020.


Chowdhury, M. and Stoica, I. Coflow: A Networking Abstractio for Cluster Applications. In HotNets, HotNetsXI, pp. 31–36, 2012.


Costa, P., Donnelly, A., Rowstron, A., and O’Shea, G. Camdoop: Exploiting In-network Aggregation for Big Data Applications. In Proceedings of the 9th USENIX Symposium on Networked Systems Design and Implementation (NSDI’12), 2012.


Dong, M., Li, Q., Zarchy, D., Godfrey, P. B., and Schapira, M. PCC: Re-Architecting Congestion Control for Consistent High Performance. In Proceedings of the 12th USENIX Conference on Networked Systems Design and Implementation (NSDI’15, pp. 395–408, USA, 2015. USENIX Association. ISBN 9781931971218.


Firestone, D., Putnam, A., Mundkur, S., Chiou, D., Dabagh, A., Andrewartha, M., Angepat, H., Bhanu, V., Caulfield, A., Chung, E., Chandrappa, H. K., Chaturmohta, S., Humphrey, M., Lavier, J., Lam, N., Liu, F., Ovtcharov, K., Padhye, J., Popuri, G., Raindel, S., Sapre, T., Shaw, M., Silva, G., Sivakumar, M., Srivastava, N., Verma, A., Zuhair, Q., Bansal, D., Burger, D., Vaid, K., Maltz, D. A., and Greenberg, A. Azure Accelerated Networking: SmartNICs in the Public Cloud. In 15th USENIX Symposium on Networked Systems Design and Implementation (NSDI 18), pp. 51–66, Renton, WA, April 2018. USENIX Association. ISBN 978-1-939133-01-4. URL https://www.usenix.org/conference/nsdi18/presentation/firestone.


Gebara, N., Lerner, A., Yang, M., Yu, M., Costa, P., and Ghobadi, M. Challenging the Stateless Quo of Programmable Switches. In ACM Workshop on Hot Topics in Networks (HotNets). ACM, November 2020. URL https://www.microsoft.com/en-us/research/publication/challenging-the-stateless-quo-of-programmable-switches


Google. Cloud GPUs. https://cloud.google.com/gpu/, 2021.


Greenberg, A., Hamilton, J. R., Jain, N., Kandula, S., Kim, C., Lahiri, P., Maltz, D. A., Patel, P., and Sengupta, S. VL2: A Scalable and Flexible Data Center Network. In Proceedings of the ACM SIGCOMM 2009 Conference on Data Communication (SIGCOMM’09), pp. 51–62, New York, NY, USA, 2009. Association for Computing Machinery. ISBN 9781605585949. doi: 10.1145/1592568.1592576. URL https://doi.org/10.1145/1592568.1592576.


Ha, S., Rhee, I., and Xu, L. CUBIC: A New TCP-Friendly High-Speed TCP Variant. SIGOPS Oper. Syst. Rev., 42(5):64–74, July 2008. ISSN 0163-5980. doi: 10.1145/1400097.1400105. URL https://doi.org/10.1145/1400097.1400105.


Handley, M., Raiciu, C., Agache, A., Voinescu, A., Moore, A. W., Antichi, G., and Wojcik, M. Re-architecting data-center networks and stacks for low latency and high performance. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM’17), pp. 29–42, New York, NY, USA, 2017. Association for Computing Machinery. ISBN 9781450346535. doi: 10.1145/3098822.3098825. URL https://doi.org/10.1145/3098822.3098825.


Hopps, C. Analysis of an Equal-Cost Multi-Path Algorithm. RFC 2992, 2000. URL https://rfc-editor.org/rfc/rfc2992.txt.


Huang, Y., Cheng, Y., Chen, D., Lee, H., Ngiam, J., Le, Q. V., and Chen, Z. GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism. CoRR, abs/1811.06965, 2018. URL http://arxiv.org/abs/1811.06965.


Intel. Intel stratix 10 tx device overview. https://www.intel.com/content/dam/www/programmable/us/en/pdfs/literature/hb/stratix-10/s10_tx_overview.pdf, 2016.


Intel. P4-programmable Ethernet Tofino 2. https://www.intel.com/content/www/us/en/products/network-io/programmable-ethernet-switch/tofino-2-series/tofino-2.html/, 2018.


Jeon, M., Venkataraman, S., Phanishayee, A., Qian, u., Xiao, W., and Yang, F. Analysis of Large-Scale MultiTenant GPU Clusters for DNN Training Workloads. In Proceedings of the 2019 USENIX Conference on Usenix Annual Technical Conference (USENIX ATC ’19), pp. 947–960, USA, 2019. USENIX Association. ISBN9781939133038.


Jia, Z., Zaharia, M., and Aiken, A. Beyond Data and Model Parallelism for Deep Neural Networks. In Talwalkar, A., Smith, V., and Zaharia, M. (eds.), Proceedings of Machine Learning and Systems, volume 1, pp. 1–13, 2019. URL https://proceedings.mlsys.org/paper/2019/file/c74d97b01eae257e44aa9d5bade97baf-Paper.pdf.


Klenk, B., Jiang, N., Thorson, G., and Dennison, L. An InNetwork Architecture for Accelerating Shared-Memory Multiprocessor Collectives. In 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA’20), pp. 996–1009, 2020.


Kumar, G., Dukkipati, N., Jang, K., Wassel, H. M. G., Wu, X., Montazeri, B., Wang, Y., Springborn, K., Alfeld, C., Ryan, M., Wetherall, D., and Vahdat, A. Swift: Delay is Simple and Effective for Congestion Control in the Datacenter. In Proceedings of the Annual Conference of the ACM Special Interest Group on Data Communication on the Applications, Technologies, Architectures, and Protocols for Computer Communication (SIGCOMM’20), pp. 514–528, New York, NY, USA, 2020. Association for Computing Machinery. ISBN 9781450379557. doi: 10.1145/3387514.3406591. URL https://doi.org/10.1145/3387514.3406591.


Lao, C., Le, Y., Mahajan, K., Chen, Y., Wu, W., Akella, A., and Swift, M. ATP: In-network Aggregation for Multi-tenant Learning. In 18th USENIX Symposium on Networked Systems Design and Implementation (NSDI 21). USENIX Association, April 2021.URL https://www.usenix.org/conference/nsdi21/presentation/lao.


Lepikhin, D., Lee, H., Xu, Y., Chen, D., Firat, O., Huang, Y., Krikun, M., Shazeer, N., and Chen, Z. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, 2020.


Li, M., Andersen, D. G., Park, J. W., Smola, A. J., Ahmed, A., Josifovski, V., Long, J., Shekita, E. J., and Su, B.-Y. Scaling Distributed Machine Learning with the Parameter Server. In Proceedings of the 11th USENIX Conference on Operating Systems Design and Implementation (OSDI’14), pp. 583–598, USA, 2014. USENIX Association. ISBN 9781931971164.


Li, Y., Liu, I.-J., Yuan, Y., Chen, D., Schwing, A., and Huang, J. Accelerating Distributed Reinforcement Learning with In-Switch Computing. In Proceedings of the 46th International Symposium on Computer Architecture (ISCA’19, ISCA ’19, pp. 279–291, New York, NY, USA, 2019. Association for Computing Machinery. ISBN 9781450366694.


libtins. libtins packet crafting and sniffing library. https://libtins.github.io/, 2021.


Ltd., O. OMNeT++ Discrete Event Simulator, 2021. https://omnetpp.org/.


Mai, L., Rupprecht, L., Alim, A., Costa, P., Migliavacca, M., Pietzuch, P. R., and Wolf, A. L. NetAgg: Using Middleboxes for Application-specific On-path Aggregation in Data Centres. In Seneviratne, A., Diot, C., Kurose, J., Chaintreau, A., and Rizzo, L. (eds.), Proceedings of the 10th ACM International on Conference on Emerging Networking Experiments and Technologies (CoNEXT ’14), pp. 249–262. ACM, 2014. doi: 10.1145/2674005.2674996. URL https://doi.org/10.1145/2674005.2674996.


Mittal, R., Lam, V. T., Dukkipati, N., Blem, E., Wassel, H., Ghobadi, M., Vahdat, A., Wang, Y., Wetherall, D., and Zats, D. TIMELY: RTT-Based Congestion Control for the Datacenter. In Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM’15), pp. 537–550, New York, NY, USA, 2015. Association for Computing Machinery. ISBN 9781450335423. doi: 10.1145/2785956.2787510. URL https://doi.org/10.1145/2785956.2787510.


Moritz, P., Nishihara, R., Wang, S., Tumanov, A., Liaw, R., Liang, E., Elibol, M., Yang, Z., Paul, W., Jordan, M. I., and Stoica, I. Ray: A Distributed Framework for Emerging AI Applications. In 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI18), 2018.


Narayanan, D., Harlap, A., Phanishayee, A., Seshadri, V., Devanur, N. R., Ganger, G. R., Gibbons, P. B., and Zaharia, M. Pipedream: Generalized pipeline parallelism for dnn training. In Proceedings of the 27th ACM Symposium on Operating Systems Principles (SOSP’19), pp. 1–15, New York, NY, USA, 2019. Association for Computing Machinery. ISBN 9781450368735. doi: 10.1145/3341301.3359646. URL https://doi.org/10.1145/3341301.3359646.


NVIDIA. NVIDIA Collective Communications Library (NCCL). https://docs.nvidia.com/deeplearning/nccl/, 2021.


Omkar R., D. and M., A. Asic implementation of 32 and 64 bit floating point alu using pipelining. International Journal of Computer Applications, 94:27–35, 05 2014. doi: 10.5120/16452-6184.


Peng, Q., Walid, A., and Low, S. H. Multipath TCP: analysis and design. CoRR, abs/1308.3119, 2013. URL http://arxiv.org/abs/1308.3119.


Rossi, F. and Durut, M. Communication challenges in cloud k-means. In ESANN, 2011.


Sapio, A., Canini, M., Ho, C., Nelson, J., Kalnis, P., Kim, C., Krishnamurthy, A., Moshref, M., Ports, D. R. K., and Richtarik, P. Scaling Distributed Machine Learning with In-Network Aggregation. In 18th USENIX Symposium on Networked Systems Design and Implementation (NSDI’21). USENIX Association, April 2021. URL https://www.usenix.org/conference/nsdi21/presentation/sapio.


Sergeev, A. and Balso, M. D. Horovod: fast and easy distributed deep learning in TensorFlow, 2018.


Shoeybi, M., Patwary, M., Puri, R., LeGresley, P., Casper, J., and Catanzaro, B. Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism, 2020.


Singh, A., Ong, J., Agarwal, A., Anderson, G., Armistead, A., Bannon, R., Boving, S., Desai, G., Felderman, B., Germano, P., Kanagala, A., Provost, J., Simmons, J., Tanda, E., Wanderer, J., Holzle, U., Stuart, S., and Vahdat, A. Jupiter rising: A decade of clos topologies and centralized control in google’s datacenter network. In Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM’15), pp. 183–197, New York, NY, USA, 2015. Association for Computing Machinery. ISBN 9781450335423. doi: 10.1145/2785956.2787508. URL https://doi.org/10.1145/2785956.2787508.


Stillmaker, A. and Baas, B. Scaling equations for the accurate prediction of cmos device performance from 180nm to 7nm. Integration, 58:74–81, 2017. ISSN 0167-9260. doi: https://doi.org/10.1016/j.vlsi.2017.02.002. URL https://www.sciencedirect.com/science/article/pii/S0167926017300755.


Sun, P., Feng, W., Han, R., Yan, S., and Wen, Y. Optimizing Network Performance for Distributed DNN Training on GPU Clusters: ImageNet/AlexNet Training in 1.5 Minutes. CoRR, abs/1902.06855, 2019. URL http://arxiv.org/abs/1902.06855.


TensorFlow. TensorFlow Benchmarks. https://github.com/tensorflow/benchmarks, 2021.


The Open MPI Project. Open MPI:Open Source High Performance Computing. https://www.open-mpi.org/, 2021.


Uber Eng. Meet Horovod: Uber’s Open Source Distributed Deep Learning Framework for TensorFlow. https://eng.uber.com/horovod, 2017.


Xilinx. Logicore ip floating-point operator v7.0. https://www.xilinx.com/support/documentation/ip_documentation/floating_point/v7_0/pg060-floating-point.pdf, 2014


Xilinx. Ultrascale+ FPGAs Product Tables and Product Selection Guide. https://www.xilinx.com/support/documentation/selection-guides/ultrascale-plus-fpga-product-selection-guide.pdf, 2021


Zhu, Y., Eran, H., Firestone, D., Guo, C., Lipshteyn, M., Liron, Y., Padhye, J., Raindel, S., Yahia, M. H., and Zhang, M. Congestion Control for Large-Scale RDMA Deployments. In Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM ’15), pp. 523–536, New York, NY, USA, 2015. Association for Computing Machinery. ISBN 9781450335423. doi: 10.1145/2785956.2787484. URL https://doi.org/10.1145/2785956.2787484.


Zhuo, D., Ghobadi, M., Mahajan, R., Forster, K.-T., Krishnamurthy, A., and Anderson, T. Understanding and mitigating packet corruption in data center networks. In Proceedings of the Conference of the ACM Special Interest Group on Data Communication (SIGCOMM ’17), pp. 362–375, New York, NY, USA, 2017. ACM. ISBN 978-1-4503-4653-5. doi: 10.1145/3098822.3098849. URL http://doi.acm.org/10.1145/3098822.3098849.


Zilberman, N., Audzevich, Y., Covington, G., and Moore, A. W. Netfpga sume: Toward 100 gbps as research commodity. IEEE Micro, 34(05):32–41, sep 2014. ISSN 1937-4143. doi: 10.1109/MM.2014.61.

相关实践学习
基于阿里云DeepGPU实例,用AI画唯美国风少女
本实验基于阿里云DeepGPU实例,使用aiacctorch加速stable-diffusion-webui,用AI画唯美国风少女,可提升性能至高至原性能的2.6倍。
目录
相关文章
|
1月前
|
机器学习/深度学习 PyTorch TensorFlow
是否有其他框架可以在iOS设备上进行机器学习?
是否有其他框架可以在iOS设备上进行机器学习?
13 1
|
2月前
|
机器学习/深度学习 并行计算 测试技术
MLX vs MPS vs CUDA:苹果新机器学习框架的基准测试
如果你是一个Mac用户和一个深度学习爱好者,你可能希望在某些时候Mac可以处理一些重型模型。苹果刚刚发布了MLX,一个在苹果芯片上高效运行机器学习模型的框架。
80 1
|
1月前
|
机器学习/深度学习 PyTorch TensorFlow
iOS设备功能和框架: 什么是 Core ML?如何在应用中集成机器学习模型?
iOS设备功能和框架: 什么是 Core ML?如何在应用中集成机器学习模型?
14 0
|
4月前
|
机器学习/深度学习 算法 TensorFlow
机器学习框架教程:介绍一些流行的机器学习框架(如Scikit-learn、XGBoost等)
机器学习框架教程:介绍一些流行的机器学习框架(如Scikit-learn、XGBoost等)
54 0
|
4月前
|
机器学习/深度学习 数据可视化 PyTorch
PyTorch 与 TensorFlow:机器学习框架之战
PyTorch 与 TensorFlow:机器学习框架之战
134 0
|
5月前
|
机器学习/深度学习 算法 TensorFlow
Python机器学习框架介绍
Python机器学习框架介绍
55 0
|
6月前
|
机器学习/深度学习 PyTorch 算法框架/工具
机器学习框架PyTorch详解和案列分析
PyTorch 是一个基于 Python 的机器学习框架,由 Facebook 于 2016 年发布。它提供了一组灵活且高效的工具,可用于构建和训练各种深度学习模型。PyTorch 的核心组件是张量,它是一个多维数组,可以用于存储和处理数据。PyTorch 的张量与 NumPy 的数组类似,但也提供了 GPU 加速和自动微分等功能。PyTorch 使用动态计算图,这意味着在运行时可以修改计算图,从而允许更灵活的模型构建和调试。这与 TensorFlow 等框架的静态计算图不同。PyTorch 支持自动微分,可以方便地计算张量的梯度。这为构建和训练深度学习模型提供了便利。PyTorch 提供了构
158 0
|
7月前
|
机器学习/深度学习
机器学习粗略框架,帮助你快速入门
机器学习粗略框架,帮助你快速入门
48 0
|
9月前
|
机器学习/深度学习 人工智能 算法
超越核方法的量子机器学习,量子学习模型的统一框架
超越核方法的量子机器学习,量子学习模型的统一框架
105 0
|
9月前
|
机器学习/深度学习 Python
【Python】fastapi框架之Web部署机器学习模型
【Python】fastapi框架之Web部署机器学习模型

热门文章

最新文章

相关产品