阿里云助力图森未来提升性能、加速模型迭代
理论上来说,GPU卡越多,整体算力越大,但是随着机器数的增加,不同机器的GPU之间的配合难度会越来越大,单张GPU卡的利用率反而会下降。所以增加了几十倍的卡的成本,但是性能却很难随之线性增长。 于是,阿里云的飞天AI加速器AIACC团队,针对图森未来的场景,在底层针对通讯、计算、时延和带宽等做了深度优化,将训练性能提升了将近60%,大大缩短了图森未来的模型优化时间,加速模型迭代,提高技术门槛。
从一个业务需求初探 Severless 体系
今年阿里云函数计算服务 FC 开始进入阿里集团内部支撑业务,并且和我们的函数研发平台完成了对接,今年大促 Serverless 云研发平台 中多BU 租户进行了函数应用落地,包含淘系、飞猪、高德等业务,并且在部分场景下也通过弹性模式抗住了大规模的流量洪峰。应该有很多同学比较好奇在这背后都发生了什么,今天我们来通过一次函数业务需求初探阿里集团 Severless 体系。
自建Kubernetes集群如何使用弹性容器实例ECI
虚拟节点(Virtual Node)实现了Kubernetes与弹性容器实例ECI的无缝连接,让Kubernetes集群轻松获得极大的弹性能力,而不必受限于集群的节点计算容量。您可以灵活动态的按需创建ECI Pod,免去集群容量规划的麻烦。本文主要介绍虚拟节点和ECI,通过ack-virtual-node组件如何部署虚拟节点及如何创建ECI Pod。
OpenKruise v0.10.0 新特性 WorkloadSpread 解读
针对需求,OpenKruise 在 v0.10.0 版本中新增了 WorkloadSpread 特性。目前它支持配合 Deployment、ReplicaSet、CloneSet 这些 workload,来管理它们下属 Pod 的分区部署与弹性伸缩。下文会深入介绍 WorkloadSpread 的应用场景和实现原理,帮助用户更好的了解该特性。