Dragonfly 发布 v2.1.0 版本!

简介: Dragonfly 最新正式版本 v2.1.0 已经发布! 欢迎使用!

Dragonfly 最新正式版本 v2.1.0 已经发布! 感谢赵鑫鑫[1]同学帮助重构 Console 代码,并且提供全新的 Console[2]控制台方便用户可视化操作 P2P 集群。欢迎访问 d7y.io[3]网站来了解详情,下面具体介绍 v2.1.0 版本带来了哪些更新。

image.png

功能

  • Console v1.0.0[4]已经发布,它是一个全新的可视化控制台,方便用户操作 P2P 集群。
  • 新增虚拟网络拓扑探索功能,能够在 P2P 运行时探测节点之间的网络延迟,从而构建一个虚拟网络拓扑结构提供调度使用。
  • Manager 提供控制 Scheduler 可以提供的服务,例如在 Manager 中设置 Scheduler 不提供预热功能,那么 Scheduler 实例就会拒绝预热请求。
  • Dfstore 提供 GetObjectMetadatasCopyObject 接口,支持 Dragonfly 作为 JuiceFS 的后端存储。
  • 新增 Personal Access Tokens 功能,用户可以创建自己的 Personal Access Tokens 在调用 Open API 的时候鉴权使用。
  • Manager REST 服务提供 TLS 配置。
  • 修复当 Dfdaemon 没有可用的 Scheduler 地址时启动失败的现象。
  • 新增 Cluster 资源单位,Cluster 代表一个 P2P 集群,其只包含一个 Scheduler Cluster 和一个 Seed Peer Cluster,并且二者关联。
  • 修复 Dfstore 在 Dfdaemon 并发下载时,可能导致的对象存储下载失败。
  • Scheduler 新增 Database 配置,并且把之前 Redis 的配置信息移入到 Database 配置中,并且兼容老版本。
  • 在 Dfdaemon 中使用 gRPC 健康检查代替 net.Dial
  • 修复调度器过滤以及评估过程中 candidateParentLimit 可能影响到调度结果的问题。
  • 修复 Scheduler 中的 Storage 在 bufferSize 为 0 的时候,导致的无法写入下载记录的问题。
  • 日志中隐藏敏感信息,例如 Header 中的一些 Token 信息等。
  • Manager 中 Scheduler、Seed Peer 等资源删除过程中,不再使用软删除。
  • Scheduler 数据库表中新增 uk_scheduler 索引,Seed Peer 数据库表中新增 uk_seed_peer 索引。
  • 由于初期功能设计定位不清晰的原因,删除 Security DomainSecurity 的功能。
  • Manager 和 Scheduler 新增 Advertise Port 配置,方便用户配置不同的 Advertise Port。
  • 修复 Task 注册阶段状态机状态变更错误的问题。

破坏性变更

  • 不再提供 Scheduler Cluster 和 Seed Peer Cluster 之间 M:N 的关系。提供了 Cluster 的概念,一个 Cluster 即表示一个 P2P 集群,并且一个 Cluster 只包含一个 Scheduler Cluster 和 Seed Peer Cluster,且二者是 1:1 的关联关系。

控制台

image.png

更多的关于控制台的内容可以参考官网文档 Manager Console[5]。

AI 基础设施

  • Triton Inference Server[6]使用 Dragonfly 下载模型文件,可以参考 #2185[7]。如果有对集成 Triton Inference Server 项目 Drgaonfly Repository Agent[8]感兴趣的同学,可以联系 gaius.qi@gmail.com。
  • TorchServer[9]使用 Dragonfly 下载模型文件,现正在开发,预计 v2.1.1 版本可以使用,项目仓库在 Dragonfly Endpoint[10]。
  • Fluid[11]基于 JuiceFS[12]运行时通过 Dragonfly 下载数据,正在开发,预计 v2.1.1 版本可以使用。
  • Dragonfly 助力火山引擎 AIGC [13]推理业务 P2P 镜像加速。
  • 社区中已经有很多案例,基于 P2P 技术使用 Dragonfly 分发 AI 场景中的文件。在 AI 推理阶段,推理服务并发下载模型可以有效通过 Dragonfly P2P 缓解模型仓库的带宽压力,从而提高整体下载速度。在 KubeCon + CloudNativeCon + Open Source Summit China 2023[14]社区联合快手做一次分享,主题是《Dragonfly: Intro, Updates and AI Model Distribution in the Practice of Kuaishou - Wenbo Qi, Ant Group & Zekun Liu, Kuaishou Technology》[15],感兴趣的同学可以关注。

维护者

社区新增四位 Maintainer,希望能够帮助更多的 Contributor 参与到社区的工作中。

  • 黄逸炀[16]:就职于火山引擎,主要专注于社区代码工程方面。
  • 温满祥[17]:就职于百度,主要专注于社区代码工程方面。
  • Mohammed Farooq[18]:就职于 Intel,主要专注于社区代码工程方面。
  • 许洲[19]:大连理工大学在读博士,主要专注于智能调度算法方面。

其他

版本更新包含的更多细节可以参考👇

CHANGELOG:https://github.com/dragonflyoss/Dragonfly2/blob/main/CHANGELOG.md

相关链接

[1].Xinxin Zhao Github:
https://github.com/1zhaoxinxin

[2].Dragonfly Console Github:
https://github.com/dragonflyoss/console

[3].Dragonfly 官网:
https://d7y.io

[4].Dragonfly Console Release v1.0.0:
https://github.com/dragonflyoss/console/tree/release-1.0.0

[5].Manager Console 文档:
https://d7y.io/docs/reference/manage-console

[6].Triton Inference Server:
https://github.com/triton-inference-server/server

[7].issue #2185:
https://github.com/dragonflyoss/Dragonfly2/issues/2185

[8].Dragonfly Repository Agent Github:
https://github.com/dragonflyoss/dragonfly-repository-agent

[9].TorchServe:
https://github.com/pytorch/serve

[10].Dragonfly Endpoint Github:
https://github.com/dragonflyoss/dragonfly-endpoint

[11].Fluid:
https://github.com/fluid-cloudnative/fluid

[12].JuiceFS:
https://github.com/juicedata/juicefs

[13].Volcano Engine AIGC:
https://mp.weixin.qq.com/s/kY6DxRFspAgOO23Na4dvTQ

[14].KubeCon + CloudNativeCon + Open Source Summit China 2023:
https://www.lfasiallc.com/kubecon-cloudnativecon-open-source-summit-china/

[15].《Dragonfly: Intro, Updates and AI Model Distribution in the Practice of Kuaishou - Wenbo Qi, Ant Group & Zekun Liu, Kuaishou Technology》:
https://sched.co/1PTJb

[16].Yiyang Huang Github:
https://github.com/hyy0322

[17].Manxiang Wen Github:
https://github.com/garenwen

[18].mfarooq-intel Github:
https://github.com/mfarooq-intel

[19].Zhou Xu Github:
https://github.com/fcgxz2003

Dragonfly Star 一下✨:

https://github.com/dragonflyoss/Dragonfly2

相关文章
|
Dragonfly 缓存 Kubernetes
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
Dragonfly 在 Kubernetes 多集群环境下分发文件和镜像
|
并行计算 Cloud Native 异构计算
用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!
云原生已经成为业内云服务的一个趋势。在云原生上支持异构计算有助于提升CPU的利用率。一文分析业内主流GPU共享方案,并告诉你阿里云cGPU牛在哪里!阿里云异构计算推出的cGPU(container GPU)容器技术,创新地提出了一种不同于以往的GPU容器方案,克服了业内主流方案的一些常见的缺陷,在保证性能的前提下,做到了容器之间的GPU显存隔离和任务隔离,为客户充分利用GPU硬件资源进行训练和推理提供的有效保障。
9857 0
用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!
|
Linux 虚拟化 Windows
Bitnami:服务器套件的云部署工具
Bitnami是一个面向服务器维护者的云服务,直接提供适用于各种Linux发行版的免配置的服务器软件安装包。其自身定位为“服务器端的软件商店”。
5410 0
Bitnami:服务器套件的云部署工具
|
监控 Java 网络性能优化
容器内存可观测性新视角:WorkingSet 与 PageCache 监控
本文介绍了 Kubernetes 中的容器工作内存(WorkingSet)概念,它用于表示容器内存的实时使用量,尤其是活跃内存。
57465 109
容器内存可观测性新视角:WorkingSet 与 PageCache 监控
|
存储 Kubernetes 网络协议
Kubernetes 集群部署 NFS-Subdir-External-Provisioner 存储插件
Kubernetes 对 Pod 进行调度时,以当时集群中各节点的可用资源作为主要依据,自动选择某一个可用的节点,并将 Pod 分配到该节点上。在这种情况下,Pod 中容器数据的持久化如果存储在所在节点的磁盘上,就会产生不可预知的问题,例如,当 Pod 出现故障,Kubernetes 重新调度之后,Pod 所在的新节点上,并不存在上一次 Pod 运行时所在节点上的数
9010 3
Kubernetes 集群部署 NFS-Subdir-External-Provisioner 存储插件
|
存储 Dragonfly 调度
Dragonfly是什么
Dragonfly是什么
1202 4
|
存储 Dragonfly 弹性计算
火山引擎基于 Dragonfly 加速实践
火山引擎镜像仓库 CR 使用 TOS 来存储容器镜像。目前在一定程度上能满足并发大规模的镜像拉取。然而最终拉取的并发量受限于 TOS 的带宽和 QPS。
火山引擎基于 Dragonfly 加速实践
|
Dragonfly Kubernetes 调度
P2P镜像分发:Harbor+Dragonfly优化k8s集群镜像拉取速度(二)
本篇文章则分享在大规模的kubernetes集群中,通过Harbor与Dragonfly来优化镜像的拉取速度。
2456 0
|
机器学习/深度学习 缓存 Kubernetes
Kubernetes 调度系统之 Scheduling Framework
阿里云容器服务团队结合多年Kubernetes产品与客户支持经验,对Kube-scheduler进行了大量优化和扩展,逐步使其在不同场景下依然能稳定、高效地调度各种类型的复杂工作负载。 本文帮助大家更好地了解Kubernetes调度系统的强大能力和未来发展方向。
3070 0
Kubernetes 调度系统之 Scheduling Framework