Argo项目入驻CNCF,一文解析Kubernetes原生工作流-阿里云开发者社区

开发者社区> xianlubird> 正文

Argo项目入驻CNCF,一文解析Kubernetes原生工作流

简介: 近期CNCF宣布欢迎Argo项目进入 CNCF 孵化器,作为一个新加入的项目,Argo主要关注于Kubernetes原生的工作流,持续部署等方面。 Argo项目是一组Kubernetes原生工具集合,用于运行和管理Kubernetes上的作业和应用程序。
+关注继续查看

image.png
近期CNCF宣布欢迎Argo项目进入 CNCF 孵化器,作为一个新加入的项目,Argo主要关注于Kubernetes原生的工作流,持续部署等方面。

Argo项目是一组Kubernetes原生工具集合,用于运行和管理Kubernetes上的作业和应用程序。阿里云容器服务是国内早期使用argo workflow的团队之一。在落地生产过程中,解决了大量性能瓶颈,并且开发了较多功能回馈给社区,团队成员也是Argo 项目Maintainer 之一。

面向K8s的工作流, Argo 项目介绍

DAG (Directed acyclic graph,有向无环图)是一个典型计算机图论问题,可以用来模拟有相互依赖关系的数据处理任务,比如音视频转码,机器学习数据流,大数据分析等。

Argo 最早是通过workflow 在社区闻名。Argo Workflow 的项目名称就是Argo(https://github.com/argoproj/argo), 是Argo 组织最初的项目。Argo Workflow 专注于Kubernetes Native Workflow 设计,拥有声明式工作流机制,能够通过 CRD 的模式完全兼容Kubernetes 集群,每个任务通过Pod的形式运行,Workflow 提供DAG等依赖拓扑,并且能够通过Workflow Template CRD实现多个Workflow 之间的组合与拼接。
image.png
上图就是一个典型的 DAG 结构,Argo Workflow 可以根据用户提交的编排模板,很容易的构建出一个有相互依赖关系的工作流。Argo Workflow 就可以处理这些依赖关系,并且按照用户设定的顺序依次运行。

Argo CD 是另一个最近比较知名的项目。 Argo CD主要面向Gitops流程,解决了通过Git一键部署到Kubernetes的需求,并且能够根据版本标识快速跟踪,回滚。Argo CD还提供了多集群部署功能,能够打通多个集群之间同一应用部署问题。

image.png

Argo Event 提供基于事件依赖关系的声明式管理,以及基于各种事件源的Kubernetes资源触发器。 Argo Events的常见用法是触发Argo工作流并为使用Argo CD部署的长期服务生成事件。


Argo Rollout 是为了解决多种部署形式而诞生的项目。Argo Rollout 能实现多种灰度发布方式,同时结合Ingress, Service Mesh 等方式完成流量管理与灰度测试。


Argo 各个子项目既可以单独使用,也可以结合使用。一般而言,结合使用多个子项目能够发挥Argo更大的能力,并且实现更多的功能。

使用Argo中遇到的问题与解决方法

阿里云最早落地的是Argo Workflow,在使用Argo Workflow 时第一个问题就是权限管理。Argo Workflow 每一个具体的任务都是通过Pod来执行,同时有一个sidecar 容器来监听主任务的进行。这里的sidecar监听方式是通过mount docker.sock 来实现,这就绕过了Kubernetes APIServer RBAC机制,无法实现对于用户权限的精确控制。我们与社区一起合作开发,实现了Argo Kubernetes APIServer Native Executor 功能,sidecar能够通过service account 监听APIServer 来获取到主容器的动态与信息,实现了Kubernetes RBAC的支持与权限收敛。


Argo Workflow 在 DAG 解析过程中,每一步都会根据Workflow label 来扫描所有的Pod 状态,以此来决定是否需要进行下一步的动作。但是每一次扫描都是串行执行,当集群中Workflow 较多的时候,就会出现扫描速度缓慢,工作流的任务长时间等待的现象。基于此我们开发了并行扫描功能,将所有的扫描动作使用goroutine 并行化,极大的加速了工作流执行效率。将原有需要20 小时运行的任务,降低到4 小时完成。此功能已经回馈给社区,并且在Argo Workflow v2.4版本发布。


在实际生产中,Argo Workflow 执行的步数越多,占用的空间越多。所有的执行步骤均记录在CRD Status 字段里面。当任务数量超过 1000 步的时候,就会出现单个对象过大,无法存储进入ETCD,或者会因为流量过大,拖垮APIServer。我们与社区合作开发了状态压缩技术,能够将Status进行字符串压缩。压缩后的Status字段大小仅为原来大小的 20 分之一,实现了5000步以上的大型工作流运行。

阿里云在基因数据处理场景落地

AGS主要应用于基因组测序二级分析,通过AGS加速API只需要15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程,相比经典流程可加速120倍,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。


通过分析个体基因序列的突变机制,可为遗传病检测、肿瘤筛查等提供有力支撑,未来将在临床医学和基因诊断方面发挥巨大作用。人类全基因组有约30亿个碱基对,一个30X的WGS测序数据量大约在100GB。AGS在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,同时适用于DNA的SNP/INDEL以及CNV结构变异检测,以及DNA/RNA病毒检测等场景。



image.png



AGS工作流是基于argo实现的,为Kubernetes提供容器化的本地工作流程。工作流程中的每个步骤都定义为容器。
工作流引擎是作为 Kubernetes CRD(自定义资源定义)实现的。 因此,可以使用kubectl管理工作流,并与其他Kubernetes 服务本地集成,例如Volumes、Secrets 和 RBAC。 工作流控制器提供完整的工作流程功能,包括参数替换,存储,循环和递归工作流程。


阿里云在基因计算场景下使用Argo Workflow 在Kubernetes集群上运行数据处理分析业务,能够支持超过 5000 步以上的大型工作流,且能够比传统数据处理方式加速百倍。通过定制化的Workflow引擎,极大的便捷了基因数据处理的效率。

作者简介

陈显鹭
阿里云技术专家
深耕Docker&Kubernetes多年 是Docker多个项目的Contributor, Kubernetes Group Member,《自己动手写Docker》作者。 专注于容器技术的编排与基础环境研究。爱好折腾源代码 热爱开源文化并积极参与社区开源项目的研发

郡宝, Kubernetes 项目贡献者,Kubernetes 和 Kubernetes-sigs 社区成员。在容器、K8S领域有多年的实践经验,目前就职于阿里巴巴云计算容器服务团队,主要研究方向有容器存储、容器编排 、 AGS产品等领域

AGS 试用连接 https://help.aliyun.com/document_detail/156348.html?spm=a2c4g.11186623.6.708.29416a0crpUHqt

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
如何简单的测试kubernetes的dns add-ons是否工作正常?
1,新建一个yaml文件。 apiVersion: v1 kind: Pod metadata: name: busybox namespace: default spec: containers: - image: busybox command: ...
933 0
未能解析目标框架“.NETFramework,Version=v4.0”的 mscorlib 错误的解决办法
VS2010有时候莫名出现下面问题: 未能解析目标框架“.NETFramework,Version=v4.0”的 mscorlib 错误 相关的工程出现这个问题,可能是使用同步盘同步的引起的。
2358 0
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
8379 0
Dom4j工具--XML的DOM解析(上)--读操作
前言: 什么是DOM解析 DOM解析原理:xml解析器一次性把整个xml文档加载进内存,然后在内存中构建一颗Document的对象树,通过Document对象,得到树上的节点对象,通过节点对象访问(操作)到xml文档的内容。
1908 0
.Net利用Newtonsoft进行解析Json的快捷方法
现在异构系统之间的数据交换多采用Json格式 .Net如何快捷地解析Json和将Object转换成json呢? 1.利用Newtonsoft解析Json字符串 在百度上查找资料,利用Newtonsoft解析Json多是把Json转换成某一特定的Object,这样的不便之处是有事需要特意为了解析该json而写一个class,对一些不规范的的Json,难以用Object来转换的,用他们的方法就不叫难行得通了。
2077 0
不了解工作流框架 Activiti 中的流程事件?这篇工作流流程元素详解,带你详细分析工作流流程执行过程中的各种事件
本文介绍了工作流Activiti框架中BPMN结构中各种事件。主要包括定时器事件,错误事件,信号事件,消息事件,开始事件,结束事件,边界事件,中间捕获事件以及内部触发事件。通过对BPMN中各种事件的学习了解,可以帮助我们在项目中更加方便地对工作流中各种处理流程进行应用,极大提高了项目的开发效能。
15 0
项目经理工作的思考?
大家可以一起来思考一下:   1、项目经理为执行计划、组织和控制职能应做哪些工作?   2、优秀的项目经理应具备的必要技能有哪些?   3、请说明为什么项目经理需要良好的口头及书面沟通能力。
607 0
+关注
xianlubird
阿里云容器服务
20
文章
50
问答
来源圈子
更多
容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级 Kubernetes 容器化应用的全生命周期管理。容器服务 Kubernetes 版简化集群的搭建和扩容等工作,整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳的 Kubernetes 容器化应用运行环境。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载