《DevOps实战:VMware管理员运维方法、工具及最佳实践》——第2章 DevOps工具 2.1为成功而组织:看板

简介:

本节书摘来自华章计算机《DevOps实战:VMware管理员运维方法、工具及最佳实践》一书中的第2章,第2.1节,作者:小特雷弗 A. 罗伯茨(Trevor A. Roberts Jr.)乔希·阿特韦尔(Josh Atwell)埃格勒·西格勒(Egle Sigler)著,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第2章 DevOps工具

2.1 为成功而组织:看板

传统的运营团队任务管理通常涉及某种单据系统。故障单据很适合于跟踪问题,并在问题解决以后进行历史分析。故障单据系统的问题在于,它们给应该相关的任务之间的关联带来了困难。另一个挑战是生产交付瓶颈根源的识别。而且,工作者们可能无法看到其他人处理的故障单据,从而无法借助他人的专业知识。最后,管理工作过程、避免过度分配运营团队成员的最佳途径是什么?也就是说,如果运营团队总是专注于堆积如山的指派任务,他们何时才有时间改善系统,偿还技术债务呢?我们如何正确排定工作的优先级,考虑任务之间的依赖性?
看板(Kanban,字面翻译为“标记卡片”)系统有助于解决这些问题,以及其他的一些问题。这种方法是Taiichi Ohno在开发丰田制造系统时为了实现即时生产(JIT)目标而开发的,它通过检查制造过程不同步骤的流程,识别需要补救的瓶颈,使系统更加高效。具体的思路是,缓解瓶颈,就会将工作任务从在途状态带到完成状态。限制在途工作可以为工作者带来空闲时间,对制造过程进行改进(例如,在缓解旧瓶颈的同时识别和消除新瓶颈)。图2-1展示了制造过程的估计完成时间没有实现的例子。

screenshot

随着工作流从原材料输入到制造过程,最后进入装配过程,我们可以看到估算的完成时间和实际不符。装配过程似乎有某些问题。在进一步调查中,工厂工人们可能发现在金属薄板上喷涂特种涂料的过程效率不高。例如,服务器面板制造过程的输入可能表现出没有正确应用涂料的信号,所以进行返工,导致整个过程的效率不高。如果喷涂过程中固定薄钢板的托架没有超载,输出产品的制造可能从一开始就是正常的,不需要太多的返工。
在前一个例子中,如果工人埋头修复没有正确喷涂的金属薄板,而没有去识别问题的真正根源,就会继续浪费精力。我们从来没有在IT运营工作流中看到这种问题,对吗?
你可能会觉得奇怪,我们为什么在关于DevOps工具的章节中讨论制造工程组织方法。但是,在成功地改变工作方式之前,我们必须用一种条理性的方法来安排工作、识别系统中的问题。
尽管看板是制造中的一个学科,但是通过David J.?Anderson和其他人的努力,将精益的概念与丰田的看板方法相结合,在IT业流行起来。我们不对看板做全面介绍,但是将讨论有助于IT运营团队的关键点。
看板系统最重要的特征是工作过程管理。在新工作请求时分配所有IT运营人员会造成效率低下,这一点似乎有些违反直觉。但是,运营团队面对和制造团队类似的问题。例如,如果团队使用预先制作的ISO金映像构建服务器,如果金映像有一段时间没有更新,那么在需要人工更新应用程序和打补丁时就有可能出现错误。如果团队的管理者将重点主要放在满足服务器请求,以至于100%的工作人员都参与这类工作流,而没有寻找改善过程效率的方法,这样的情况还会持续。不过,人为的错误可能引起失败,重要的安全更新可能遗漏,容易遭到攻击的端口保持打开,必须加以补救才能确保服务器不会遭到攻击。团队可能习惯于这种低效的状态,管理层也对产量感到满意。但是,很多时间浪费在这种重复劳动上,这种状态被称作“技术负债”。
技术负债是在计划好的工作期间,由于错误或者效率低下造成的所有计划外工作。运营团队需要充分的时间进行系统改进,即使这一工作没有相关的具体可交付成果。我并不是为运营团队的“游手好闲”辩护(经理们可能这么想)。运营团队看上去似乎很高效地服务于当前的客户需求,但是,当公司希望很快增加运营规模时会发生什么情况?现有的工作流不能停止,在你遇到没有准备好解决方案的伸缩性问题时,就要对系统进行改进。如果现在已经遇到某些这类问题,积极调查并缓解瓶颈,可以帮助你增进效率。
看板的另一个重要特征是工作流自始至终的可视化。最流行的展示方式是看板图,它可以采用物理或者数字形式。图2-2展示了可供第1章介绍的DevWidgets公司使用的看板图示例。

screenshot


图2-2 在线看板图

看板图的思路是每个任务由一张索引卡或者即时贴(也被称作看板)表示,在看板图左侧的“积压工作”(Backlog)分类下排队。“积压工作”和“完成”(Done)之间的栏目代表工作过程。在工作任务移出积压工作栏时,在它们上面放置工作过程(WIP)限制(例如,4/4和5/5)。在一张看板移到工作流的下一栏之前,不应该在WIP栏上放置其他工作。
图2-2展示了不同的任务行——也称为泳道。这些泳道对应于不同类型的工作(例如,新产品、维护和缺陷)。正确地为工作分类有助于优先级的排定。
团队第一次开始使用看板时,WIP限制可以根据过去的经验设置。以后,随着瓶颈的缓解和团队效率的改进,这些限制可以更改,这样团队就可以随着时间的推移不断寻求工作流的改善。记住,目标是持续改善,同时避免团队100%投入新的任务。如果你对在团队中引入看板方法感兴趣,咨询该学科从业者中的佼佼者(如Dominica DeGrandis或精益看板大学认可的从业者)是值得的。你的看板图不一定要和图2-2中的相似,目标是开发对团队有意义的清晰、实用系统。

相关文章
|
1月前
|
弹性计算 运维 监控
|
1月前
|
弹性计算 运维 安全
云上DevOps自动化的最佳实践
本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
|
4月前
|
运维 Linux Apache
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
Puppet 作为一款强大的自动化运维工具,被广泛应用于配置管理领域。通过定义资源的状态和关系,Puppet 能够确保系统始终处于期望的配置状态。
110 3
|
2月前
|
弹性计算 运维 监控
云资源运维难?阿里云免费工具来帮忙
阿里云推出免费运维工具——云服务诊断,帮助用户提升对云资源的运维效率、降低门槛、减轻负担。其核心功能包括「健康状态」和「诊断」。通过「健康状态」可实时查看云资源是否正常;「诊断」功能则能快速排查网络、配置、安全等问题,并提供修复建议,助您迅速恢复业务。体验评测活动火热进行中,参与即有机会赢取索尼头戴耳机、小米背包等好礼。活动链接:https://developer.aliyun.com/topic/cloud-health。
549 24
|
2月前
|
运维 Kubernetes Devops
自动化运维:从脚本到工具的演进之旅
在数字化浪潮中,自动化运维成为提升效率、保障系统稳定的关键。本文将探索自动化运维的发展脉络,从基础的Shell脚本编写到复杂的自动化工具应用,揭示这一技术变革如何重塑IT运维领域。我们将通过实际案例,展示自动化运维在简化工作流程、提高响应速度和降低人为错误中的重要作用。无论你是初学者还是资深专家,这篇文章都将为你提供宝贵的洞见和实用的技巧。
|
3月前
|
机器学习/深度学习 人工智能 运维
自动化运维之路:从脚本到工具的演进
在IT运维领域,效率和准确性是衡量工作成效的关键指标。随着技术的发展,自动化运维逐渐成为提升这两个指标的重要手段。本文将带领读者了解自动化运维的演变历程,从最初的简单脚本编写到现今复杂的自动化工具应用,展示如何通过技术提升运维效率。文章不仅介绍理论和实践案例,还提供了代码示例,帮助读者理解自动化运维的实际应用场景。
|
3月前
|
运维 Ubuntu 应用服务中间件
自动化运维工具Ansible的实战应用
【10月更文挑战第36天】在现代IT基础设施管理中,自动化运维已成为提升效率、减少人为错误的关键手段。本文通过介绍Ansible这一流行的自动化工具,旨在揭示其在简化日常运维任务中的实际应用价值。文章将围绕Ansible的核心概念、安装配置以及具体使用案例展开,帮助读者构建起自动化运维的初步认识,并激发对更深入内容的学习兴趣。
97 4
|
3月前
|
运维 监控 数据安全/隐私保护
自动化运维工具的设计与实现
【10月更文挑战第34天】在现代IT基础设施管理中,自动化运维工具扮演着至关重要的角色。它们不仅提高了运维效率,还确保了服务的连续性和稳定性。本文将深入探讨如何设计并实现一个自动化运维工具,从需求分析到功能实现,再到最终的测试与部署。我们将通过一个简单的代码示例来展示如何自动执行常见的运维任务,如日志清理和性能监控。文章旨在为读者提供一套完整的方法论,以便他们能够构建自己的自动化运维解决方案。
|
4月前
|
监控 Devops 持续交付
掌握 GitOps:实现 DevOps 自动化的现代方法
【10月更文挑战第19天】GitOps 是一种基于 Git 仓库管理应用配置和集群状态的现代化 DevOps 方法,通过自动化工具实现声明式配置和持续部署。本文介绍了 GitOps 的核心概念、优势、挑战及实施的最佳实践,帮助团队提高部署效率和系统可靠性。
|
4月前
|
运维 关系型数据库 MySQL
自动化运维工具Ansible的实战应用
【10月更文挑战第9天】在现代IT运维领域,效率和可靠性是衡量一个系统是否健康的重要指标。自动化运维工具Ansible因其简洁、易用的特性,成为了众多企业和开发者的首选。本文将通过实际案例,展示如何利用Ansible进行日常的运维任务,包括配置管理、软件部署以及批量操作等,帮助读者深入理解Ansible的应用场景及其带来的效益。