55k star,推荐一份关于devops、SRE、运维的手册,简直就算是一份面试大纲了

本文涉及的产品
可观测监控 Prometheus 版,每月50GB免费额度
简介: 【8月更文挑战第10天】

1 简介

关于devops你需要知道的,这里都有,包括不限于:Linux,Jenkins,AWS,SRE,Prometheus,Docker,Python,Ansible,Git,Kubernetes,Terraform,OpenStack,SQL,NoSQL,Azure,GCP,DNS,Elastic,Network,Virtualization。

image.png

这份手册中包含的内容大部分是关于SRE或者devops相关,如果你是运维或者开发, 或者是运维开发, 那么这份手册建议你好好看下,里面包含了目前有2624个练习和问题,包括不限于如下内容

image.png

2 获取

github可以访问的直接到如下链接去下载就可以

https://github.com/bregman-arie/devops-exercises

github如果无法访问的话,可以后台直接私信

3 下为部分内容

例如关于prometheus的:

  • 什么是 Prometheus?Prometheus 的一些主要特点是什么?
  • 在什么情况下可能不适合使用 Prometheus?
  • 描述 Prometheus 的架构和组件。
  • 您能将 Prometheus 与其他解决方案(例如 InfluxDB)进行比较吗?
  • 什么是警报(Alert)?
  • 什么是实例(Instance)?什么是作业(Job)?
  • Prometheus 支持哪些核心度量类型?
  • 什么是导出器(Exporter)?它有什么用途?
  • 有哪些 Prometheus 最佳实践?
  • 如何在给定时间段内获取总请求数?
  • Prometheus 中的 HA 是什么意思?
  • 如何将两个度量指标连接在一起?
  • 如何编写一个查询,返回标签的值是多少?

image.png

如下为关于devops你需要了解的:
更多具体内容可以到原文去查看

  • devops

    • 通用

      • 什么是 DevOps?

      • DevOps 的好处是什么?它能帮助我们实现什么?

      • DevOps 的反模式有哪些?

      • 您如何描述一个成功的 DevOps 工程师或团队?

      • 您的一位团队成员建议在持续交付方面设定一个“每天至少部署 20 次”的目标。您对此有何看法?

    • 工具

      • 在选择工具/技术时您会考虑哪些因素?

      • 您能描述一下在以下领域中选择使用的工具或平台以及如何使用吗?

        • CI/CD

        • 基础设施创建

        • 配置管理

        • 监控与报警

        • 日志记录

        • 代码审查

        • 代码覆盖率

        • 问题跟踪

        • 容器和容器编排

        • 测试

      • 您的一个团队成员建议用一种新的 CI/CD 平台替代组织目前使用的平台。您会如何回复?

    • 版本控制

      • 什么是版本控制?

      • 什么是提交(commit)?

      • 什么是合并(merge)?

      • 什么是合并冲突(merge conflict)?

      • 您熟悉关于版本控制的哪些最佳实践?

      • 您更喜欢“配置->部署”模型还是“部署->配置”模型?为什么?

      • 解释可变基础设施与不可变基础设施

    • 软件分发

      • 解释“软件分发”是什么意思?

      • 为什么会有多个软件分发?它们可能有什么不同之处?

      • 什么是软件仓库(Software Repository)?

      • 有哪些分发软件的方式?每种方法的优缺点是什么?

      • 您熟悉“大教堂与市集模型”吗?请解释每种模型。

      • 什么是缓存?它是如何工作的?为什么它很重要?

      • 解释无状态与有状态

      • 什么是可靠性(Reliability)?它如何与 DevOps 相关?

      • “可用性”是什么意思?有哪些方法可以追踪服务的可用性?

      • 为什么目标不是 100% 的可用性?为什么大多数公司或团队将其设为 99%。X?

      • 描述设置某种类型的 Web 服务器(如 Apache、IIS、Tomcat 等)的工作流程。

      • Web 服务器是如何工作的?

      • 解释“开源”(Open Source)

      • 描述您设计和/或实现的服务/应用/项目的体系结构。

      • 您熟悉哪些测试类型?

      • 您需要定期在不同的操作系统上(如 Ubuntu、RHEL 等)安装一个软件包(除非已存在)。您会如何操作?

      • 什么是混沌工程(Chaos Engineering)?

      • 什么是“基础设施即代码”(Infrastructure as Code)?您熟悉哪种 IAC 的实现?

      • 基础设施即代码有哪些好处?

      • 您如何管理构建产物?

      • 您使用/偏好哪种持续集成解决方案?为什么?

      • 您熟悉或使用过哪些部署策略?

      • 您加入了一个团队,每个人都在开发一个项目,惯例是在本地工作站上运行测试,如果测试通过就将其推送到代码库。目前这个流程存在哪些问题,如何改进?

      • 解释测试驱动开发(TDD)

      • 解释敏捷软件开发

      • 您对以下陈述的看法如何?:“实施或实践 DevOps 会导致更安全的软件”

      • 您知道什么是“事后会议”(post-mortem meeting)吗?您对此有何看法?

      • 什么是配置漂移(configuration drift)?它会带来哪些问题?

      • 如何处理配置漂移?

      • 解释声明性和过

      • 程式风格。您熟悉(或使用)的技术是使用过程式风格还是声明性风格?

      • 您是否有跨项目更改的测试经验?(也称为跨依赖性)

      • 您有为开源项目做贡献的经验吗?请分享一下这个经历。

      • 什么是分布式跟踪(Distributed Tracing)?

    • GitOps

      • 什么是 GitOps?

      • 应用 GitOps 的一些优势是什么?

      • 当称一个仓库为“GitOps 仓库”时,它意味着什么?

      • GitOps 的一些实际实施或实践是什么?

      • 您的团队中的两位工程师争论在某个特定应用程序的配置和基础设施相关文件放在哪里。其中一位建议将其放在与应用程序代码库相同的仓库中,另一位建议将其放在一个独立的仓库中。您对此有何看法?

    • SRE

      • SRE 与 DevOps 之间有什么区别?

      • SRE 团队的责任是什么?

      • 什么是错误预算(error budget)?

      • 您如何看待以下陈述:“系统的唯一正确可用性目标是 100%”?

      • 什么是 MTTF(平均故障间隔时间)和 MTTR(平均修复时间)?这些指标如何帮助我们评估?

      • 在 SRE 中,监控的作用是什么?

      • 主要的 SRE KPIs 是什么?

      • 什么是工作(Toil)?

      • 什么是事后总结(postmortem)?

      • 谈谈关于事后总结的核心价值。

注:如需转载,须保留文首公众号名片,其它行为一律视为非授权转载。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
相关文章
|
8天前
|
运维 Devops 持续交付
自动化运维的魔法:打造高效DevOps流水线
【10月更文挑战第34天】在数字化时代的浪潮中,DevOps成为企业追求敏捷、高效和稳定的关键。本文将通过一个真实案例,展示如何构建一个高效的DevOps流水线,实现从代码提交到部署的全自动化流程。我们将探讨流水线设计的哲学、工具选择以及面临的挑战,并分享实际的代码示例和操作步骤,帮助读者理解自动化运维的精髓。
23 2
|
14天前
|
运维 Devops 测试技术
自动化运维的魔法——打造高效的DevOps流程
【10月更文挑战第28天】在数字化浪潮不断推进的今天,企业对运维效率的追求如同古人探索魔法一般充满好奇与渴望。本文将带你走进自动化运维的世界,揭秘如何通过DevOps实践,实现从代码到部署的无缝连接,提升企业的IT运营效能。我们将一起探索自动化工具的选择与配置,以及如何构建一个既能快速响应业务需求,又能保障系统稳定性的高效流程。
|
17天前
|
运维 Prometheus 监控
自动化运维之路:从脚本到DevOps
【10月更文挑战第25天】在数字化时代的浪潮中,运维不再是简单的服务器管理,而是成为了企业竞争力的核心。本文将带你走进自动化运维的世界,探索如何通过技术手段提升效率和稳定性,以及实现快速响应市场的能力。我们将一起学习如何从基础的脚本编写进化到全面的DevOps实践,包括工具的选择、流程的优化以及文化的建设。无论你是运维新手还是资深专家,这篇文章都将为你提供有价值的见解和实用的技巧。
17 3
|
1月前
|
人工智能 运维 Devops
自动化运维之路:从脚本到DevOps的转变
【10月更文挑战第7天】在这篇文章中,我们将一起探索自动化运维的演变历程,从最初的简单脚本到现代的DevOps实践。我们将深入理解自动化如何改变了运维工作的本质,并讨论实现这一转变的关键技术和策略。文章将不包含代码示例,而是聚焦于理念、工具和方法论的介绍,旨在为读者提供一个全面的自动化运维框架视图。
|
1月前
|
运维 监控 Devops
自动化运维的魔法:打造高效DevOps流水线
【10月更文挑战第6天】 在现代软件开发的快节奏中,自动化运维成为提高效率、保障质量的重要手段。本文将带你了解如何构建高效的DevOps流水线,从持续集成到部署,再到监控和反馈,我们将一步步揭开自动化运维的神秘面纱。你将学习到如何通过代码和工具的结合,实现软件交付过程的自动化,以及如何通过这一流程提升团队的协作和响应速度。让我们开始探索自动化运维的奇妙之旅吧!
|
1月前
|
运维 Devops jenkins
自动化运维之路:从脚本到DevOps
【9月更文挑战第31天】在数字化时代的浪潮中,运维不再是单纯的系统维护,而是企业竞争力的加速器。本文将带你领略自动化运维的演变历程,从最初的脚本编写到现代DevOps实践的转变,揭示如何通过持续集成和持续交付(CI/CD)实现运维的高效与创新。我们将一起探索工具的选择、流程的优化以及文化的培养,让运维工作变得既简单又强大。
|
2月前
|
运维 Devops 大数据
自动化运维之路:从脚本到DevOps的转变
【9月更文挑战第24天】在数字化时代的浪潮中,企业对运维的要求越来越高。本文将探讨如何通过自动化工具和DevOps文化,提升运维效率,确保系统的稳定性和安全性。我们将一起走进自动化运维的世界,了解其背后的理念和技术实现,以及它如何改变我们的工作方式。
49 2
|
2月前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
194 3
|
2月前
|
运维 Devops jenkins
自动化运维之路:从脚本到DevOps
【9月更文挑战第11天】随着技术的快速发展,传统的手动运维方式已无法满足现代企业的需求。本文将引导你了解如何通过自动化工具和DevOps实践来提升运维效率,确保系统的高可用性和快速迭代。我们将从基础的脚本编写出发,逐步深入到DevOps的核心理念和实践,让你的运维工作变得更加高效和可靠。
|
2月前
|
运维 Devops jenkins
自动化运维:打造高效DevOps流水线
【8月更文挑战第44天】本文将通过深入浅出的方式,带你构建一个自动化的DevOps流水线,提升开发和部署效率。从基础概念到实际操作,我们一步步剖析如何实现代码提交、自动测试、构建、部署的全过程自动化。你将学会使用Jenkins、Git、Docker等工具,并结合Shell脚本编写,完成一个完整的自动化流程。文章末尾附有完整的示例代码,助你快速上手实践。