一款跑在云上的定制容器专属 OS 来了——LifseaOS | 龙蜥技术

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 如果可以把运维 API 化,那我们是不是可以把 OS 也作为一个 K8S 可以管理的资源,让 K8S 像管理容器一样管理OS?

今晚文章图.jpg

引言

在 2021 年 10 月的云栖大会上,为云原生而生的 OS Lifsea 正式对外发布,并集成进入阿里云容器服务 ACK Pro 的托管节池,成为可选的操作系统选项。


不久前,LifseaOS 核心代码正式在龙蜥社区开源,用户可以基于 LifseaOS 开源代码构建、定制一个属于自己的容器专属 OS。

WHY LifseaOS?

说到 LifseaOS,不得不提到其主要面向的场景:容器。


从最早的 UNIX chroot,到 Linux 的 LXC,早期以 cgroup、namespace 为基础的容器运行时技术一直在持续演进,但并没有出现阶段性的突破。直到 2013 年,docker 的出现直接推进了容器的快速普及,经过短短几年的发展,容器已经成为了主流的 IT基础设施技术被广泛地应用。容器的快速发展 docker 功不可没,而我们回顾当时 docker 最初的工作,可以发现其并没有进行颠覆性的技术变革,其核心创新主要包括以下两个部分:

  • 定义了容器分层镜像标准以及镜像仓库:容器镜像将应用运行环境,包括代码、依赖库、工具、资源文件和元信息等,打包成一种操作系统发行版无关的不可变更软件包
  • 定义了覆盖容器全生命周期 restful API:restful API 的将整个容器的创建、监控、销毁过程标准化,部署、运维人员可以在一个集群内对大量的容器进行统一化的管理

这两个关键创新带来了整个开发、集成、部署的革命。首先镜像能力为 devops 提供了一条便捷的道路,开发人员可以在开发过程中便完成对于整个运行环境的把控,将自己开发成果直接上线部署生产投入,无需再去考虑操作系统兼容、库依赖等环境因素,实现了 docker 的口号“Build,Ship and Run Any App,Anywhere”。其次,restful API 出现使得容器的生命周期管理愈加的便捷,利用编排工具对容器的管理,SRE 可以快速、无差别地进行应用的部署、升级、下线,实现了针对应用管理由“宠物”到“牛群”的质的飞越。


伴随着容器一起发展的是以容器为基础衍生而出的容器编排、容器存储、容器网络等领域,这些领域紧密结合形成了“云原生”生态,并且在 2015 年开始,围绕着 K8S 逐步形成了一套完整的“云原生操作系统”。通过 K8S,用户可以在一个分布式集群内快速、高效地部署容器,无需再去关注复杂的集群资源分配、容器调度等工作。为了完整地支持 K8S,云厂商也进行了大量的 K8S 的支撑对接,纷纷提供适配自身 I 层基础设施的 CNI(Container Network Interface)、CSI(Container Storage Interface)以及相对应的 cluster-autoscaler 等组件,让 K8S 可以完美的管理自己的存储、网络、计算资源。

在基础设施纷纷“云原生化”的过程中,有一个同属于 Infra 的组件却步骤缓慢,这就是操作系统,也就是我们一直说的 OS。虽然存在感并不是很强,但是 OS 作为下接硬件、上接业务的底层软件,默默地为应用提供了单机资源管理、运行环境构建等能力,发挥着举足轻重的作用。但是在云原生场景下,传统操作系统已经逐渐表现出各种“不适”:

  • 体积臃肿:传统的操作系统为了兼容不同的使用场景,包含了各种各样的硬件驱动、软件包、系统库、系统服务等,操作系统后台服务繁多,体积也显得庞大。在云原生容器场景下,必要的服务大都已经被容器化,以容器的方式被部署到节点上,通过容器的方式来实现版本、配置的管理,逐步取代了传统 OS 上的系统服务;同时,云上硬件资源通过云厂商的虚拟化抽象往往更加地简化,并不需要去支持各种硬件。而容器镜像本身就有运行时自包含的能力,因此很多传统 OS 上的能力会显得厚重而冗余,这些厚重的组件还会使整个 OS 启动变慢并占用相当的系统资源(CPU、内存等)。
  • 版本零散:为了能够支持不同的诉求,操作系统提供了各种各样不同的软件,并以软件包为粒度进行版本管理,每个软件包有自己独立的功能以及代码、版本号,由用户根据自身的需求进行软件包的增、删。这样每台宿主机上的 OS 状态是由大量不同软件包版本号组成的,而在日常运维时一般是针对某一个软件包进行管理。在云原生的场景下,集群计算节点日趋增多,生产过程中由于 bugfix、问题定位等可能在某一节点上针对某个包进行管理(升级、配置修改等),如果没有一套完整的集群 OS 运维机制,极容易出现集群内 OS 状态不统一的情况,如果在灰度的过程中出现依赖组件版本不一,可能会导致整个发布流程受阻,给运维人员带来极大的困难。
  • 安全风险:一方面,传统操作系统包含了大量云原生场景下不需要的软件包和系统服务,带来更大的攻击面。另一方面,传统操作系统的运维人员大多通过 ssh 登录进系统进行黑屏的运维操作,过程难以追溯,误操作极易带来灾难性的后果。


以上的问题主要还是体现在运维上,这时我们回头看下,在 docker 出现之前,应用的运维人员也有类似的问题:如何保障应用在不同条件下运行环境的匹配一致、如何便捷快速地管理应用等。而 docker 很好地解决了应用层的问题,那是不是我们可以借鉴 docker 的思路来解决 OS 运维的问题?


其实在业界已经有了一些容器优化版操作系统,即我们常说的 ContainerOS,包括 AWS 的 bottlerocket、Redhat 的 Fodera CoreOS 以及 Rancher 的 RancherOS 等,它们大多具有以下特点:

  • 轻量化:操作系统仅仅包含足够支撑容器运行所需的软件包与系统服务,大大减少攻击面,启动快。
  • 原子升级回滚:基于不可变基础设施的设计原则,提供只读根文件系统保证系统不被恶意篡改,操作系统的管理以镜像为粒度,不提供 YUM 等包管理软件,整个系统以镜像为粒度进行升级与回滚。Bottlerocket 采用了 A/B 双分区的方式实现镜像的原子升级,CoreOS 则通过 rpm-ostree 像管理一个 git 代码仓一样管理一个 OS 版本,而 RancherOS 则更加激进地把所有的系统服务全部容器化,实现用容器"管理"操作系统镜像。
  • 默认集成云原生组件:默认安装 docker/containerd/kubernetes 等云原生组件,操作系统开箱即用,不需要用户进行额外的安装操作,简单易用。
  • 受控的运维通道:系统去除 sshd 服务,不允许直接登录系统进行运维,同时提供丰富的 API 接口用于主机的运维,另外还提供专用的运维容器作为最后的“退路”用以登录系统。


这些特点其实也印证了我们的思考:用镜像的方式解决版本零散的问题,用 API 解决集群运维的问题,而我们更是发现,如果可以把运维 API 化,那我们是不是可以把 OS 也作为一个 K8S 可以管理的资源,让 K8S 像管理容器一样管理OS?

LifseaOS:为云而生的操作系统

基于以上的思考,我们推出了 LifSeaOS,一款为云原生而生的 OS。

LifseaOS 延续了 CoreOS rpm-ostree 的技术流派,基于由龙蜥社区(OpenAnolis)发布的龙蜥操作系统(Anolis OS) 作为软件包选型基础。


LifseaOS 使用了 rpm-ostree 的功能,实现镜像的原子性升级回滚,让用户可以在集群维度对 OS 镜像进行 rolling upgrade,像管理牛群一样管理一整个集群的操作系统;同时做了大量的裁剪优化,使整体 OS 更轻、更快、更安全。

同时,我们提供了一个用于 OS 运维的小工具(功能还在持续丰富中),将常规的 OS 运维抽象出来并进行收敛,借助阿里云云助手或自动化运维编排服务,用户针对 OS 的运维操作通过调用运维工具的方式进行,减少针对操作系统的开放性操作,并进行相应的审计。


API 化运维更重要的作用是将 OS 运维往云原生的方向牵引,我们可以通过一个 K8s 的 controller 对接运维 API,结合上述的 OS 版本化,让 K8s 像管理一个容器一样管理一个 HostOS。


当然,LifseaOS 的特征不仅仅是以上描述的镜像版本化和运维 API 化,它的名字也直接阐述了 LifseaOS 作为一个为云而生、为容器而生的 OS 所具备的特质

Lightweight

LifseaOS 默认集成 containerd、kubernetes 组件,仅仅保留 kubernetes pods 运行所需的系统服务与软件包,整个系统大约只有 200 左右的软件包,相比传统操作系统(Alibaba Cloud Linux 2/3、CentOS)500+ 软件包而言,数量减少 60%,更加的轻量。


繁重的 cloud-init(云厂商常用的云主机元数据管理组件)套件被替换为 CoreOS 的 Ignition,且裁剪了大量不需要的功能,仅保留最基础的磁盘扩容、hostname 配置、chronyd 时区同步服务器配置与执行 user-data 脚本的功能。去除了不必要的内核模块、 systemd 服务(比如 systemd-logind、systemd-resolved)以及 systemd 附带的许多实用性极低的小工具。

Fast

LifseaOS 的定位是跑在云上虚拟机的操作系统,所以不会涉及到太多的硬件驱动,必要的内核驱动模块修改为 built-in 模式,去除了 initramfs,udev 规则也被大大简化,这样,启动速度得到了大幅提升,以 ecs.g7.large 规格的 ECS 实例为例,LifseaOS 的首次启动时间保持在 2s 左右

传统的操作系统,以 Alibaba Cloud Linux 3 为例,首次启动时间则在 1min 以上:

Security

LifseaOS 根文件系统为只读权限,只有 /etc 和 /var 目录可写以满足基础的系统配置需求。这种设计既符合云原生场景下的基础设施不可变原则,又能防止逃逸容器篡改主机文件系统。不支持 python 但仍然保留了 shell(因为 ACK 在集群部署阶段需要执行一系列的 shell 脚本来进行初始化工作,后续会考虑进一步去除)。


另外,LifseaOS 去除了 sshd 服务,禁止用户直接登录到系统中进行一系列可能无法追溯的操作;当然,考虑到特殊运维或者紧急运维的需要,LifseaOS 仍然提供一个专用的运维容器满足非日常的运维需求,运维容器需要通过 API 按需拉起,默认不开启。

Atomic

LifseaOS 不支持单个 rpm 包的安装、升级和卸载,不提供 yum,所以去除了 Fedora CoreOS 里的 rpm-ostree 软件包而仅保留 ostree 的功能(前者提供了以 rpm 包为粒度的管理功能,而后者仅仅管理文件)。以整个镜像为粒度的更新和回滚极大程度上保证整个集群内的各个节点的软件包版本与系统配置的一致性。每个镜像经过内部严格的测试之后才会上线,相较于传统操作系统基于单个 rpm 包的升级带来的不确定性,以镜像为粒度的测试发布更能保证升级后系统的稳定性。

小结

最后,也欢迎大家加入龙蜥社区的 OS SIG,一起构造打磨为云原生而生的容器专属操作系统。

访问链接地址

龙蜥社区 SIG 链接:

https://openanolis.cn/sig/container-os

LifseaOS 开源代码链接:

https://gitee.com/anolis/lifsea-config

https://gitee.com/anolis/lifsea-assembler

—— 完 ——

加入龙蜥社群

加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】拉你入群;加入钉钉群:扫描下方钉钉群二维码。欢迎开发者/用户加入龙蜥社区(OpenAnolis)交流,共同推进龙蜥社区的发展,一起打造一个活跃的、健康的开源操作系统生态!

开发者社区.png

关于龙蜥社区

龙蜥社区(OpenAnolis)是由企事业单位、高等院校、科研单位、非营利性组织、个人等按照自愿、平等、开源、协作的基础上组成的非盈利性开源社区。龙蜥社区成立于 2020 年 9 月,旨在构建一个开源、中立、开放的Linux上游发行版社区及创新平台。

短期目标是开发龙蜥操作系统(Anolis OS)作为 CentOS 替代版,重新构建一个兼容国际 Linux 主流厂商发行版。中长期目标是探索打造一个面向未来的操作系统,建立统一的开源操作系统生态,孵化创新开源项目,繁荣开源生态。

龙蜥OS 8.4已发布,支持 x86_64 、ARM64、LoongArch 架构,完善适配 Intel、飞腾、海光、兆芯、鲲鹏、龙芯等芯片,并提供全栈国密支持。

欢迎下载:https://openanolis.cn/download

加入我们,一起打造面向未来的开源操作系统!

https://openanolis.cn

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
6天前
|
机器学习/深度学习 人工智能 云计算
Intel 平台新特性助力龙蜥 OS 云计算 | 龙蜥大讲堂101期
本次分享的主题是Intel平台新特性助力龙蜥OS云计算。内容涵盖英特尔第四代和第五代至强处理器的新特性,如性能提升、内置加速器等,并详细介绍TDX、SGX、AMX等技术原理及其在虚拟化环境中的支持情况,旨在帮助云用户充分利用英特尔新平台的优势。
|
1月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
4天前
|
人工智能 Anolis 芯片
英特尔携手龙蜥,共筑未来操作系统 | 2024龙蜥大会
在2024龙蜥大会中,本次分享的主题是关于英特尔公司与龙蜥社区的合作成果和未来计划。 1.Inter与龙蜥携手共建社区 2.Inter Arch SIG近期内核贡献 3.Inter:龙蜥内核历年贡献总结 4.Inter:开源技术贡献 5.Inter与龙蜥社区实践展示 6.Inter+龙蜥:未来展望
|
4天前
|
存储 人工智能 算法
加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统 | 2024龙蜥大会主论坛
本次方案的主题是加速推进 AI+OS 深度融合,打造最 AI 的服务器操作系统,从产业洞察、创新实践、发展建议三个方面,指出 AI 原生应用对操作系统提出更高要求,需要以应用为导向、以系统为核心进行架构创新设计,要打造最 AI 的服务器操作系统。 1. 产业洞察 2. 创新实践 3. 发展建议
|
4天前
|
人工智能 Cloud Native 安全
圆桌会议:聚焦AI时代机遇下操作系统产业的进化与重构 | 2024龙蜥大会主论坛
2024龙蜥大会主论坛聚焦AI时代的操作系统产业进化与重构。专家们围绕开源社区建设、商业化衍生、替代方案及AI应用等议题展开讨论。中国工程院陈纯院士强调开源社区的重要性,阿里云蒋江伟提出操作系统的兼容性和包容性,AMD潘晓明表示将加强国际合作,中兴通讯刘东则探讨了操作系统与AI的深度融合。会议一致认为,龙蜥操作系统应抓住AI发展机遇,构建安全可靠的生态体系,推动国产操作系统走向国际化。
|
1月前
|
安全 Anolis
龙蜥社区落地开源生态发展合作倡议,构建开放兼容的操作系统生态
通过共同努力,三个社区基于服务器操作系统场景,在操作系统内核等关键共性技术链统一方面达成了一致。
|
4天前
|
运维 Linux 测试技术
操作系统迁移技术
本次分享的主题是操作系统迁移方案,由阿里云路延文分享。 1. 迁移背景:CentOS停更危机 2. KeyarchOS迁移方案 3. 操作系统测试 4. 迁移评估
|
5天前
|
安全 大数据 Linux
云上体验最佳的服务器操作系统 - Alibaba Cloud Linux | 飞天技术沙龙-CentOS 迁移替换专场
本次方案的主题是云上体验最佳的服务器操作系统 - Alibaba Cloud Linux ,从 Alibaba Cloud Linux 的产生背景、产品优势以及云上用户使用它享受的技术红利等方面详细进行了介绍。同时,通过国内某社交平台、某快递企业、某手机客户大数据业务 3 大案例,成功助力客户实现弹性扩容能力提升、性能提升、降本增效。 1. 背景介绍 2. 产品介绍 3. 案例分享
|
5天前
|
人工智能 安全 Linux
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
本次分享的主题是阿里云与龙蜥携手打造智算时代最佳服务器操作系统,由阿里云技术软件部产品总监张鹏程分享。主要分为三个部分: 1.开源社区 2.操作系统 3.云 + AI
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
|
28天前
|
Unix Linux Docker
CentOS停更沉寂,RHEL巨变限制源代:Docker容器化技术的兴起助力操作系统新格局
操作系统是计算机系统的核心软件,管理和控制硬件与软件资源,为用户和应用程序提供高效、安全的运行环境。Linux作为开源、跨平台的操作系统,具有高度可定制性、稳定性和安全性,广泛应用于服务器、云计算、物联网等领域。其发展得益于庞大的社区支持,多种发行版如Ubuntu、Debian、Fedora等满足不同需求。
58 4