Seal梁胜:平台工程不仅为工程师提供工具,也为AI提供护栏

简介: 解决DevOps落地“最后一公里”

科技云报道原创。

DevOps和云原生的概念兴起之后,似乎是在突然之间,工程师们不得不掌握数十种不同的工具、Helm charts、Terraform模块等,仅仅是为了在多集群微服务的多个环境中部署和测试一个简单的代码更改。

其实DevOps最初的想法非常简单,就是为了解决Dev和Ops中间的鸿沟,加快应用开发和上线过程而提出的概念。

然而,这对于大多数公司来说并不现实,当所有的云原生趋势融合在一起之后,DevOps反而变得越来越低效。

一些开发者在论坛上吐露心声:“扯淡的DevOps,我们开发者根本不想做运维!”;也有人喊出了“DevOps已死,平台工程才是未来”的口号。

为何原本用于提升研发效能的DevOps日益失效?是否有一种新的工具能够解决这一挑战?

未命名1694155570.png

DevOps失效如何解?

过去几年,大多数企业都在投入大量时间精力去上云、管云。随着云的发展,应用架构也在不断的云化,分布式架构、微服务、无服务、多云应用架构更加普及,单个应用系统需要的云资源类型和数量越来越多,上线和变更更加频繁。

为了配合企业云化不断变多的需求,更加敏捷快速的开发方式——DevOps进入了大家的视野。DevOps奉行“谁构建、谁运行”的方法,要求开发人员能够端到端地部署和运行应用。

但DevOps的发展真如理想中这么顺畅吗?

一个残酷的现实是,尽管企业制定了DevOps相关策略,但碍于开发团队技术能力达不到运维要求,沟通工作多依赖于人工,电话、微信、邮件、工单成为大部分Dev和Ops沟通的主要途径,人肉执行运维成为主要手段。

这种方式在物理机,甚至虚拟化时期,尚能勉强维持运转。但在云原生时代,每个不同的应用的部署架构都不一样,相同的应用在开发、测试、UAT、生产、部署架构、底层资源方面可能都不一样。

大多数开发人员并不熟悉也不想了解复杂的基础设施技术,相关职责更多落地在研发团队中的高级人员身上,又或者靠研发和运维团队之间人肉信息频繁交互,这必然导致了效率低、质量难以保证等问题。

为了解决Dev和Ops之间的协作问题,不少企业开始雇佣专门的DevOps人员。
STAO0384-opq568085616.jpg

数澈软件Seal联合创始人及CTO 梁胜

数澈软件Seal联合创始人&CTO梁胜博士观察到一个现象:以K8s为代表的云原生技术刚成熟的时候,一般是10个研发人员配备1个DevOps人员;但随着云原生技术深入应用,3-5个研发人员配备1个DevOps人员已经忙不过来了。

更可怕的是,DevOps人力成本水涨船高,尽管这个职位并不直接创造经济价值。

原本意在提升研发效率的DevOps,如今却沦为了“拖后腿”的机制,这让企业颇感无奈。不过这一挑战也让数澈软件Seal看到了一个全新的市场机会。

在今年初Gartner发布的“2023年十大战略技术趋势”中,“平台工程”赫然在列。Gartner 预测,到2026年,80%的软件工程组织将建立平台团队,其中75%将包含开发者自助服务门户。 

所谓平台工程,最核心的载体是软件开发过程中自助服务的工具链和工作流。无论是基础设施配置、流水线、监控还是容器管理等,自助服务平台将所有这些复杂的问题放入黑盒中,进而为开发人员提供开箱即用的所有必要工具,从而减少开发人员在整个应用生命周期内管理复杂工具和基础设施网络的负担。

其实平台工程也是一种DevOps方法,其巧妙之处在于开发一个应用管理的共享平台,如同吃“自助餐”一样,Dev团队可以根据自身需求挑选适合自己的菜品,即来即取即吃,提升开发效率的同时,又能最大限度规避菜品重复的情况,即降低Ops团队的工作量。

目前,国内大型互联网企业如:万物新生集团(爱回收)、滴滴出行、bilibili、小米、蚂蚁集团等,都在基于平台工程理念开发自己内部的IDP平台,以解决技术团队以更低成本和更高效率满足业务需求、支持业务运营发展的需求。

正是洞察到这一需求,数澈软件Seal率先在国内推出了一款基于平台工程理念的新一代应用平台—— Walrus,其核心是应用管理、成本管理、环境管理、应用部署管理、应用环境管理。

平台团队可以在Walrus平台上将基础设施管理自动化,并使开发人员能够从一个统一管理的技术平台上自助获取可靠的工具和工作流程,提升开发效率。

在梁胜博士看来,尽管平台工程的探索仍处于市场早期,但企业需求已经实实在在出现了。

从技术领先的大型互联网企业开始,平台工程技术将逐步传导到更多的传统企业和中小型互联网企业中,而这正是Walrus作为一个独立应用平台得以生存的机会。

“如同云计算平台一样,Walrus应用平台的诞生,也是为了让企业把更多的精力放在自己的业务创新上,而不是浪费在平台开发上”,梁胜博士表示。

Walrus:解决DevOps落地“最后一公里”

在近日举办的“2023平台工程技术大会”上,Walrus平台受到了高度关注。

STAO0001-opq568008899.jpg

据数澈软件Seal COO江鹏介绍,Walrus提供灵活强大的应用和环境部署管理能力,可以屏蔽基础设施的上层抽象,使研发团队能够在无需了解底层技术细节的前提下自助构建、部署和运行应用程序,减轻开发人员的认知负担。

STAO0565-opq568100194.jpg

数澈软件Seal联合创始人及COO 江鹏

同时,运维/平台团队通过环境依赖图、多层级变量配置等特性细粒度地管理开发、测试、生产等多个环境,增强了对基础设施的可控性和可见性。

Walrus的优势体现在六个方面,具体而言:

一键调用团队最佳实践

Walrus中的服务模板依照DRY(Don't Repeat Yourself)原则设计,用户可以重复利用并在实际使用过程中逐渐沉淀研发和运维团队的最佳实践。

避免“内耗式”重复配置

Walrus支持批量克隆服务和环境。用户可以轻松复制现有的服务配置到单个或多个目标环境,同时支持克隆服务的参数定义,可以根据现有环境的配置及服务,快速创建一个新的环境,包括环境中的应用相关服务及基础设施资源。

支持异构基础设施

包括传统部署和云原生部署。支持任意Kubernetes集群、公有云或者私有云基础设施,实现统一框架下的多云、混合云应用部署与管理。

具备丰富的Day2运维能力

Day2来源于云时代软件生命周期中的概念,泛指应用上线后到周期终结之间的一段时间。Walrus提供了应用部署、升级、销毁、调试、日志查看、远程 Shell 连接等功能。

提供灵活的集成能力

既可以直接接入企业现有的 CI/CD 流水线中,也可以作为一个功能模块集成到内部开发者平台中。

集成AI大模型

Walrus集成了大语言模型AI,通过AI Agent模式实现了AI技术与应用管理的结合,用户可以直接使用自然语言生成服务模板代码,并对生成的代码进行纠错和解释,进一步简化应用部署体验。

值得一提的是,在AIGC时代,Walrus率先集成AI大模型集成这一功能,充分体现了其技术的前瞻性。

在梁胜博士看来,大模型AI正在为平台工程带来全新的机会:

一方面,AI技术用于减轻DevOps工程师的工作量。目前Walrus对于AI大模型的应用,可以在很大程度上为工程师自动排错,预计未来2-3年将做得更好,这是过去数年来AIOps自动化运维想要实现却一直未能做好的。

另一方面,AI大模型的爆火让越来越多企业开始部署相关模型,但大模型的训练和部署需要消耗大量的计算资源和存储资源,直接部署会遇到各种大规模底层资源管理挑战。

因此,如何将K8s和AI大模型更好地融合起来,优化AIGC的部署和运行效率,使得企业更轻松地部署和应用AI大模型,这正是Walrus能够提供的价值。

同时,Walrus不仅为工程师提供工具,也为AI提供护栏。由于AI大模型存在生成内容不准确、不安全等问题,Walrus如同一道护栏将AI生成的错误的、不安全、不合规的内容进行矫正,使得整个平台管理更加高效有序。

整体而言,Walrus降低了技术团队使用基础设施的复杂度,为研发和运维团队提供易用、一致的应用管理体验,解决了DevOps落地“最后一公里”问题。

开源Walrus,提升AIGC时代的研发效能

令人欣喜的是,目前Walrus已正式开源。作为国内较早开源的应用管理平台项目,Walrus再次践行了开源文化的要义。

正如自由软件活动家理查德·斯托尔曼所说:开源是一种开发方法论,自由软件是一种社会运动。

如今的开源不止是“开放源代码”的意思,更代表着一种先进的协作方式,它让更多人能够自由地共享和使用代码。而这一过程也加速着产品的反馈和创新,提高软件的可靠性,推动软件的广泛应用。

Walrus的开源,正是希望能够帮助更多企业和开发团队提升DevOps效率,同时通过社区用户的反馈和共建,进一步提升Walrus的产品竞争力,扩大自身影响力,并最终服务全球的企业和用户。

事实上,Walrus笃定地走开源路线,和企业自身基因息息相关。数澈软件Seal创始团队成员均来自Rancher的核心团队,这家全球著名的容器管理平台公司Rancher Labs正是由梁胜博士于2014年9月创立并担任CEO。

Rancher从诞生起就是开源软件,在开源方法论的推动下,成为了全球应用广泛的Kubernetes管理平台Rancher的成功,一方面让数澈软件Seal创始团队看到了Kubernetes管理中的种种挑战,从而发现了Walrus解决DevOps落地问题的机会所在;另一方面,也为整个团队积累了大量的开源经验,为Walrus的开源奠定了成功的基石。
STAO1859-opq568505686.jpg

尽管对开源模式已轻车熟路,但数澈软件Seal团队依然保持着谦卑的心态。

在梁胜博士看来,目前平台工程的产品形态还不确定,无论是国内外的公有云、私有云厂商,还是初创公司,大家都在探索合适的道路。

“其实这几年云厂商反反复复都在做相关的产品,期望让用户更好地把自己云平台上的组件应用起来,但是这个过程并不容易。包括一些创业公司推出的研发效能平台、开发运维一体化平台,都是类似的产品,都想解决这个问题”,梁胜博士表示。

相较于市面上推出的研发效能平台更重视研发流程和体验,Walrus在产品上更倾向于运维流程,试图将研发和运维团队的体验一致化。

而与云厂商相比,Walrus的中立性,更符合用户不希望被单一云厂商绑定的想法,这些独特的优势都将成为Walrus脱颖而出的机会。

如今随着AI大模型的“走红”,Walrus开源技术的商业之路也有了更多的想象空间。目前不少用户通过AI大模型场景,开始使用Walrus来简化部署应用流程,一些大型企业也开始参与Walrus的体验和建设。

据悉,Walrus开源才刚刚两周左右,并没有做过多的宣传,但已经有近百个用户在使用Walrus,比预计的更好。

关于未来,梁胜博士表示将围绕以下场景推动 Walrus项目发展:

一是,满足各种企业复杂场景需求,例如自动化管理应用环境生命周期、传统部署模式增强、应用发布工作流及审批、配置漂移检测等;

二是,增强策略管控能力,如对存在风险的部署和配置进行自动拦截或告警;

三是,强化AI智能化场景,包括通过AI实现基于自然语言的日常应用管理操作、AI智能分析及故障定位等。特别是在AI大模型方向,数澈软件Seal将基于现有大模型调试专有模型,让大模型更好地服务于DevOps场景。

“AIGC时代,我们希望通过Walrus开源,帮助更多的企业和开发者,解决他们DevOps中的效率和成本问题;同时也希望在用户的支持下,Walrus能够从中国走向全球,成为这个领域中最流行的开源项目”,梁胜博士表示。

一个不可忽视的事实是,在国际格局日益紧张的当下,开源项目Walrus如果能够从中国诞生并成功走向全球化,参与国际竞争,不仅将为数澈软件Seal带来商业上的回报,更将走出中国平台工程技术领先的未来。

结语

如今,平台工程仍处于发展的早期阶段,能否被广泛接受还有待观察。

但是,作为IT技术行业的重要趋势,平台工程正在不断发展壮大,并且随着越来越多的企业寻求提高其软件开发和交付流程的效率和有效性,平台工程也将得到更广泛地采用。

在这个过程中,离不开如数澈软件Seal这类开拓者的持续探索,不断优化平台工程,助力企业提高效率、降低成本和提高敏捷性。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
3天前
|
机器学习/深度学习 数据采集 人工智能
【专栏】利用AI辅助工具提高软件测试效率与准确性
【4月更文挑战第27天】本文探讨了AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计。AI辅助工具利用机器学习、自然语言处理和图像识别提高效率,但面临数据质量、模型解释性、维护更新及安全性挑战。未来,AI将更注重用户体验,提升透明度,并在保护隐私的同时,通过联邦学习等技术共享知识。AI在软件测试领域的前景广阔,但需解决现有挑战。
|
2天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在PAI-DSW(平台上的AI数据科学工作站)上尝试修改实例名时,收到"实例不存在"的错误信息如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
存储 人工智能 测试技术
【AI智能体】SuperAGI-开源AI Agent 管理平台
【4月更文挑战第9天】智能体管理平台SuperAGI简介及实践
|
7天前
|
人工智能 开发框架 数据可视化
【AI大模型应用开发】【RAG评估】0. 综述:一文了解RAG评估方法、工具与指标
【AI大模型应用开发】【RAG评估】0. 综述:一文了解RAG评估方法、工具与指标
23 0
|
7天前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
27 0
|
7天前
|
人工智能 监控 数据可视化
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】0. 一文全览Tracing功能,让你的程序运行过程一目了然
11 0
|
7天前
|
人工智能
【AI大模型应用开发】1.2 Prompt Engineering(提示词工程)- 站在巨人的肩膀上,超实用!常用提示词整理
【AI大模型应用开发】1.2 Prompt Engineering(提示词工程)- 站在巨人的肩膀上,超实用!常用提示词整理
12 0
|
7天前
|
人工智能 API Python
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
【AI大模型应用开发】1.1 Prompt Engineering(提示词工程)- 用OpenAI API实战,优化方法论总结
11 0
|
7天前
|
人工智能 程序员 API
【AI大模型应用开发】1.0 Prompt Engineering(提示词工程)- 典型构成、原则与技巧,代码中加入Prompt
【AI大模型应用开发】1.0 Prompt Engineering(提示词工程)- 典型构成、原则与技巧,代码中加入Prompt
14 0
|
7天前
|
人工智能 机器人 Linux
超级炫酷的AI绘图工具—MidJourney入门使用教程
超级炫酷的AI绘图工具—MidJourney入门使用教程