容器运行AI应用需要了解的六个原则

简介: 在容器环境下运行人工智能(AI)与机器学习(ML)工作负载,我们该做好哪些准备?专家们给出了下面这份预查验问题清单。

作为当前两大核心IT发展趋势,AI/ML与容器已经被企业广泛应用。各个团队不断寻求将人工智能与机器学习工作负载良好结合的方法,而二者之间愈发紧密的结合也让企业不得不向各类商业及开源技术发出求助请求。
35d627fc68fedc3211be890b3fc6f237.jpg

ISG公司企业技术分析师Blair Hanley Frank表示,“对IT领导者们来说,最好的消息莫过于过去几年来,在容器当中大规模运行机器学习的工具与流程都得到了显著改善。丰富的开源工具、商业产品及教程正在帮助数据科学家和IT团队启用并运行这类复杂系统。”

但在IT领导者与团队深入研究容器化AI/ML工作负载的基础技术之前,不妨先认真考虑以下几项原则。打好基础,未来的道路才能走得平稳而轻盈。

AI/ML工作负载代表的是工作流
根据Red Hat技术布道师Gordon Haff的观点,与其他各类工作负载一样,AI/ML工作负载的本质也可以被视作工作流。从工作流的角度加以审视,有助于阐明在容器内运行AI/ML的一些基本概念。

在AI/ML领域,工作流的起点始于数据收集与准备。没有这一步,模型不可能走得太远。

Haff强调,第一步就是数据的收集、清洁与处理。完成了这些环节,“接下来才是模型训练,即根据一组训练数据调整参数。模型训练完成后,工作流中的下一步就是部署至生产环境。最后,数据科学家们需要监控模型在生产中的性能,跟踪各类预测及性能指标。”

Haff用高度简化的方式描述了整个工作流,但其中仍然充斥着巨大的人员、流程及环境等相关工作量。为了提高一致性与可重复性,我们需要容器化工具协助简化整个流程。

Haff解释道,“在传统上,这样的工作流往往需要跨越不同环境、在两到三位负责人之间往来交接。但基于容器平台的工作流能够支持自助服务,帮助数据科学家轻松将开发好的模型集成到应用场景当中。”

与其他容器化工作负载相似的收益
Autify公司AI与ML负责人Nauman Mustafa认为,容器化技术在AI/ML工作流场景下拥有三大总体优势:

模块化:让工作流中的各个重要组成部分(例如模型训练与部署)高度模块化。这种收益在整个软件开发领域也有鲜明体现,即容器化支持下的高度模块化微服务架构。
速度:容器化还能“加速开发/部署与发布周期”。
人员管理:容器化还能“降低跨团队依赖性,让团队管理更简单。”与其他IT领域一样,工作内容会在不同职能团队间往来交换,而容器化有助于减少“交出去就算结束”的消极心态。
虽然机器学习模型与其他应用或服务有着完全不同的技术要求与考量因素,但容器化能够带来的好处仍然高度共通。

Red Hat公司数据科学家Audrey Reznik还提到,容器化在增强AI/ML工作负载或解决方案的可移植性与可扩展性(例如混合云环境)方面同样功效卓著,同时有望降低运营开销。

Reznik强调,“容器使用的系统资源要低于裸机或者虚拟机系统。”这又能进一步加快部署速度。“我很喜欢问「你的编码速度能有多快」,因为越早完成编码、就能先一步使用容器部署解决方案。”

各团队仍须保持一致
虽然工作流程的模块化程度更高,但各团队、各成员仍然需要保持密切的协同关系。

ISG公司的Frank表示,“要保证参与容器化环境下机器学习工作负载构建与运行的每位员工都能相互理解。运维工程师虽然熟悉Kubernetes的运行需求,但往往不了解数据科学工作负载的具体特性。另一方面,数据科学家对机器学习模型的构建与部署流程也许了然于胸,但却不擅长把模型迁移进容器、或者保持模型的稳定运行。”

容器化当然能够提高一致性与协作水平,但这些增益绝不会凭空而来。

Red Hat公司全球软件工程总监Sherard Griffin指出,“如今这个时代高度强调结果的可重复性,所以企业可以使用容器来降低AI/ML技术的准入门槛,帮助数据科学家轻松共享并重现实验结果,同时始终遵循最新的IT与信息安全标准。”

运营要求其实并没有变
容器化技术的各项优势对AI/ML的帮助与其他工作负载类型基本相同,这一点在运营中也有体现。因此在实际运营过程中,我们也需要像对待其他容器化应用一样认真思考以下三项运营要求:

资源分配:Mustafa指出,随着时间推移,资源分配是否合理将直接决定成本优化与性能表现。如果资源分配过量,那么我们必然浪费掉大量资源和资金;如果分配不足,肯定会遇上性能问题。
可观察性:看不见问题,绝不代表问题就不存在。Frank建议“应保证部署必要的可观察性软件,更全面地理解多容器应用的实际运作方式。”
安全性:Positive Technologies公司机器学习工程师Alexandra Murzina认为,“从安全的角度来看,在容器中启用AI/ML类解决方案跟使用其他解决方案并没有多大区别。”所以我们仍然应该把最低权限原则(包括对员工和对容器本身)、仅使用经过验证的受信容器镜像、定期运行漏洞扫描以及其他安全策略放在工作清单的前列。

容器不可能解决一切潜在问题
如同自动化没办法改善天然存在缺陷的流程,容器化也不可能解决AI/ML工作负载中的那些根本问题。例如,如果机器学习模型里存在偏见/偏差,那在容器中运行也丝毫不会改善产出效果。

诚然,容器化有着自己的独特优势,但这些优势绝非万金油、不可能解决一切潜在问题。面对数据错误或者是偏见/偏差,容器化唯一能做的就是加快工作流中的各个环节,也仅此而已。

凯捷工程技术总监Raghu Kishore Vempati表示,“容器特别适合用来运行AI/ML工作负载,但单靠容器化没办法提高这类模型的效率。容器化只是提供了一种能够提高模型训练与模型推理生产力的方法,但显然还有其他问题需要解决。”

自建还是采购,哪种方式更好?
与大多数技术选择一样,AI/ML工作负载的容器化领域也会带来“该这样,还是该那样”的困扰。而且这个问题并没有简单直观的答案。

目前市面上有着众多用于容器化运行AI/ML负载的开源项目选项。

Autify公司的Mustafa表示,“机器学习工作流的容器化进程会带来新的成本,而且这部分成本很可能超出小型团队的承受范围。但对大型团队来说,收益却可能远高于成本。”

所以,IT领导者及团队必须带着明确的目标或者理由推动容器化工作。Frank坦言,“总之,别让本就复杂的情况变得更加复杂。除非容器化机器学习负载能够带来超越精力投入的业务价值,否则最好别乱折腾。”

但这种价值已经渗透到越来越多的企业当中,也随着AI/ML的总体普及而不断增加。所以当“我们应该选择容器化吗?”的问题获得了肯定的答案,接下来要考虑的则是自建还是采购。

好消息是,各类容器化平台、工具与服务正在不断涌现,目前市面上有着众多用于容器化运行AI/ML负载的开源项目选项。比如Kubeflow就专门负责在Kubernetes上编排机器学习类工作负载。

这里分享一条普适标准,除非AI/ML工作流的容器化、部署与管理事务就是企业的业务核心,否则千万别在这方面耗费太多精力。Haff表示,“与云原生领域的情况类似,当团队过度专注于组装平台与工作流、却忽视了处理手头的实际业务问题时,也就离失败不远了。很多团队在平台构建完成之后,才意识到自己需要使用的是GPU资源,这时候再要调整已经来不及了。”

一旦遇到这种状况,团队只能把大量时间浪费在补救和处理设计失误当中,根本没工夫思考真正重要的模型开发、训练与推理工作。

Haff强调,“作为一种可行的办法,我们不妨选择统一的自助服务平台,例如OpenShift Data Science。它既能提供集成化工作流,也允许用户根据实际需求添加额外的开源和专有工具。”

另外,无论大家走的是商业路线、开源路线还是二者兼有,请务必为未来发展预留回旋空间。AI/ML生态系统每分每秒都在迅猛发展,我们自己的战略也随时可能有所变化,必须提前做好规划。

Reznik最后总结道,“别把自己绑在一家供应商身上。我们应该充分发挥各类开源解决方案的优势,不要满足于供应商摆在面前的那少数几种选项。方案的多样性越强,我们的团队就将拥有更多的创新可能性。”


本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

目录
相关文章
|
3月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
545 30
|
3月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
548 1
|
3月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
424 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
3月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
3月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
340 3
|
3月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
752 67
|
3月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
689 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
3月前
|
人工智能 安全 中间件
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,推出AgentScope-Java、AI MQ、Higress网关、Nacos注册中心及可观测体系,全面开源核心技术,构建分布式多Agent架构基座,助力企业级AI应用规模化落地,推动AI原生应用进入新范式。
752 26
|
3月前
|
人工智能 安全 数据可视化
Dify让你拖拽式搭建企业级AI应用
Dify是开源大模型应用开发平台,融合BaaS与LLMOps理念,通过可视化工作流、低代码编排和企业级监控,支持多模型接入与RAG知识库,助力企业快速构建安全可控的AI应用,实现从原型到生产的高效落地。
Dify让你拖拽式搭建企业级AI应用
|
3月前
|
自然语言处理 数据挖掘 关系型数据库
ADB AI指标分析在广告营销场景的方案及应用
ADB Analytic Agent助力广告营销智能化,融合异动与归因分析,支持自然语言输入、多源数据对接及场景模板化,实现从数据获取到洞察报告的自动化生成,提升分析效率与精度,推动数据驱动决策。