容器运行AI应用需要了解的六个原则

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 在容器环境下运行人工智能(AI)与机器学习(ML)工作负载,我们该做好哪些准备?专家们给出了下面这份预查验问题清单。

作为当前两大核心IT发展趋势,AI/ML与容器已经被企业广泛应用。各个团队不断寻求将人工智能与机器学习工作负载良好结合的方法,而二者之间愈发紧密的结合也让企业不得不向各类商业及开源技术发出求助请求。
35d627fc68fedc3211be890b3fc6f237.jpg

ISG公司企业技术分析师Blair Hanley Frank表示,“对IT领导者们来说,最好的消息莫过于过去几年来,在容器当中大规模运行机器学习的工具与流程都得到了显著改善。丰富的开源工具、商业产品及教程正在帮助数据科学家和IT团队启用并运行这类复杂系统。”

但在IT领导者与团队深入研究容器化AI/ML工作负载的基础技术之前,不妨先认真考虑以下几项原则。打好基础,未来的道路才能走得平稳而轻盈。

AI/ML工作负载代表的是工作流
根据Red Hat技术布道师Gordon Haff的观点,与其他各类工作负载一样,AI/ML工作负载的本质也可以被视作工作流。从工作流的角度加以审视,有助于阐明在容器内运行AI/ML的一些基本概念。

在AI/ML领域,工作流的起点始于数据收集与准备。没有这一步,模型不可能走得太远。

Haff强调,第一步就是数据的收集、清洁与处理。完成了这些环节,“接下来才是模型训练,即根据一组训练数据调整参数。模型训练完成后,工作流中的下一步就是部署至生产环境。最后,数据科学家们需要监控模型在生产中的性能,跟踪各类预测及性能指标。”

Haff用高度简化的方式描述了整个工作流,但其中仍然充斥着巨大的人员、流程及环境等相关工作量。为了提高一致性与可重复性,我们需要容器化工具协助简化整个流程。

Haff解释道,“在传统上,这样的工作流往往需要跨越不同环境、在两到三位负责人之间往来交接。但基于容器平台的工作流能够支持自助服务,帮助数据科学家轻松将开发好的模型集成到应用场景当中。”

与其他容器化工作负载相似的收益
Autify公司AI与ML负责人Nauman Mustafa认为,容器化技术在AI/ML工作流场景下拥有三大总体优势:

模块化:让工作流中的各个重要组成部分(例如模型训练与部署)高度模块化。这种收益在整个软件开发领域也有鲜明体现,即容器化支持下的高度模块化微服务架构。
速度:容器化还能“加速开发/部署与发布周期”。
人员管理:容器化还能“降低跨团队依赖性,让团队管理更简单。”与其他IT领域一样,工作内容会在不同职能团队间往来交换,而容器化有助于减少“交出去就算结束”的消极心态。
虽然机器学习模型与其他应用或服务有着完全不同的技术要求与考量因素,但容器化能够带来的好处仍然高度共通。

Red Hat公司数据科学家Audrey Reznik还提到,容器化在增强AI/ML工作负载或解决方案的可移植性与可扩展性(例如混合云环境)方面同样功效卓著,同时有望降低运营开销。

Reznik强调,“容器使用的系统资源要低于裸机或者虚拟机系统。”这又能进一步加快部署速度。“我很喜欢问「你的编码速度能有多快」,因为越早完成编码、就能先一步使用容器部署解决方案。”

各团队仍须保持一致
虽然工作流程的模块化程度更高,但各团队、各成员仍然需要保持密切的协同关系。

ISG公司的Frank表示,“要保证参与容器化环境下机器学习工作负载构建与运行的每位员工都能相互理解。运维工程师虽然熟悉Kubernetes的运行需求,但往往不了解数据科学工作负载的具体特性。另一方面,数据科学家对机器学习模型的构建与部署流程也许了然于胸,但却不擅长把模型迁移进容器、或者保持模型的稳定运行。”

容器化当然能够提高一致性与协作水平,但这些增益绝不会凭空而来。

Red Hat公司全球软件工程总监Sherard Griffin指出,“如今这个时代高度强调结果的可重复性,所以企业可以使用容器来降低AI/ML技术的准入门槛,帮助数据科学家轻松共享并重现实验结果,同时始终遵循最新的IT与信息安全标准。”

运营要求其实并没有变
容器化技术的各项优势对AI/ML的帮助与其他工作负载类型基本相同,这一点在运营中也有体现。因此在实际运营过程中,我们也需要像对待其他容器化应用一样认真思考以下三项运营要求:

资源分配:Mustafa指出,随着时间推移,资源分配是否合理将直接决定成本优化与性能表现。如果资源分配过量,那么我们必然浪费掉大量资源和资金;如果分配不足,肯定会遇上性能问题。
可观察性:看不见问题,绝不代表问题就不存在。Frank建议“应保证部署必要的可观察性软件,更全面地理解多容器应用的实际运作方式。”
安全性:Positive Technologies公司机器学习工程师Alexandra Murzina认为,“从安全的角度来看,在容器中启用AI/ML类解决方案跟使用其他解决方案并没有多大区别。”所以我们仍然应该把最低权限原则(包括对员工和对容器本身)、仅使用经过验证的受信容器镜像、定期运行漏洞扫描以及其他安全策略放在工作清单的前列。

容器不可能解决一切潜在问题
如同自动化没办法改善天然存在缺陷的流程,容器化也不可能解决AI/ML工作负载中的那些根本问题。例如,如果机器学习模型里存在偏见/偏差,那在容器中运行也丝毫不会改善产出效果。

诚然,容器化有着自己的独特优势,但这些优势绝非万金油、不可能解决一切潜在问题。面对数据错误或者是偏见/偏差,容器化唯一能做的就是加快工作流中的各个环节,也仅此而已。

凯捷工程技术总监Raghu Kishore Vempati表示,“容器特别适合用来运行AI/ML工作负载,但单靠容器化没办法提高这类模型的效率。容器化只是提供了一种能够提高模型训练与模型推理生产力的方法,但显然还有其他问题需要解决。”

自建还是采购,哪种方式更好?
与大多数技术选择一样,AI/ML工作负载的容器化领域也会带来“该这样,还是该那样”的困扰。而且这个问题并没有简单直观的答案。

目前市面上有着众多用于容器化运行AI/ML负载的开源项目选项。

Autify公司的Mustafa表示,“机器学习工作流的容器化进程会带来新的成本,而且这部分成本很可能超出小型团队的承受范围。但对大型团队来说,收益却可能远高于成本。”

所以,IT领导者及团队必须带着明确的目标或者理由推动容器化工作。Frank坦言,“总之,别让本就复杂的情况变得更加复杂。除非容器化机器学习负载能够带来超越精力投入的业务价值,否则最好别乱折腾。”

但这种价值已经渗透到越来越多的企业当中,也随着AI/ML的总体普及而不断增加。所以当“我们应该选择容器化吗?”的问题获得了肯定的答案,接下来要考虑的则是自建还是采购。

好消息是,各类容器化平台、工具与服务正在不断涌现,目前市面上有着众多用于容器化运行AI/ML负载的开源项目选项。比如Kubeflow就专门负责在Kubernetes上编排机器学习类工作负载。

这里分享一条普适标准,除非AI/ML工作流的容器化、部署与管理事务就是企业的业务核心,否则千万别在这方面耗费太多精力。Haff表示,“与云原生领域的情况类似,当团队过度专注于组装平台与工作流、却忽视了处理手头的实际业务问题时,也就离失败不远了。很多团队在平台构建完成之后,才意识到自己需要使用的是GPU资源,这时候再要调整已经来不及了。”

一旦遇到这种状况,团队只能把大量时间浪费在补救和处理设计失误当中,根本没工夫思考真正重要的模型开发、训练与推理工作。

Haff强调,“作为一种可行的办法,我们不妨选择统一的自助服务平台,例如OpenShift Data Science。它既能提供集成化工作流,也允许用户根据实际需求添加额外的开源和专有工具。”

另外,无论大家走的是商业路线、开源路线还是二者兼有,请务必为未来发展预留回旋空间。AI/ML生态系统每分每秒都在迅猛发展,我们自己的战略也随时可能有所变化,必须提前做好规划。

Reznik最后总结道,“别把自己绑在一家供应商身上。我们应该充分发挥各类开源解决方案的优势,不要满足于供应商摆在面前的那少数几种选项。方案的多样性越强,我们的团队就将拥有更多的创新可能性。”


本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
55 10
|
11天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
6天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
11天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
11天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
12月05日,由中国软件行业校园招聘与实习公共服务平台携手阿里魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·电子科技大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——电子科技大学站圆满结营
|
16天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
252 33
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
38 17
|
2天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
33 12
|
6天前
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
45 9
|
12天前
|
人工智能 Kubernetes 安全
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
赋能加速AI应用交付,F5 BIG-IP Next for Kubernetes方案解读
51 13
下一篇
DataWorks