带你读《阿里云产品六月刊》——十六、任意门基于 ACK 云原生 AI 套件打造人工智能社交网络平台

简介: 任意门基于 ACK 云原生 AI 套件打造人工智能社交网络平台

客户介绍

Soul是任意门旗下基于兴趣图谱和游戏化玩法的社交App,是为新一代年轻人而设的虚拟社交平台。Soul App基于用户的社交画像和兴趣图谱,通过机器学习为用户推荐志趣相投的伙伴,支持丰富的AI业务场景,包括语音匹配、聊天机器人、文本OCR识别、图像识别、多模态等。

业务挑战

AI机器学习是公司核心业务,但在传统的虚拟机部署方式下,缺乏一个统一的管控平台,导致业务工作流不流畅,开发迭代效率低下,运维管理复杂且资源利用率低下。具体表现为:

 

业务迭代慢

研发工程师需要花费大量时间在底层基础设施资源准备、业务集成部署、 日志监控等AI工程化上,无法专注于业务开发,难以快速响应业务研发需求。

 

运维工作重复

日常重复处理Nvidia GPU驱动、CUDA版本、OSS数据源等环境搭建工作,人力投入大,运维效率低。

 

资源利用率低

CPU机器处理能力不足,为应对高负载需求,不得不大量部署额外的机器,导致资源的闲置与浪费。此外,GPU资源利用率低,大量资源空置。

 

阿里云的解决方案

基于容器服务ACK云原生AI套件打造AI PaaS平台

任意门通过阿里云容器服务ACK云原生AI套件,构建了符合开源标准、且具备高度自主控制能力的Al PaaS平台。该平台有以下优势:

 

全生命周期管理的一站式平台,涵盖了数据管理、AI任务发布和模型评测等多个环节,大幅缩短了开发周期。

统一的异构资源管理和运维平台降低运维成本,实现了GPU节点的自动化管理、算法代码与标准镜像的解耦、按需自动伸缩的推理服务,有效降低了运维复杂度。

提供专业的GPU共享机制及Fluid数据加速能力,显著提升了业务处理效能,同时有效提供了资源的利用率。

image.png

业务价值

任意门Soul App基于阿里云容器服务ACK云原生AI套件,成功打造了AI PaaS平台,结合先进的算法驱动和数据分析技术,高效地管理了从初期的数十张GPU卡到近千张的超大规模,日承载AI业务发布数百次,很好地支撑了业务的高速发展。同时,整体开发迭代效率提升2~5倍,运维成本节省了1倍多,GPU等资源利用率提升后带来了50%的成本节省。

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1月前
|
人工智能 PyTorch 算法框架/工具
ACK AI Profiling:从黑箱到透明的问题剖析
本文从一个通用的客户问题出发,描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查,最后到问题定位与解决、业务执行过程的分析,从而展现一个从黑箱到透明的精细化的剖析过程。
|
18天前
|
人工智能
复旦大学X阿里云:启动人工智能教育教学新合作丨云工开物
在复旦大学建校120周年之际,阿里云与复旦达成人工智能教育教学合作,通过算力资源、实验工具及课程共建等方式支持“AI大课2.0”。此次合作深化了双方在AI for Science领域的实践,从科研拓展至教育领域。自2023年起,双方共建CFFF智算平台,服务超5200名师生;2024年,“云工开物”计划助力复旦AI课程体系建设;2025年启动大模型认证合作,推动AI教育新模式。未来,阿里云将持续赋能复旦的人才培养与教育创新。
|
2月前
|
人工智能 云计算 开发者
南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系
近日,南京大学与阿里云宣布启动人工智能人才培养合作计划,共同培养适应未来技术变革、具备跨学科思维的AI创新人才。
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
1月前
|
人工智能 弹性计算 程序员
青岛城市学院 × 阿里云 | 云工开物「人工智能+」训练营圆满落幕!
人工智能浪潮席卷而来,大模型、智能编程等前沿技术不断革新,已经成为推动全球经济社会发展和人类文明进步的重要力量。人工智能的发展不仅改变了产业结构,同时也对高等教育的人才培养提出了新的要求,并进一步推动着教育新生态的重构。
|
2月前
|
存储 人工智能 开发者
浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地
浙江大学与阿里云联合宣布共建人工智能通识课,将在“AI+行业”课程方面从产、学、研角度,共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。
|
2月前
|
存储 人工智能
浙江大学与阿里云联合宣布共建人工智能通识课|阿里云云工开物合作动态
浙江大学与阿里云联合共建人工智能通识课,涵盖教育、法律、设计等多学科方向,将产业案例融入课程体系。阿里云开放大模型认证课程资源,提供云服务器、AI算力等支持,并通过“云工开物”计划为学生提供计算资源。双方还将发起“智能体创新大赛”,推动技术创新与人才培养。浙大是国内首批开展全校人工智能通识课的顶尖高校之一,2024年起“人工智能基础”成为全校本科生必修课。
|
3月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
3月前
|
人工智能 云计算
南京大学与阿里云签署校企合作协议,以“云工开物”支持人工智能人才培养与科研创新
3月28日,南京大学与阿里云签署全面校企合作协议,共同推动科教融汇与产教融合。双方将启动人工智能人才培养计划,基于阿里云技术优势和南大学科实力,设计通识课程与实践课程,支持“1+X+Y”课程体系建设。阿里云将为南大师生提供免费算力资源,助力教学科研,并通过产学研合作培养新工科拔尖创新人才,推动科技成果转化与高水平自立自强。
|
3月前
|
存储 人工智能 Kubernetes
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。

推荐镜像

更多