客户介绍
Soul是任意门旗下基于兴趣图谱和游戏化玩法的社交App,是为新一代年轻人而设的虚拟社交平台。Soul App基于用户的社交画像和兴趣图谱,通过机器学习为用户推荐志趣相投的伙伴,支持丰富的AI业务场景,包括语音匹配、聊天机器人、文本OCR识别、图像识别、多模态等。
业务挑战
AI机器学习是公司核心业务,但在传统的虚拟机部署方式下,缺乏一个统一的管控平台,导致业务工作流不流畅,开发迭代效率低下,运维管理复杂且资源利用率低下。具体表现为:
∙ 业务迭代慢
研发工程师需要花费大量时间在底层基础设施资源准备、业务集成部署、 日志监控等AI工程化上,无法专注于业务开发,难以快速响应业务研发需求。
∙ 运维工作重复
日常重复处理Nvidia GPU驱动、CUDA版本、OSS数据源等环境搭建工作,人力投入大,运维效率低。
∙ 资源利用率低
CPU机器处理能力不足,为应对高负载需求,不得不大量部署额外的机器,导致资源的闲置与浪费。此外,GPU资源利用率低,大量资源空置。
阿里云的解决方案
基于容器服务ACK云原生AI套件打造AI PaaS平台
任意门通过阿里云容器服务ACK云原生AI套件,构建了符合开源标准、且具备高度自主控制能力的Al PaaS平台。该平台有以下优势:
∙ 全生命周期管理的一站式平台,涵盖了数据管理、AI任务发布和模型评测等多个环节,大幅缩短了开发周期。
∙ 统一的异构资源管理和运维平台降低运维成本,实现了GPU节点的自动化管理、算法代码与标准镜像的解耦、按需自动伸缩的推理服务,有效降低了运维复杂度。
∙ 提供专业的GPU共享机制及Fluid数据加速能力,显著提升了业务处理效能,同时有效提供了资源的利用率。
业务价值
任意门Soul App基于阿里云容器服务ACK云原生AI套件,成功打造了AI PaaS平台,结合先进的算法驱动和数据分析技术,高效地管理了从初期的数十张GPU卡到近千张的超大规模,日承载AI业务发布数百次,很好地支撑了业务的高速发展。同时,整体开发迭代效率提升2~5倍,运维成本节省了1倍多,GPU等资源利用率提升后带来了50%的成本节省。