《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章8:《OPPO云边端的协同实践》(下)

简介: 《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章8:《OPPO云边端的协同实践》(下)

《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章8:《OPPO云边端的协同实践》(上) https://developer.aliyun.com/article/1228888?groupCode=videocloudtech



2. 混合云架构

 

OPPO在StarFire机器学习平台的基础上,构建混合云的架构。

 

如何把这么庞大的平台部署到混合云上去?

 

从整体架构来看,底层是OPPO的私有云以及公有云。往上,基于容器化部署,考虑到稳定性、性能等,需要对内核有一定的定制。GPU的切分也非常重要,很多训练,除非是像一些稠密的场景,比如图像、声音等,GPU的使用率较高,在很多其他的场景下,GPU使用率并没有那么高,会造成很大的浪费。

 

image.png

 

此外,算法工程师80%的时间都在做开发和调试,会用到一些碎片的卡,每个人如果独占一张卡的话,会带来非常高的成本,所以需要对GPU进行切分。

 

还有存储以及网络等等,再往上是调度、operator的编排以及很多框架。在机器学习领域,用框架是最繁多的,因为框架的场景非常多,在不同的场景里面,不同框架的特点也需要充分的发挥,而OPPO的框架的兼容性非常丰富。

 

关于GPU的切分,其实很多公有云也有类似的能力,但是OPPO部署了混合云,在OPPO内部有大量的GPU卡,需要跟公有云使用同一套架构。这样,OPPO内部的算法工程师在使用的时候,能够达到无差别的要求。

 

OPPO的GPU切分技术,主要是从两个方面实现,一个是显存的切分,另一个是算力上的切分,直接在LINUX内核层面做改动。MPS模式会在训练的时候大规模使用,而在算法工程师日常开发阶段,正常用内核态的截获即可。改进之后,整个GPU的使用率提升2倍左右。

 

image.png

 

数据是训练中很重要的一部分,OPPO的数据量也非常大,但是每一天的训练以及不同训练的场景,对数据的索取程度是不一样的。

 

基于混合云的架构,OPPO不可能把内部所有的数据都放到公有云上去进行训练,一方面因为成本,另外一方面因为性能,这是没有办法做到的。

 

因此,OPPO在任务调度的时候,圈出来用到哪一部分的数据,去进行预加载或者主动缓存,实现算力在私有云、公有云或者边缘上的卸载以及调度,保证整个训练过程的丝滑。

 

算法工程师感受不到这种差异,同时实现对算法工程师承诺准点率,也就是说能够保证训练大概在什么时候之前完成。

 

对很多数据进行预加载,但是数据训练完可能就被销毁了,保证数据在传输以及在公有云上缓存时的加密状态,在训练时才会进行相关的解密。

 

image.png

 

对AI平台来说,比较重要的是调度。OPPO的调度是把私有云跟公有云混合在一起进行调度,以及跟存储做联动。如果是调度到公有云上的任务,会有一个非常重要的filter,去看数据有没有预加载到,如果没有的话,可能还是会优先调度到私有云上,但是大部分时候命中率还是比较高的。

 

image.png

 

3. 云边端一体的机器学习

 

在AI平台基础之上,OPPO利用阿里云的边缘计算部署相关的工作。在训练阶段,OPPO使用阿里云的公有云和自己的私有云做混合的调度,训练之外,很多模型会在边缘或者端上进行部署,形成三级的部署结构,来实现部署的响应。

 

在手机中,大量的模型需要响应,比如一张照片的增强,功耗与热都需要模型预测,进行最优状态的调整这些都要通过模型来实现模型会部署在云、边以及端上,满足弱网或者网络完全不通情况下的用户体验。如果网络状况非常好,那么整体体验就会非常丝滑。

 

image.png

 

基于云边端一体的机器学习,OPPO实现了业务赋能、生态开放和隐私计算,真正提升了业务价值。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
边缘计算 缓存 运维
聚焦边缘计算场景,打造云边端一体化容器云平台
8月26日的2022亚太内容分发大会暨CDN峰会上,阿里云技术专家徐若晨受邀作客【边缘计算论坛】并发表了题为《边缘容器云平台的探索和实践》的精彩演讲。
1529 0
|
3月前
|
存储 人工智能 运维
2026年阿里云无影AgentBay一键部署OpenClaw(Clawdbot)全流程指南
OpenClaw(原Clawdbot/Moltbot)作为阿里云生态下的AI自动化代理工具,凭借“自然语言交互+全场景任务自动化+插件化扩展”的核心能力,已成为企业轻量化数字化、个人办公提效的核心抓手。2026年阿里云无影AgentBay推出OpenClaw专属“一键部署”能力,将原本需要手动配置环境、调试依赖、编写命令的复杂流程,简化为可视化界面操作,无需任何技术基础,即可在5分钟内完成从资源创建到服务可用的全流程。本文将详细拆解阿里云无影AgentBay部署OpenClaw的完整步骤,包含配置要点、功能验证、代码命令与运维技巧,覆盖从新手到企业级用户的全维度需求。
485 12
|
8月前
|
边缘计算 缓存 人工智能
EdgeShard:通过协作边缘计算实现高效的大语言模型推理——论文解读
EdgeShard是一种基于协作边缘计算的大语言模型(LLM)推理框架,旨在解决LLM在云端部署面临的延迟高、带宽压力大和隐私泄露等问题。通过将LLM分片部署在多个边缘设备上,结合云边协同与设备间协作,EdgeShard实现了高效的模型推理。其核心创新包括:联合设备选择与模型划分优化、支持流水线并行与微批处理、提出EdgeShard-No-Bubbles策略以减少设备空闲时间,从而显著提升推理吞吐量并降低延迟。实验表明,EdgeShard在异构边缘设备上可实现高达50%的延迟降低和2倍的吞吐量提升,支持全精度模型推理而无精度损失,为资源受限的边缘环境提供了高效的LLM部署方案。
1437 2
|
SQL 存储 关系型数据库
什么是MySQL Workbench
【10月更文挑战第17天】什么是MySQL Workbench
1697 0
|
机器学习/深度学习 算法 API
Python 机器学习算法交易实用指南(一)(3)
Python 机器学习算法交易实用指南(一)
628 4
|
弹性计算 负载均衡 关系型数据库
阿里云服务器地域可用区对照表和可用区选择方法
阿里云服务器ECS地域包括中国大陆地域如华北2(北京)、华东1(杭州)、华南1(深圳)以及中国香港及其他海外国家和地区,阿里云服务器地域节点选择是很重要的,地域直接影响用户的访问速度
|
存储 缓存 监控
2024年春招小红书前端实习面试题分享
春招已经拉开帷幕啦! 春招的拉开,意味着新一轮的求职大战已经打响,希望每位求职者都能充分准备,以最佳的状态迎接挑战,找到心仪的工作,开启职业生涯的新篇章。祝愿每位求职者都能收获满满,前程似锦!
438 3
|
传感器 机器学习/深度学习 编解码
一文全览 | 2023最新环视自动驾驶3D检测综述!
一文全览 | 2023最新环视自动驾驶3D检测综述!
655 1
|
机器学习/深度学习 存储 人工智能
《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章8:《OPPO云边端的协同实践》(上)
《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章8:《OPPO云边端的协同实践》(上)
764 0
|
缓存 网络协议 SDN
计算机网络:网络层上(数据平面)
计算机网络:网络层上(数据平面)
531 0