带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(1) https://developer.aliyun.com/article/1242674?groupCode=taobaotech
Walle 系统架构
图2: Walle 的整体架构
Walle 主要包含以下三个核心系统模块:
1. 部署平台,管理大规模的机器学习任务并及时部署到亿级设备上;
2. 数据管道,主要涉及机器学习任务的前处理阶段,为端侧和云侧提供任务输入;
3. 计算容器,提供跨平台、高性能的机器学习任务执行环境,同时满足机器学习任务天级迭代的实际需求。
具体来说,
1.计算容器底层是 MNN 深度学习框架,包含高性能的张量计算引擎和标准数据处理与模型运行库,并通过改造的 Python 线程级虚拟机对外统一透出接口,以支持多种机器学习任务的全链路执行和多任务的并行。MNN 的核心技术创新点是几何计算和半自动搜索这两个新机制,其中几何计算主要通过形变算子的拆解,极大地降低了为十多种硬件后端手工优化上百个算子的工作量,而半自动搜索机制则进一步实现了在运行时快速搜索计算图的最优可用后端和执行方案。Python 线程级虚拟机则舍弃了 Global Interpreter Lock(GIL)并首次支持了多任务多线程的并行,进一步面向移动APP的实际业务需求,通过裁剪与改造首次移植到端上;
2.数据管道引入了全新的端侧流处理框架,遵循“单台资源受限移动端设备上针对无限数据流的有状态计算”这一基本原则,使得用户行为数据在近数据源处能够被高效处理,同时设计了基于字典树的任务触发管理机制,实现了端侧多个相关流处理任务的批量触发执行。另外,在端云之间搭建了实时传输通道,以支持数据百毫秒级的上传下达;
3.部署平台通过git机制实现细粒度的任务管理,并采用推拉结合、多批次任务发布的方式保证实效性和稳定性,同时支持统一和定制化的多粒度任务部署策略。
带你读《2022技术人的百宝黑皮书》——国际顶会OSDI首度收录淘宝系统论文, 端云协同智能获大会主旨演讲推荐(3) https://developer.aliyun.com/article/1242669?groupCode=taobaotech