微博机器学习平台云上最佳实践

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

**新浪微博数据计算平台系统架构师 曹富强
**


本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

微博介绍

微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

微博机器学习平台(WML)优势

微博机器学习平台的特点是样本规模大,百亿级样本,实时性比较高,是分钟级,然后模型规模是百亿级,模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9,平台业务多,场景丰富迭代快。

微博机器学习平台(WML)CTR模型

幻灯片4.PNG

微博机器学习平台的CTR模型经过数字版本的迭代,从1.0的离线机器学习到3.0的离线和深度,到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代,目前支撑的参数规模达千亿级,服务峰值达百万QPS,模型更新是10分钟量级。

微博机器学习平台(WML)架构

幻灯片5.PNG

我们看一下微博机器学习平台的架构,微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法,提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎,计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰富的算法。基于这些算法,训练的模型,我们入到我们WeiPS模型库,然后通过WeiServing对外提供在线推理服务。

微博机器学习在阿里云上实践

幻灯片6.PNG

我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐,使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练,比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线,业务推荐效果提升10%。基于Flink搭建了实时计算平台,集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路,作业规模上千。整体来说阿里云建设机器学习有几大优势:支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。

微博深度学习平台(WDL)典型业务场景

幻灯片7.PNG

接下来介绍微博深度学习相关的业务,目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。

微博深度学习平台(WDL)架构

幻灯片8.PNG

基于在线gpu的机器,我们通过K8s和Yarn管理,然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库,对外提供两路服务,一个是通过AI服务直接对外提供AI输出能力,另外就是我们的计算服务WeiStorm,集成了数据流,调用WeiServing RPC服务框架,实时生成多媒体特征,对外提供在线服务推理。

微博深度学习平台(WDL)多媒体特征生成

幻灯片9.PNG

微博机器学习深度平台多媒体特征的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的处理输出到样本库,然后通过我们WeiServing分布式训练模型调用,输出到模型库,这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理,在线推理的话消费多媒体实时数据流,调用我们的WeiServingRPC框架,输出多媒体特征,然后应用到业务,这条链路的话,我们通过对账系统、case追踪、全链路监控去做服务保障,成功率是99.99%,延时是秒级延时。开发模式是通过UI化、配置化、一键部署。

微博深度学习平台(WDL)基本功能

幻灯片10.PNG

微博深度学习平台产品功能的话,一个是样本库,然后分布式训练,模型库,在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储,对在各节点上零散的样本进行统一管理;分布式训练的话,内置常用深度学习算法并持续新增成熟的算法,规范样本读取,训练gpu集群的灵活调度和训练模型的统一存储;模型库的话提供分布式系统和本地两种存储方式,为在线推理服务提供模型;在线推理服务,支持Python和C++模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为HTTP服务,对外直接提供AI的能力,实现AI能力的直接输出;计算服务,基于内部的多媒体分发系统,接入多媒体数据流,调用在线推理服务,实时生成多媒体特征。

微博深度学习平台(WDL)业务实践

幻灯片11.PNG

微博深度学习平台业务实践,早期的话基于单机训练处理大规模数据时训练周期长,迭代慢,影响业务效果。 于是我们提供了多媒体深度学习服务方案,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是:分布式训练极大缩短了训练时间,为快速业务迭代提供良好基础;一体化服务让我们只需要专注于模型算法优化,提高业务效率,整体上为业务赋能和业务承建产生了巨大的推动力。
谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
12天前
|
机器学习/深度学习 并行计算 PyTorch
PyTorch与CUDA:加速深度学习模型训练的最佳实践
【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。
28 1
|
11天前
|
机器学习/深度学习 数据采集 缓存
Elasticsearch与机器学习集成的最佳实践
【8月更文第28天】Elasticsearch 提供了强大的搜索和分析能力,而机器学习则能够通过识别模式和预测趋势来增强这些能力。将两者结合可以实现更智能的搜索体验、异常检测等功能。
24 0
|
2月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
186 3
|
2月前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI使用问题之alink安装部署卡住不动,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
26天前
|
机器学习/深度学习 人工智能 Linux
【机器学习】Dify:AI智能体开发平台版本升级
【机器学习】Dify:AI智能体开发平台版本升级
105 0
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之引用github.com/alibaba/pairec包时报错,该如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 人工智能 网络协议
人工智能平台PAI操作报错合集之报错 "curl: (35) TCP connection reset by peer" 表示什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
机器学习/深度学习 人工智能 PyTorch
人工智能平台PAI使用问题之如何布置一个PyTorch的模型
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
下一篇
DDNS