微博机器学习平台云上最佳实践

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

**新浪微博数据计算平台系统架构师 曹富强
**


本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

微博介绍

微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

微博机器学习平台(WML)优势

微博机器学习平台的特点是样本规模大,百亿级样本,实时性比较高,是分钟级,然后模型规模是百亿级,模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9,平台业务多,场景丰富迭代快。

微博机器学习平台(WML)CTR模型

幻灯片4.PNG

微博机器学习平台的CTR模型经过数字版本的迭代,从1.0的离线机器学习到3.0的离线和深度,到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代,目前支撑的参数规模达千亿级,服务峰值达百万QPS,模型更新是10分钟量级。

微博机器学习平台(WML)架构

幻灯片5.PNG

我们看一下微博机器学习平台的架构,微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法,提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎,计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰富的算法。基于这些算法,训练的模型,我们入到我们WeiPS模型库,然后通过WeiServing对外提供在线推理服务。

微博机器学习在阿里云上实践

幻灯片6.PNG

我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐,使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练,比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线,业务推荐效果提升10%。基于Flink搭建了实时计算平台,集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路,作业规模上千。整体来说阿里云建设机器学习有几大优势:支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。

微博深度学习平台(WDL)典型业务场景

幻灯片7.PNG

接下来介绍微博深度学习相关的业务,目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。

微博深度学习平台(WDL)架构

幻灯片8.PNG

基于在线gpu的机器,我们通过K8s和Yarn管理,然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库,对外提供两路服务,一个是通过AI服务直接对外提供AI输出能力,另外就是我们的计算服务WeiStorm,集成了数据流,调用WeiServing RPC服务框架,实时生成多媒体特征,对外提供在线服务推理。

微博深度学习平台(WDL)多媒体特征生成

幻灯片9.PNG

微博机器学习深度平台多媒体特征的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的处理输出到样本库,然后通过我们WeiServing分布式训练模型调用,输出到模型库,这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理,在线推理的话消费多媒体实时数据流,调用我们的WeiServingRPC框架,输出多媒体特征,然后应用到业务,这条链路的话,我们通过对账系统、case追踪、全链路监控去做服务保障,成功率是99.99%,延时是秒级延时。开发模式是通过UI化、配置化、一键部署。

微博深度学习平台(WDL)基本功能

幻灯片10.PNG

微博深度学习平台产品功能的话,一个是样本库,然后分布式训练,模型库,在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储,对在各节点上零散的样本进行统一管理;分布式训练的话,内置常用深度学习算法并持续新增成熟的算法,规范样本读取,训练gpu集群的灵活调度和训练模型的统一存储;模型库的话提供分布式系统和本地两种存储方式,为在线推理服务提供模型;在线推理服务,支持Python和C++模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为HTTP服务,对外直接提供AI的能力,实现AI能力的直接输出;计算服务,基于内部的多媒体分发系统,接入多媒体数据流,调用在线推理服务,实时生成多媒体特征。

微博深度学习平台(WDL)业务实践

幻灯片11.PNG

微博深度学习平台业务实践,早期的话基于单机训练处理大规模数据时训练周期长,迭代慢,影响业务效果。 于是我们提供了多媒体深度学习服务方案,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是:分布式训练极大缩短了训练时间,为快速业务迭代提供良好基础;一体化服务让我们只需要专注于模型算法优化,提高业务效率,整体上为业务赋能和业务承建产生了巨大的推动力。
谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
8月前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
5月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
11月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
PAI-Rec推荐平台对于实时特征有三个层次
PAI-Rec推荐平台针对实时特征有三个处理层次:1) 离线模拟反推历史请求时刻的实时特征;2) FeatureStore记录增量更新的实时特征,模型特征导出样本准确性达99%;3) 通过callback回调接口记录请求时刻的特征。各层次确保了实时特征的准确性和时效性。
140 0
|
8月前
|
机器学习/深度学习 安全 PyTorch
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
505 20
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
10月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
851 4
AutoTrain:Hugging Face 开源的无代码模型训练平台

热门文章

最新文章