小打卡:基于MaxCompute+PAI的推荐算法实践

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
对象存储 OSS,20GB 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。

前言:

小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。在这样超大的内容生产背景下,平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。本文将从技术选型、推荐架构、开源算法结合三个方面,讲述小打卡在MaxCompute上的一些实战经验。


一、为什么选择MaxCompute

MaxCompute是阿里云完全自研的一种快速、完全托管的TB/PB级的数据仓库解决方案,并且上层提供了DataWorks以实现工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。除此之外,MaxCompute还与阿里云服务的多个产品集成,比如:
• 数据集成
完成MaxCompute与各种数据源的相互同步
• 机器学习PAI
实现直接基于MaxCompute完成数据处理、模型训练、服务部署的一站式机器学习
• QuickBI
对MaxCompute表数据进行报表制作,实现数据可视化分析
• 表格存储
阿里云自研的分布式NoSQL数据存储服务,MaxCompute离线计算的机器学习特征可以很方便的写入,以供在线模型使用
相反,如果完全基于开源的Hadoop框架,从服务部署、可视化开发、代码管理、任务调度、集群运维等多方面,均需要大量的人力来开发与维护。基于MaxCompute,不论是人力成本,还是计算成本,还是运维成本,都已经降到了最低。

二、小打卡推荐系统架构

小打卡的整个技术架构完全基于阿里云实现。埋点日志、业务数据分别由日志服务、RDS/DRDS承担收集和存储任务,通过数据集成同步到MaxCompute,之后便可基于PAI实现机器学习任务。其物理结构如下图所示。

image.png

机器学习PAI-Studio提供了数据预处理、特征工程、机器学习、深度学习、文本分析等丰富的机器学习组件,并且计算结果直接以宽表的形式存储于MaxCompute,极大的减轻了算法开发的工作量。

我们基于PAI,实现了GBDT+LR算法,任务流如下图所示:

image.png

图中采用了丰富的PAI机器学习组件,主要包括6个部分:1-特征加工,2-训练模型,3-验证模型,4-测试模型,5-特征映射关系,6-特征重要性。开发完成后,可以加载到DataWorks中进行调度,运行完成会生成GBDT模型文件(pmml格式)、LR模型文件(pmml格式)、特征映射表,以便线上使用。由于我们后端主服务均在华北1,而PAI的模型在线部署在华东2,存在着公网访问问题,因此我们暂时无法使用PAI的模型在线部署功能,建议大家将两部分放在同一地域。鉴于此问题,幸好PAI的同学提供了将pmml模型文件写入oss的脚本,相关代码如下:

pmml模型写入oss

pai -name modeltransfer2oss

-DmodelName=xlab_m_GBDT_LR_1_1806763_v0
-DossPath="oss://test.oss-cn-shanghai-internal.aliyuncs.com/model/"
-Darn="acs:ram::123456789:role/aliyunodpspaidefaultrole"
-Doverwrite=true
-Dformat=pmml;

因此我们可以将pmml文件写入oss,然后后端服务读取pmml模型文件,自行创建模型在线预测。对于解析pmml模型文件,虽然有开源项目支持pmml模型加载,但是由于pmml过于通用,导致性能存在问题,因此我们定制化自解析模型。

三、如何结合开源算法

遗憾的是,PAI提供的机器学习算法仍然有限,如果想要使用开源项目来实现算法部分怎么办呢?我们对此也做了尝试,我们则结合MaxCompute+PAI+xLearn实现了基于FM算法的CTR预估模型。
由于xLearn需要在单独的一台ECS上执行,那么问题就来了:

1、如何从MaxCompute拉取数据,又如何上传结果?
MaxCompute提供了pyodps,可以很方便的使用python读写MaxCompute的离线表。因此,我们在python循环检测PAI任务的特征工程结果表是否生成完成。生成完成,则启动下载数据和算法训练任务。算法执行结束后,则将模型文件通过pyodps写入MaxCompute,当然也可以使用tunnel工具来完成。
2、如何周期性调度?DataWorks上的任务与ECS上的任务,如何形成依赖关系?
对于拉取,我们通过循环实现了python与MaxCompute表的依赖关系,那么算法训练完成了,DataWorks的下游怎么知道呢?幸好,DataWorks提供了do-while控制流组件,我们可以在while条件中检测模型表相应分区的数据是否存在了,在 do 组件中,则采用shell执行sleep。跳出while后,则下游也开始正常执行了。之后便可以将模型和映射文件同步写入到oss,以供后端使用了。其中 do-while 结构如下:

image.png

四、总结

除了排序算法之外,我们还使用PAI和SQL,分别实现了item_cf和user_cf的召回算法,整个推荐系统完全打通。基于MaxCompute利用DataWorks调度系统,我们实现了推荐算法模型的每日自动更新。相比于模型不更新,我们对比了60天前的模型,新的模型效果提升10%左右。
期待阿里云提供越来越丰富的功能,例如基于MaxCompute的Spark机器学习,

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
141 4
|
4天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
45 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
2月前
|
人工智能 JSON 算法
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式、 AI Native 的大模型与 AIGC 工程平台,为开发者和企业客户提供了 Qwen2.5-Coder 系列模型的全链路最佳实践。本文以Qwen2.5-Coder-32B为例,详细介绍在 PAI-QuickStart 完成 Qwen2.5-Coder 的训练、评测和快速部署。
Qwen2.5-Coder 系列模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
|
25天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
20天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
42 2
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
51 12
|
4天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
1月前
|
机器学习/深度学习 存储 运维
分布式机器学习系统:设计原理、优化策略与实践经验
本文详细探讨了分布式机器学习系统的发展现状与挑战,重点分析了数据并行、模型并行等核心训练范式,以及参数服务器、优化器等关键组件的设计与实现。文章还深入讨论了混合精度训练、梯度累积、ZeRO优化器等高级特性,旨在提供一套全面的技术解决方案,以应对超大规模模型训练中的计算、存储及通信挑战。
72 4
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
52 1
|
2月前
|
人工智能 边缘计算 JSON
DistilQwen2 蒸馏小模型在 PAI-QuickStart 的训练、评测、压缩及部署实践
本文详细介绍在 PAI 平台使用 DistilQwen2 蒸馏小模型的全链路最佳实践。