机器学习技术在亲宝宝的业务应用

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

亲宝宝大数据技术负责人 熊杰

首先向大家简单介绍下亲宝宝,亲宝宝APP是在2013年1月正式上线的。我们定义亲宝宝为新一代家庭育儿方式,我们的使命就是运用科技的力量,帮助家庭更好的关爱和培养孩子。

1.png

目前亲宝宝一共扩展了6项业务:成长记录、智能育儿助手、自有商品品牌、早教课程、品牌广告以及智能硬件,其中成长记录、智能育儿助手是APP最核心两大业务模块。

2.png

截止目前,亲宝宝APP已经有累积1亿多的注册用户,月访问量达到了2000万以上,日均文件传输超过了1000万个,服务超过了5000万家庭。

这5000万个年轻家庭中用户的分布是以妈妈为主,其次是爸爸和祖辈。以宝宝为纽带,构成了我们整个APP的用户画像基础。基于用户画像,我们会做不同的运营策略,例如中国的家庭隔代育儿现象会比较普遍,目前祖辈的智能手机普及率也比较高,我们会针对性地推送相关内容,帮助祖辈来接收科学的育儿理念。

3.png

4.png

亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

5.png

亲宝宝基于 MaxCompute 加阿里云机器学习 PAI 来构建用户画像和家庭画像服务,包括了数据加工以及策略标签管理与用户家庭画像。

6.png

我们开发了智能营销系统IMS,结合画像数据,一方面可以针对宝宝在成长过程中的发育特点,推送小报、育儿知识等内容,做个性化的科学的育儿指导。另一方面结合用户家庭对品牌的偏好,精准投放广告。方案上我们使用了MaxCompute加工标签,然后以BitMap的方式存储到PostgreSql数据库,实现快速高效的用户圈选。基于阿里云的MaxCompute、PAI、EMR、流计算、OSS等产品,搭建了个性化推荐系统。

7.png

上图就是我们一个典型的个性化推荐系统的框架结构,最后通过用户的行为反馈,对模型和策略做不断的迭代。

8.jpg

从收益上来看,可以提升亲宝优品30%以上的UV价值,以及50%以上的点击率,亲子小报可以提升60%以上的阅读时长和50%左右的点击率。

9.png

成长记录是亲宝宝APP的两大核心业务之一,用户每天上传了很多的照片和视频,对于如何帮助用户更好的管理这些文件,我们在图像和视频领域进行了非常多的探索和尝试。旨在通过机器学习技术手段帮助我们的产品进行演进。

10.jpg

上图就是我们在图像和视频领域部署的相关应用。在服务端我们有人脸检测,敏感内容分析,表情识别、文字检测与识别等。服务端每天要处理千万级别的照片以及百万级别的视频,需要消耗巨大的资源,所以我们把这些服务部署在Serverless,可以弹性扩容,这为我们节省了50%以上的费用。

另外在客户端为了帮助用户更快捷方便的一键上传照片,针对儿童的人像特点,我们开发了人脸检测、年龄检测、图像质量分析等SDK。为了解决性能和模型 ROM size的问题,我们采用了NCNN的框架,后来阿里有推出过MNN的框架,我们也做了尝试。

11.jpg

这是我们一个应用事例:在检测到家庭合照以后,一个合适的时机生成一个mv推送给用户,给用户一个小惊喜。

12.jpg

通过以上的图像和视频技术,我们的业务有极大的提升,我们的新用户的文件上传量增加了90%,mv的点击量提高了60%。

13.png

关于智能育儿助手这个模块前面有提到过,基于用户画像,针对宝宝的特点提供个性化的育儿指导。

14.jpg

除了个性化的育儿指导,我们还开发了智能问答系统,这一页就是我们智能问答系统的方案,用户的育儿问题通过机器分类,选择给KOL、运营以及智能育儿助手来回答。分发到智能育儿助手的问题,可以借助我们NLP技术,并结合用户画像信息,实现高效并科学地回答用户提问。

15.jpg

目前我们的问答系统完成了1000多个知识点语料标注。

亲宝宝在机器学习技术和应用上具有强烈的好奇心和愿望,希望通过机器学习技术帮助年轻家庭更好的关爱和培养孩子。当然也希望阿里云能够推出更多的更好的产品,拓展我们在机器学习的应用边界。

谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
11天前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
8天前
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
23 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
12天前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
31 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
13天前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】大模型驱动下的医疗诊断应用
摘要: 随着科技的不断发展,机器学习在医疗领域的应用日益广泛。特别是在大模型的驱动下,机器学习为医疗诊断带来了革命性的变化。本文详细探讨了机器学习在医疗诊断中的应用,包括疾病预测、图像识别、基因分析等方面,并结合实际案例进行分析。同时,还展示了部分相关的代码示例,以更好地理解其工作原理。
18 3
【机器学习】大模型驱动下的医疗诊断应用
|
6天前
|
机器学习/深度学习 API 计算机视觉
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(下)
14 2
|
6天前
|
机器学习/深度学习 存储 算法
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(上)
基于Python_opencv人脸录入、识别系统(应用dlib机器学习库)(上)
16 1
|
7天前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
26 2
|
7天前
|
机器学习/深度学习 数据可视化 数据挖掘
机器学习中空间和时间自相关的分析:从理论基础到实践应用
空间和时间自相关是数据分析中的重要概念,揭示了现象在空间和时间维度上的相互依赖关系。本文探讨了这些概念的理论基础,并通过野火风险预测的实际案例,展示了如何利用随机森林模型捕捉时空依赖性,提高预测准确性。
15 0
机器学习中空间和时间自相关的分析:从理论基础到实践应用
|
13天前
|
机器学习/深度学习 数据采集 自然语言处理
机器学习【金融风险与风口评估及其应用】
机器学习【金融风险与风口评估及其应用】
61 6
|
13天前
|
机器学习/深度学习 算法 搜索推荐
机器学习及其应用领域【金融领域】
机器学习及其应用领域【金融领域】
34 5

热门文章

最新文章