机器学习技术在亲宝宝的业务应用

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

亲宝宝大数据技术负责人 熊杰

首先向大家简单介绍下亲宝宝,亲宝宝APP是在2013年1月正式上线的。我们定义亲宝宝为新一代家庭育儿方式,我们的使命就是运用科技的力量,帮助家庭更好的关爱和培养孩子。

1.png

目前亲宝宝一共扩展了6项业务:成长记录、智能育儿助手、自有商品品牌、早教课程、品牌广告以及智能硬件,其中成长记录、智能育儿助手是APP最核心两大业务模块。

2.png

截止目前,亲宝宝APP已经有累积1亿多的注册用户,月访问量达到了2000万以上,日均文件传输超过了1000万个,服务超过了5000万家庭。

这5000万个年轻家庭中用户的分布是以妈妈为主,其次是爸爸和祖辈。以宝宝为纽带,构成了我们整个APP的用户画像基础。基于用户画像,我们会做不同的运营策略,例如中国的家庭隔代育儿现象会比较普遍,目前祖辈的智能手机普及率也比较高,我们会针对性地推送相关内容,帮助祖辈来接收科学的育儿理念。

3.png

4.png

亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

5.png

亲宝宝基于 MaxCompute 加阿里云机器学习 PAI 来构建用户画像和家庭画像服务,包括了数据加工以及策略标签管理与用户家庭画像。

6.png

我们开发了智能营销系统IMS,结合画像数据,一方面可以针对宝宝在成长过程中的发育特点,推送小报、育儿知识等内容,做个性化的科学的育儿指导。另一方面结合用户家庭对品牌的偏好,精准投放广告。方案上我们使用了MaxCompute加工标签,然后以BitMap的方式存储到PostgreSql数据库,实现快速高效的用户圈选。基于阿里云的MaxCompute、PAI、EMR、流计算、OSS等产品,搭建了个性化推荐系统。

7.png

上图就是我们一个典型的个性化推荐系统的框架结构,最后通过用户的行为反馈,对模型和策略做不断的迭代。

8.jpg

从收益上来看,可以提升亲宝优品30%以上的UV价值,以及50%以上的点击率,亲子小报可以提升60%以上的阅读时长和50%左右的点击率。

9.png

成长记录是亲宝宝APP的两大核心业务之一,用户每天上传了很多的照片和视频,对于如何帮助用户更好的管理这些文件,我们在图像和视频领域进行了非常多的探索和尝试。旨在通过机器学习技术手段帮助我们的产品进行演进。

10.jpg

上图就是我们在图像和视频领域部署的相关应用。在服务端我们有人脸检测,敏感内容分析,表情识别、文字检测与识别等。服务端每天要处理千万级别的照片以及百万级别的视频,需要消耗巨大的资源,所以我们把这些服务部署在Serverless,可以弹性扩容,这为我们节省了50%以上的费用。

另外在客户端为了帮助用户更快捷方便的一键上传照片,针对儿童的人像特点,我们开发了人脸检测、年龄检测、图像质量分析等SDK。为了解决性能和模型 ROM size的问题,我们采用了NCNN的框架,后来阿里有推出过MNN的框架,我们也做了尝试。

11.jpg

这是我们一个应用事例:在检测到家庭合照以后,一个合适的时机生成一个mv推送给用户,给用户一个小惊喜。

12.jpg

通过以上的图像和视频技术,我们的业务有极大的提升,我们的新用户的文件上传量增加了90%,mv的点击量提高了60%。

13.png

关于智能育儿助手这个模块前面有提到过,基于用户画像,针对宝宝的特点提供个性化的育儿指导。

14.jpg

除了个性化的育儿指导,我们还开发了智能问答系统,这一页就是我们智能问答系统的方案,用户的育儿问题通过机器分类,选择给KOL、运营以及智能育儿助手来回答。分发到智能育儿助手的问题,可以借助我们NLP技术,并结合用户画像信息,实现高效并科学地回答用户提问。

15.jpg

目前我们的问答系统完成了1000多个知识点语料标注。

亲宝宝在机器学习技术和应用上具有强烈的好奇心和愿望,希望通过机器学习技术帮助年轻家庭更好的关爱和培养孩子。当然也希望阿里云能够推出更多的更好的产品,拓展我们在机器学习的应用边界。

谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
16天前
|
机器学习/深度学习 算法 Cloud Native
利用机器学习进行情感分析:从理论到实践云原生技术在现代软件开发中的应用与挑战
【5月更文挑战第31天】本文旨在深入探讨机器学习在情感分析领域的应用。首先,我们将解释什么是情感分析以及为什么它在今天的世界中如此重要。然后,我们将详细介绍几种主要的机器学习算法,包括决策树、随机森林和神经网络,以及它们如何被用于情感分析。最后,我们将通过一个实际的案例研究来展示这些理论在实践中的应用。
|
1天前
|
机器学习/深度学习 存储 算法
【机器学习】深入探索机器学习:线性回归算法的原理与应用
【机器学习】深入探索机器学习:线性回归算法的原理与应用
|
4天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与机器学习在IT管理中的应用
【6月更文挑战第11天】随着技术的不断进步,智能化运维已成为提升IT系统效率和稳定性的关键。本文深入探讨了人工智能(AI)和机器学习如何革新传统的运维模式,通过实际案例分析,揭示这些先进技术如何帮助企业实现自动化监控、故障预测、性能优化以及安全防护,从而确保业务的连续性和可靠性。
|
5天前
|
机器学习/深度学习 存储 算法
PHP中的数据结构及其在机器学习中的应用
本文探讨了PHP在机器学习中的作用,强调了数据结构的重要性。文中列举了PHP中的常见数据结构,如数组、对象、字典、链表、树和图,并解释了它们在机器学习场景下的应用。例如,数组用于特征向量,对象封装模型,字典存储特征映射,链表和树实现特定算法。通过示例代码展示了如何使用这些数据结构进行特征标准化和模型预测。文章总结指出,PHP的数据结构为机器学习提供了有效工具,随着技术发展,PHP在数据处理领域的应用将持续扩展。
15 4
|
6天前
|
机器学习/深度学习 算法 大数据
【机器学习】朴素贝叶斯算法及其应用探索
在机器学习的广阔领域中,朴素贝叶斯分类器以其实现简单、计算高效和解释性强等特点,成为了一颗璀璨的明星。尽管名字中带有“朴素”二字,它在文本分类、垃圾邮件过滤、情感分析等多个领域展现出了不凡的效果。本文将深入浅出地介绍朴素贝叶斯的基本原理、数学推导、优缺点以及实际应用案例,旨在为读者构建一个全面而深刻的理解框架。
11 1
|
10天前
|
机器学习/深度学习 人工智能 算法
机器学习与人工智能在物联网中的应用
【6月更文挑战第6天】在一个阳光明媚的早晨,我听到同事热议机器学习和人工智能在物联网的应用,如智能家居、工业生产和医疗诊断。通过分析物联网的海量数据,这些技术带来便利与效率的提升。示例代码展示了如何使用机器学习算法进行数据分析。尽管面临数据安全等挑战,但未来前景广阔,我决定投身这一领域,探索更多可能。
|
11天前
|
机器学习/深度学习 人工智能 算法
机器学习与人工智能在物联网中的应用
【6月更文挑战第5天】在这个物联网时代,智能设备间的交互变得日益频繁。机器学习与人工智能赋予了这些设备学习和协作的能力,使它们能更好地理解和适应用户需求。例如,智能空调利用机器学习了解用户习惯,预调至适宜的温度;而人工智能在安防系统中通过视频分析识别异常行为,保障安全。此外,它们还应用于智能农业、交通、医疗等领域,如预测农作物生长、优化交通路线、提升医疗服务。一个简单的Python代码示例展示了如何用机器学习预测室内温度变化,揭示了其在物联网中的潜力。
46 1
|
12天前
|
机器学习/深度学习 数据采集 算法
基于机器学习的推荐算法构建技术详解
【6月更文挑战第4天】本文详述了构建基于机器学习的推荐算法,特别是协同过滤方法。从用户和物品相似性的角度,解释了用户-用户和物品-物品协同过滤的工作原理。涵盖了数据准备、预处理、特征工程、模型训练、评估优化及结果展示的构建流程。推荐算法在电商、视频和音乐平台广泛应用,未来将受益于大数据和AI技术的进步,提供更智能的推荐服务。
|
12天前
|
机器学习/深度学习 数据采集 资源调度
【机器学习】逻辑回归:原理、应用与实践
逻辑回归(Logistic Regression)是一种广泛应用于分类问题的统计学方法,尽管其名称中含有“回归”二字,但它实际上是一种用于解决二分类或多分类问题的线性模型。逻辑回归通过使用逻辑函数(通常为sigmoid函数)将线性模型的输出映射到概率空间,从而预测某个事件发生的概率。本文将深入探讨逻辑回归的理论基础、模型构建、损失函数、优化算法以及实际应用案例,并简要介绍其在机器学习领域的地位和局限性。
27 2
|
15天前
|
机器学习/深度学习 数据采集 前端开发
【机器学习】随机森林:深度解析与应用实践
在机器学习的广阔天地中,集成学习方法因其卓越的预测能力和泛化性能而备受青睐。其中,随机森林(Random Forest)作为集成学习的一个重要分支,凭借其简单、高效且易于实现的特性,在分类和回归任务中展现了非凡的表现。本文将深入探讨随机森林的基本原理、核心构建模块、关键参数调优以及在实际应用中的策略与案例分析,旨在为读者提供一个全面而深入的理解。
410 3

热门文章

最新文章