机器学习技术在亲宝宝的业务应用

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

亲宝宝大数据技术负责人 熊杰

首先向大家简单介绍下亲宝宝,亲宝宝APP是在2013年1月正式上线的。我们定义亲宝宝为新一代家庭育儿方式,我们的使命就是运用科技的力量,帮助家庭更好的关爱和培养孩子。

1.png

目前亲宝宝一共扩展了6项业务:成长记录、智能育儿助手、自有商品品牌、早教课程、品牌广告以及智能硬件,其中成长记录、智能育儿助手是APP最核心两大业务模块。

2.png

截止目前,亲宝宝APP已经有累积1亿多的注册用户,月访问量达到了2000万以上,日均文件传输超过了1000万个,服务超过了5000万家庭。

这5000万个年轻家庭中用户的分布是以妈妈为主,其次是爸爸和祖辈。以宝宝为纽带,构成了我们整个APP的用户画像基础。基于用户画像,我们会做不同的运营策略,例如中国的家庭隔代育儿现象会比较普遍,目前祖辈的智能手机普及率也比较高,我们会针对性地推送相关内容,帮助祖辈来接收科学的育儿理念。

3.png

4.png

亲宝宝以MaxCompute的计算和存储能力为依托,构建了整个大数据链路,数据源包括了APP的埋点、Nginx、CDN。使用阿里云的日志服务、流计算、函数计算、DTS等将数据导入到MaxCompute中,在MaxCompute进行数据加工,在这个基础上快速构建用户圈选、BI报表、机器学习和个性化推荐等相关应用。

5.png

亲宝宝基于 MaxCompute 加阿里云机器学习 PAI 来构建用户画像和家庭画像服务,包括了数据加工以及策略标签管理与用户家庭画像。

6.png

我们开发了智能营销系统IMS,结合画像数据,一方面可以针对宝宝在成长过程中的发育特点,推送小报、育儿知识等内容,做个性化的科学的育儿指导。另一方面结合用户家庭对品牌的偏好,精准投放广告。方案上我们使用了MaxCompute加工标签,然后以BitMap的方式存储到PostgreSql数据库,实现快速高效的用户圈选。基于阿里云的MaxCompute、PAI、EMR、流计算、OSS等产品,搭建了个性化推荐系统。

7.png

上图就是我们一个典型的个性化推荐系统的框架结构,最后通过用户的行为反馈,对模型和策略做不断的迭代。

8.jpg

从收益上来看,可以提升亲宝优品30%以上的UV价值,以及50%以上的点击率,亲子小报可以提升60%以上的阅读时长和50%左右的点击率。

9.png

成长记录是亲宝宝APP的两大核心业务之一,用户每天上传了很多的照片和视频,对于如何帮助用户更好的管理这些文件,我们在图像和视频领域进行了非常多的探索和尝试。旨在通过机器学习技术手段帮助我们的产品进行演进。

10.jpg

上图就是我们在图像和视频领域部署的相关应用。在服务端我们有人脸检测,敏感内容分析,表情识别、文字检测与识别等。服务端每天要处理千万级别的照片以及百万级别的视频,需要消耗巨大的资源,所以我们把这些服务部署在Serverless,可以弹性扩容,这为我们节省了50%以上的费用。

另外在客户端为了帮助用户更快捷方便的一键上传照片,针对儿童的人像特点,我们开发了人脸检测、年龄检测、图像质量分析等SDK。为了解决性能和模型 ROM size的问题,我们采用了NCNN的框架,后来阿里有推出过MNN的框架,我们也做了尝试。

11.jpg

这是我们一个应用事例:在检测到家庭合照以后,一个合适的时机生成一个mv推送给用户,给用户一个小惊喜。

12.jpg

通过以上的图像和视频技术,我们的业务有极大的提升,我们的新用户的文件上传量增加了90%,mv的点击量提高了60%。

13.png

关于智能育儿助手这个模块前面有提到过,基于用户画像,针对宝宝的特点提供个性化的育儿指导。

14.jpg

除了个性化的育儿指导,我们还开发了智能问答系统,这一页就是我们智能问答系统的方案,用户的育儿问题通过机器分类,选择给KOL、运营以及智能育儿助手来回答。分发到智能育儿助手的问题,可以借助我们NLP技术,并结合用户画像信息,实现高效并科学地回答用户提问。

15.jpg

目前我们的问答系统完成了1000多个知识点语料标注。

亲宝宝在机器学习技术和应用上具有强烈的好奇心和愿望,希望通过机器学习技术帮助年轻家庭更好的关爱和培养孩子。当然也希望阿里云能够推出更多的更好的产品,拓展我们在机器学习的应用边界。

谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
存储 机器学习/深度学习 Apache
如何将Apache Hudi应用于机器学习
如何将Apache Hudi应用于机器学习
21 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
探索机器学习中的自然语言处理技术
【2月更文挑战第16天】 在数字化和智能化的浪潮中,自然语言处理(NLP)技术已成为连接人类与机器沟通的重要桥梁。本文深入探讨了机器学习在自然语言处理中的应用,包括最新的模型架构、算法优化技巧及实际场景中的挑战和解决方案。通过逻辑严密的分析,我们将揭示如何有效利用机器学习提升NLP系统的性能,同时对未来发展趋势进行预测。
23 0
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习中的自然语言处理技术
【2月更文挑战第31天】 随着人工智能的飞速发展,自然语言处理(NLP)技术在机器学习领域扮演着越来越重要的角色。本文旨在深入探讨NLP的关键技术,包括语言模型、词嵌入和深度学习方法,并分析这些技术如何相互协作,以实现更高效的文本分析和理解。通过案例研究和最新研究成果的介绍,我们展示了NLP在实际应用中的强大潜力,以及它如何推动人机交互和信息检索系统的革新。
17 0
|
19天前
|
机器学习/深度学习 人工智能 运维
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(二)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
52 1
|
19天前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)(一)
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系(机器学习知识导论)
57 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索机器学习:从基础概念到应用实践
探索机器学习:从基础概念到应用实践
14 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
Apache Hudi在Hopsworks机器学习的应用
Apache Hudi在Hopsworks机器学习的应用
28 0
|
1月前
|
机器学习/深度学习 数据采集 算法
机器学习的原理与应用
机器学习的原理与应用
|
1月前
|
机器学习/深度学习 数据处理
机器学习在金融风控中的应用
金融风控是一项重要的工作,它能够帮助金融机构识别和应对各种风险,保护客户资产。目前,机器学习技术在金融风控领域得到了广泛应用,本文将介绍机器学习在金融风控中的具体应用场景和效果。
|
1月前
|
机器学习/深度学习 数据采集 算法
Python技术应用案例——基于机器学习的信用评分模型
【2月更文挑战第11天】机器学习作为当下最热门的技术之一,已经在各个领域获得了广泛的应用。本文将介绍一个基于Python机器学习算法的信用评分模型,通过对数据集的处理和模型训练,实现对客户信用评级的自动化判定,提高了银行的工作效率和准确性。
141 4

热门文章

最新文章