数据上云,AI驱动,宝宝树如何服务千万年轻妈妈

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 本文讲述了宝宝树通过阿里云大数据平台构建了个性化的大数据架构,并在此基础上使用AI和深度学习技术实现了一些业务工具,进而支撑业务展开,实现业务价值。

宝宝树大数据总监 刘玉石

本文讲述了宝宝树通过阿里云大数据平台构建了个性化的大数据架构,并在此基础上使用AI和深度学习技术实现了一些业务工具,进而支撑业务展开,实现业务价值。

幻灯片2.PNG

宝宝树是中国非常知名的母婴品牌,也是中国最大最活跃的母婴社区之一,我们的整个月活用户达到1.39个亿,移动端的月活也达到数千万。我们的主要用户是宝妈人群,尤其是年轻的宝妈人群。
宝妈在整个育儿阶段其实有很多的需求,这些需求囊括起来主要是4个。
第一个就是对于专业的科学的育儿知识的获取。 我们知道育儿其实是一门学问,涉及到的知识是方方面面的,如何的把这些专业的知识,通过非常大众化的普及化的方式去传达给我们的用户,其实是一个很重要的课题。我们宝宝树主要是通过非常专业的像PGC、UGC等编辑力量,把非常迎合需求的全面的育儿知识,通过各种方式易于让宝妈去接受。
第二个就是宝妈人群其实情感非常细腻,然后有非常强的渴望去分享自己的育儿经验,然后也特别愿意与其他的宝妈去互动。因为我们知道宝妈之间的信任感是天生的,所以我们主要通过社区的方式去满足宝妈的这种相互之间沟通交流、互助以及互动的需求。
第三个就是随着宝宝的长大,记录是特别重要的一件事情,我们常说陪伴是最长情的告白,那么对宝宝尤其如此,因为记录不仅仅是记录宝宝的成长,也记录妈妈的成长,这种成长是双向的,那么这种成长对宝宝是一种非常特殊的礼物,我们是通过小时光和其他很多记录的工具,去满足用户的这样一种需求。
最后一个就是宝妈的购物需求,尤其是在某一领域,像奶粉、纸尿裤这些品类,其实是宝妈的一个刚需,我们提供了一个在线的商城,其实更重要的是我们有海量的内容,我们有大量的ugc的讨论,宝妈可以通过这些用户的真实反馈,去发掘去判断什么样的品牌和什么样的产品是适合自己的小孩子的。然后其实我们能够天然的通过一种社区的形式,建立起用户和品牌之间的一种连接,然后解决很多产品品牌的核心的信任问题。
前面说了我们有4大核心需求,4大核心需求都是个性化的,我想满足个性化的用户需求,我们是需要通过大数据的方法和技术去做的。

幻灯片4.PNG

说到大数据,其实这是一个耳熟能详的话题,很多人都非常熟悉,我就下面介绍宝宝树所特有的两个数据。
第一个就是关于妈妈的核心生育数据。什么是生育数据?你当前怀孕多少天了,然后宝宝什么时候出生,预产期是什么时候,宝宝当前多大了,我们是可以精确到天的,然后这个数据是非常准确的。其实我们每天都会有很多宝妈用户现在正在产房里,等待生命的诞生。然后我们明天也会看到他们很多的报喜帖,其实基于用户的一种真实的运营数据,我们是不需要猜测对吧?我们就可以非常精准的知道在这样一个阶段,用户需求是什么,然后有针对性的去满足她们,通过一些产品或者服务。
第二就是我们社区有非常海量的UGC内容加PGC内容,然后用户在这些内容上的行为,还有用户之间的互动,让我们积累了海量的行为数据。这种行为数据不是一种泛领域的,而是母婴领域的,那么这里面有很多不是泛领域能够解决的一些问题,包括妈妈之间的一些讨论等等,然后基于这两大核心数据,我们可以构建一个非常完整的也是非常全面的某一领域的画像体系。基于这个画像体系,第一个我们会非常好的去服务我们的最大用户,也就是我们的宝妈人群,第二个对于我们的B端客户也是有巨大的价值,一个是提升整个商业投放的效率、转化率等,另外一个就是我们可以通过反向的数据驱动,可以发现很多用户的潜在需求,那么这对B端客户的营销是具有巨大的商业价值的。

幻灯片5.PNG

前面说到我们大数据是满足用户个性化需求的基础,那么AI就是满足个性化需求的核心,那么我们整个AI在宝宝树的应用主要是分两大块,一种是通过相对成熟的像搜索推荐等技术解决内容的分发,像我们的主要是通过个性化推荐、Feed流,还有搜索的方式去解决我们宝妈在不同场景下对不同知识,兴趣型、收集型内容的一个获取,然后我们做了很多事情,而且整个推荐的效果也获得很大的提升,像搜索也做了很多搜索直达的一些事情,然后可以非常方便的一键触达用户想要的知识。第二个应用应该说是具有宝宝树特色的,也是具有某一行业特色的。我们很多妈妈的需求其实是很特殊的,然后我们接下来会介绍几个典型的,第一个就是我们的母婴的专业的问答机器人,第二个就是我们的这个哭声翻译器,实时检测判断。

幻灯片6.PNG

下面介绍第一个就是母婴特色的,我们做了一个母婴领域专业知识的基于语音交互的一个问答系统。然后说到母婴专业知识,我们很多人可能并不觉得这是一个非常高深非常庞大的领域。举个例子,上图左下角我们找来一本书,这本书是非常知名的,全世界非常知名,是美国儿科协会出版的一个育儿百科,然后非常的厚,大概有好几百页,这个囊括了从整个备孕怀孕,孕早孕中孕晚,婴儿早期晚期整个也就从一岁以上儿童在不同阶段面临的发育、饮食、疾病、护理还有安全等等各个方面的内容,非常的详细,然后这些内容其实是非常科学的,也是宝妈用户所需要的。
但是现在作为一个普通的妈妈,我们大部分人是没有这方面的医学背景,然后不太可能说是去花很多时间去看这种厚重的书籍,然后去解决自己的一些实际的问题。
所以我们要解决的第一个问题,就是把这种厚重的、非常专业的,尤其是适合中国宝宝妈妈的一些特定的专业知识提炼总结,然后要大众化普及化地,降低知识获取以及知识理解的难度。所以我们有非常专业的编辑团队,把这些丰富的母婴知识把它结构化,然后做成一个知识图谱的形式,然后同时把它结合现在相对比较成熟的问答系统设计的升级网络系统,做了一个基于母婴知识领域的自动问答。其实在这个阶段我们已经解决了知识的结构化以及通过问答系统去获取知识的问题。
第二个要解决的问题就是,有宝宝之后,很不方便用手去打字,如何更加便捷的去触达需要的内容,更加方便的去交互。我们采用的也是现在很流行的,也是接下来可能会越来越重要的语音交互的方式。我们用户只要输入一段语音,比如说宝宝发烧了你要怎么办?然后我们的系统会通过语音播报的方式告诉你,从技术角度讲这就是一个相对比较成熟的整个ASR语音识别加TTS文字转译的过程。

幻灯片7.PNG

这样我们就构建了一套某一领域非常全面非常专业的,基于AI语音交互的一套知识体系,其实这套体系我们的目的是不仅仅是为了服务好我们自己的用户,我们的初心也是想服务更多的、平台之外的用户。有很多平台的客户,他有自己的小程序,他有自己的用户群,他也会通过一些小程序等去触达去维护他自己的用户。在这一点上我们为了更好的把我们的母婴领域的专业能力进行对外输出,我们设计了一套语音的开发平台,那么我们这个平台实际上是支持B端客户去增加他自己的特有的一些专业的技能。比如增加他自己的一些特有的一些知识库、一些问答等,然后对于开发人员来说,我们整个设计也是具有非常好的可扩展性地,可以降低整个二次开发的成本,这个里面主要涉及到的一些技术,包括像意图识别,像深度学习的一些检索排序,以及大量的语音分析等技术,这块我就不特别深入了,然后我们也和一些品牌进行合作,效果也是挺好的。

幻灯片9.PNG

另外再介绍一个挺有用也挺有趣的一个工具。
很多宝妈尤其是年轻的妈妈就是遇到自己宝宝哭的时候,其实是特别的手足无措,因为实际上宝宝为什么会哭的这个事情比我们想象的要复杂一些。
在不同的情况下,宝宝哭其实表达的是不同的含义,因为宝宝其实也有很丰富的情感的,但是他只会哭,哭是他和世界交流的唯一的一种方式。比如有的时候他是饿了,有的时候他是希望你去抱抱他,有的时候他其实是不舒服,有的时候想睡觉。其实哭声它有不同的频率,它有不同的节奏,这个里面其实是有规律可循的,宝妈在社区、论坛里面会跟我们反馈说,这是她的一个苦恼。
为了解决这个苦恼,我们也想应用现在相对比较成熟的AI技术去解决这个问题。那么从技术层面来说,这就是整个输入是一段婴儿的哭声,整个输出是哭声的原因,以及我们建议的一个安抚的方式。它是一个相对成熟的输入是一段语音,输出是一个多分类的问题。中间的特征提取,还有整个神经网络,我们是可以借鉴语音识别的技术的。其实在这里我要说的是这个技术是相对比较成熟的,然后解决方案也比较清晰,但是落地其实是很困难的。原因是我们现在的深度学习技术是需要大量的语料去训练的,那么我们首先是缺乏这样一个婴儿哭声的有标注的语料,我们从未听说过有任何开源的数据,所以说为了构建这样一个语料,实际上我们是需要非常大的人力物力的,所以这也是真正作为哭声识别的最大的门槛,就在于你通过什么样的方式,去收集非常全面的婴儿哭声的语料,采用非常专业的各种标注,然后去验证标注的准确性,进而才能保证我们整个训练以及预测的准确性。我们当时也是有很多宝妈收集了大概有数10万条数据,然后花了很长时间去做专业的标注,多方的校对,然后抽检等等,保证了整个标注数据的准确性。然后我们筛选之后,很多宝妈反应这个也是非常有用的,同时也是非常有趣的。我们有自己的小程序,也有自己的小工具,大家都可以去试试。

幻灯片10.PNG

再介绍另外一个工具,其实也是针对宝妈,尤其是备孕阶段的妈妈是非常有用的一个工具,就是AI试纸检测,我们也可以叫排卵试纸检测。整个备孕阶段会慢慢买很多排卵试纸,我们可能自己要去百度一下,然后学习怎么去看试纸的颜色。去判断它是不是有效的,它是阴性还是阳性。其实这样的输入输出也是一个非常标准的 AI问题,输入是一个图像,输出就是你当前是阴性还是阳性。它的输出也是相对比较简单的一种多分问题。所以我们也去收集了大量的这样一种标注数据。然后通过专业的标注想好去构建了很好的两个数据集,然后经过训练,训练其实不是特别复杂,然后整个准确率挺高,大家都可以看看上图大概有5条,大家可以看看它是阴性还是阳性,你们可以自己感受一下。我们通过这种工具的方式,帮助用户降低识别成本,提高用户的体验。
从前面说的小树机器人,还有第二个AI检测哭声识别。其实我们发现在某一领域,真正要把AI产生价值是需要和业务做结合的,然后站在用户的角度要看看用户面临的一些实际的困难。这些困难我们认为主要是宝妈的困难,困难是不分大小的,然后去做一些贴心的工具,然后去帮助她们降低很多知识获取、抚育小孩的一些成本和难度,我认为这个是站在用户角度,用户价值是非常巨大的。

幻灯片11.PNG

然后再介绍一下我们的一个内容的分发体系,我们前面讲了整个用户的四大核心需求的话,它是包括知识,还有一些ugc的内容、社区的讨论。其实我们的方法很多人相对比较熟悉,主要是通过推荐和搜索的方式,主要解决人和内容的匹配。中间我们会构建一套整个内容的一个母婴行业的标签体系,然后基于用户的行为,我们可以把整个用户的倾向、兴趣打到人身上。然后在这两个进行结合的时候,其实所涉及的技术也是整个推进的召回。我们有个性化召回,然后基于协同的召回,还有各种现代化的深度学习的召回的方式,排序也主要是基于深度学习排序方式。
我们的场景和常规的推荐场景有什么不一样呢?我们不仅仅是一个内容的,尤其是咨询的一种消费场景,其实我们是希望给妈妈一种陪伴感,就是希望通过这种内容的方式,然后让妈妈觉得育儿是一个轻松的、舒心的、非常愉快的过程。因为我们知道妈妈尤其是产后妈妈,为了很好的育儿,其实是有很多心理焦虑的。所以在这个阶段其实我们要解决的第一个问题就是我们的内容,要看整个内容的情绪,内容的分布以及人的分布,所以我们包括标准体系,包括内容召回和排序体系,要特别考虑整个内容的一个适宜程度,内容后面所代表的情绪、温度,一些宝妈在这个阶段应该需要什么内容,所以我们更倾向于跟用户推荐一些更适合当前需要的、温暖的、能够激励她向上的,然后让他觉得从宝宝树能够获得内心的成长,然后更加觉得是一件非常愉悦的非常幸福的事情。所以我们和常规的推荐体系是不太一样的。

幻灯片12.PNG

然后再介绍一下我们整个大数据上云的过程,我们也是阿里云的一个忠实的客户了。我们之前也是自建的一套大数据体系,从数据的产生,数据的传输、存储、计算,然后整个数据的服务,然后整个上层的应用,包括BI报表以及数据分析工具等,我们主要是自建的。基于各种考虑,大数据上阿里云之后,我们大部分是采用了阿里的一些技术栈,部分还是用自己的。
大家可以看看上面那个图,我们说几点,我们觉得整个阿里的技术栈和我们自己的技术栈结合起来,我们觉得比较突出的,或者说从开发者角度比较好的,第一个是DataWorks,一种一站式的开发平台,确实能够增加我们的开发效率。其他的像Flink,我们从spark stream升级到Flink之后,那种流批一体化的方式,使整个开发效率也是有明显的提升。

幻灯片13.PNG

像这样使用阿里云的一些技术,我们总结起来,其实主要是有几点收益:
第一个就是我们整个从成本角度,就从硬件的成本,从运维的成本,从整个操作的成本综合评估下来,我们基本上可以节约40%左右。
第二个就是从产品角度,我们因为采用了很多阿里的技术栈,这些技术栈对开发者来说还是非常友好的,确实解决了很多开发者长期以来面临的痛点,比如前面说的DataWorks一站式开发平台,对我们的开发效率是提升比较明显的。另外一个就是从云计算的底层来说,我们可以很好的享受,包括它的一些安全性对,还有整个弹性、可伸缩性等。因为我们的业务有时候流量也是会突发,在这种场景下我们是能够天然的享受云服务的好处。
举个例子,比如我们对GPU的使用,我们以前的话可能是自己购买的,然后现在可以按需的去使用阿里云的GPU,就可以很好的提升我们技术的使用效率。
谢谢大家!

更多大数据客户实战案例:https://developer.aliyun.com/article/772449

首月199元开通DataWorks专业版+MaxCompute按量付费黄金搭档:

https://dw-common-buy.data.aliyun.com/promc

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
数据采集 人工智能 自然语言处理
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
Midscene.js 是一款基于 AI 技术的 UI 自动化测试框架,通过自然语言交互简化测试流程,支持动作执行、数据查询和页面断言,提供可视化报告,适用于多种应用场景。
91 1
Midscene.js:AI 驱动的 UI 自动化测试框架,支持自然语言交互,生成可视化报告
|
7天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
71 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
24天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
58 9
【AI系统】完全分片数据并行 FSDP
|
11天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
72 17
|
24天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
94 7
【AI系统】数据并行
|
6天前
|
人工智能 IDE API
AI驱动的开发者工具:打造沉浸式API集成体验
本文介绍了阿里云在过去十年中为开发者提供的API服务演变。内容分为两大部分:一是从零开始使用API的用户旅程,涵盖API的发现、调试与集成;二是回顾阿里云过去十年为开发者提供的服务及发展历程。文中详细描述了API从最初的手写SDK到自动化生成SDK的变化,以及通过API Explorer、IDE插件和AI助手等工具提升开发者体验的过程。这些工具和服务旨在帮助开发者更高效地使用API,减少配置和调试的复杂性,提供一站式的解决方案。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
108 10
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
|
7天前
|
人工智能 安全 搜索推荐
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道
到2028年,30%的财富500强企业将使用仅支持AI的服务渠道
|
7天前
|
人工智能 安全 搜索推荐
AI 驱动研发模式升级,蓝凌软件探索效率提升之道
蓝凌软件在引入通义灵码后取得了较明显的效果。目前,蓝凌软件已使用灵码的开发人员中,周活跃用户占比超过90%、根据代码库自动生成的代码占比超33%、代码智能补全占比29%,代码注释率提升了15%,有效提升了产品代码工程化的效能。
|
21天前
|
机器学习/深度学习 人工智能 算法
转载:【AI系统】AI 发展驱动力
本文介绍了AI的起源与发展历程,强调了2016年AlphaGo胜利对AI关注度的提升。文中详细解析了AI技术在搜索引擎、图片检索、广告推荐等领域的应用,并阐述了机器学习、深度学习和神经网络之间的关系。文章还深入探讨了AI的学习方法,包括模型的输入输出确定、模型设计与开发、训练过程(前向传播、反向传播、梯度更新)及推理过程。最后,文章概述了AI算法的现状与发展趋势,以及AI系统出现的背景,包括大数据、算法进步和算力提升三大关键因素。
转载:【AI系统】AI 发展驱动力

热门文章

最新文章