宝宝树大数据总监 刘玉石
本文讲述了宝宝树通过阿里云大数据平台构建了个性化的大数据架构,并在此基础上使用AI和深度学习技术实现了一些业务工具,进而支撑业务展开,实现业务价值。
宝宝树是中国非常知名的母婴品牌,也是中国最大最活跃的母婴社区之一,我们的整个月活用户达到1.39个亿,移动端的月活也达到数千万。我们的主要用户是宝妈人群,尤其是年轻的宝妈人群。
宝妈在整个育儿阶段其实有很多的需求,这些需求囊括起来主要是4个。
第一个就是对于专业的科学的育儿知识的获取。 我们知道育儿其实是一门学问,涉及到的知识是方方面面的,如何的把这些专业的知识,通过非常大众化的普及化的方式去传达给我们的用户,其实是一个很重要的课题。我们宝宝树主要是通过非常专业的像PGC、UGC等编辑力量,把非常迎合需求的全面的育儿知识,通过各种方式易于让宝妈去接受。
第二个就是宝妈人群其实情感非常细腻,然后有非常强的渴望去分享自己的育儿经验,然后也特别愿意与其他的宝妈去互动。因为我们知道宝妈之间的信任感是天生的,所以我们主要通过社区的方式去满足宝妈的这种相互之间沟通交流、互助以及互动的需求。
第三个就是随着宝宝的长大,记录是特别重要的一件事情,我们常说陪伴是最长情的告白,那么对宝宝尤其如此,因为记录不仅仅是记录宝宝的成长,也记录妈妈的成长,这种成长是双向的,那么这种成长对宝宝是一种非常特殊的礼物,我们是通过小时光和其他很多记录的工具,去满足用户的这样一种需求。
最后一个就是宝妈的购物需求,尤其是在某一领域,像奶粉、纸尿裤这些品类,其实是宝妈的一个刚需,我们提供了一个在线的商城,其实更重要的是我们有海量的内容,我们有大量的ugc的讨论,宝妈可以通过这些用户的真实反馈,去发掘去判断什么样的品牌和什么样的产品是适合自己的小孩子的。然后其实我们能够天然的通过一种社区的形式,建立起用户和品牌之间的一种连接,然后解决很多产品品牌的核心的信任问题。
前面说了我们有4大核心需求,4大核心需求都是个性化的,我想满足个性化的用户需求,我们是需要通过大数据的方法和技术去做的。
说到大数据,其实这是一个耳熟能详的话题,很多人都非常熟悉,我就下面介绍宝宝树所特有的两个数据。
第一个就是关于妈妈的核心生育数据。什么是生育数据?你当前怀孕多少天了,然后宝宝什么时候出生,预产期是什么时候,宝宝当前多大了,我们是可以精确到天的,然后这个数据是非常准确的。其实我们每天都会有很多宝妈用户现在正在产房里,等待生命的诞生。然后我们明天也会看到他们很多的报喜帖,其实基于用户的一种真实的运营数据,我们是不需要猜测对吧?我们就可以非常精准的知道在这样一个阶段,用户需求是什么,然后有针对性的去满足她们,通过一些产品或者服务。
第二就是我们社区有非常海量的UGC内容加PGC内容,然后用户在这些内容上的行为,还有用户之间的互动,让我们积累了海量的行为数据。这种行为数据不是一种泛领域的,而是母婴领域的,那么这里面有很多不是泛领域能够解决的一些问题,包括妈妈之间的一些讨论等等,然后基于这两大核心数据,我们可以构建一个非常完整的也是非常全面的某一领域的画像体系。基于这个画像体系,第一个我们会非常好的去服务我们的最大用户,也就是我们的宝妈人群,第二个对于我们的B端客户也是有巨大的价值,一个是提升整个商业投放的效率、转化率等,另外一个就是我们可以通过反向的数据驱动,可以发现很多用户的潜在需求,那么这对B端客户的营销是具有巨大的商业价值的。
前面说到我们大数据是满足用户个性化需求的基础,那么AI就是满足个性化需求的核心,那么我们整个AI在宝宝树的应用主要是分两大块,一种是通过相对成熟的像搜索推荐等技术解决内容的分发,像我们的主要是通过个性化推荐、Feed流,还有搜索的方式去解决我们宝妈在不同场景下对不同知识,兴趣型、收集型内容的一个获取,然后我们做了很多事情,而且整个推荐的效果也获得很大的提升,像搜索也做了很多搜索直达的一些事情,然后可以非常方便的一键触达用户想要的知识。第二个应用应该说是具有宝宝树特色的,也是具有某一行业特色的。我们很多妈妈的需求其实是很特殊的,然后我们接下来会介绍几个典型的,第一个就是我们的母婴的专业的问答机器人,第二个就是我们的这个哭声翻译器,实时检测判断。
下面介绍第一个就是母婴特色的,我们做了一个母婴领域专业知识的基于语音交互的一个问答系统。然后说到母婴专业知识,我们很多人可能并不觉得这是一个非常高深非常庞大的领域。举个例子,上图左下角我们找来一本书,这本书是非常知名的,全世界非常知名,是美国儿科协会出版的一个育儿百科,然后非常的厚,大概有好几百页,这个囊括了从整个备孕怀孕,孕早孕中孕晚,婴儿早期晚期整个也就从一岁以上儿童在不同阶段面临的发育、饮食、疾病、护理还有安全等等各个方面的内容,非常的详细,然后这些内容其实是非常科学的,也是宝妈用户所需要的。
但是现在作为一个普通的妈妈,我们大部分人是没有这方面的医学背景,然后不太可能说是去花很多时间去看这种厚重的书籍,然后去解决自己的一些实际的问题。
所以我们要解决的第一个问题,就是把这种厚重的、非常专业的,尤其是适合中国宝宝妈妈的一些特定的专业知识提炼总结,然后要大众化普及化地,降低知识获取以及知识理解的难度。所以我们有非常专业的编辑团队,把这些丰富的母婴知识把它结构化,然后做成一个知识图谱的形式,然后同时把它结合现在相对比较成熟的问答系统设计的升级网络系统,做了一个基于母婴知识领域的自动问答。其实在这个阶段我们已经解决了知识的结构化以及通过问答系统去获取知识的问题。
第二个要解决的问题就是,有宝宝之后,很不方便用手去打字,如何更加便捷的去触达需要的内容,更加方便的去交互。我们采用的也是现在很流行的,也是接下来可能会越来越重要的语音交互的方式。我们用户只要输入一段语音,比如说宝宝发烧了你要怎么办?然后我们的系统会通过语音播报的方式告诉你,从技术角度讲这就是一个相对比较成熟的整个ASR语音识别加TTS文字转译的过程。
这样我们就构建了一套某一领域非常全面非常专业的,基于AI语音交互的一套知识体系,其实这套体系我们的目的是不仅仅是为了服务好我们自己的用户,我们的初心也是想服务更多的、平台之外的用户。有很多平台的客户,他有自己的小程序,他有自己的用户群,他也会通过一些小程序等去触达去维护他自己的用户。在这一点上我们为了更好的把我们的母婴领域的专业能力进行对外输出,我们设计了一套语音的开发平台,那么我们这个平台实际上是支持B端客户去增加他自己的特有的一些专业的技能。比如增加他自己的一些特有的一些知识库、一些问答等,然后对于开发人员来说,我们整个设计也是具有非常好的可扩展性地,可以降低整个二次开发的成本,这个里面主要涉及到的一些技术,包括像意图识别,像深度学习的一些检索排序,以及大量的语音分析等技术,这块我就不特别深入了,然后我们也和一些品牌进行合作,效果也是挺好的。
另外再介绍一个挺有用也挺有趣的一个工具。
很多宝妈尤其是年轻的妈妈就是遇到自己宝宝哭的时候,其实是特别的手足无措,因为实际上宝宝为什么会哭的这个事情比我们想象的要复杂一些。
在不同的情况下,宝宝哭其实表达的是不同的含义,因为宝宝其实也有很丰富的情感的,但是他只会哭,哭是他和世界交流的唯一的一种方式。比如有的时候他是饿了,有的时候他是希望你去抱抱他,有的时候他其实是不舒服,有的时候想睡觉。其实哭声它有不同的频率,它有不同的节奏,这个里面其实是有规律可循的,宝妈在社区、论坛里面会跟我们反馈说,这是她的一个苦恼。
为了解决这个苦恼,我们也想应用现在相对比较成熟的AI技术去解决这个问题。那么从技术层面来说,这就是整个输入是一段婴儿的哭声,整个输出是哭声的原因,以及我们建议的一个安抚的方式。它是一个相对成熟的输入是一段语音,输出是一个多分类的问题。中间的特征提取,还有整个神经网络,我们是可以借鉴语音识别的技术的。其实在这里我要说的是这个技术是相对比较成熟的,然后解决方案也比较清晰,但是落地其实是很困难的。原因是我们现在的深度学习技术是需要大量的语料去训练的,那么我们首先是缺乏这样一个婴儿哭声的有标注的语料,我们从未听说过有任何开源的数据,所以说为了构建这样一个语料,实际上我们是需要非常大的人力物力的,所以这也是真正作为哭声识别的最大的门槛,就在于你通过什么样的方式,去收集非常全面的婴儿哭声的语料,采用非常专业的各种标注,然后去验证标注的准确性,进而才能保证我们整个训练以及预测的准确性。我们当时也是有很多宝妈收集了大概有数10万条数据,然后花了很长时间去做专业的标注,多方的校对,然后抽检等等,保证了整个标注数据的准确性。然后我们筛选之后,很多宝妈反应这个也是非常有用的,同时也是非常有趣的。我们有自己的小程序,也有自己的小工具,大家都可以去试试。
再介绍另外一个工具,其实也是针对宝妈,尤其是备孕阶段的妈妈是非常有用的一个工具,就是AI试纸检测,我们也可以叫排卵试纸检测。整个备孕阶段会慢慢买很多排卵试纸,我们可能自己要去百度一下,然后学习怎么去看试纸的颜色。去判断它是不是有效的,它是阴性还是阳性。其实这样的输入输出也是一个非常标准的 AI问题,输入是一个图像,输出就是你当前是阴性还是阳性。它的输出也是相对比较简单的一种多分问题。所以我们也去收集了大量的这样一种标注数据。然后通过专业的标注想好去构建了很好的两个数据集,然后经过训练,训练其实不是特别复杂,然后整个准确率挺高,大家都可以看看上图大概有5条,大家可以看看它是阴性还是阳性,你们可以自己感受一下。我们通过这种工具的方式,帮助用户降低识别成本,提高用户的体验。
从前面说的小树机器人,还有第二个AI检测哭声识别。其实我们发现在某一领域,真正要把AI产生价值是需要和业务做结合的,然后站在用户的角度要看看用户面临的一些实际的困难。这些困难我们认为主要是宝妈的困难,困难是不分大小的,然后去做一些贴心的工具,然后去帮助她们降低很多知识获取、抚育小孩的一些成本和难度,我认为这个是站在用户角度,用户价值是非常巨大的。
然后再介绍一下我们的一个内容的分发体系,我们前面讲了整个用户的四大核心需求的话,它是包括知识,还有一些ugc的内容、社区的讨论。其实我们的方法很多人相对比较熟悉,主要是通过推荐和搜索的方式,主要解决人和内容的匹配。中间我们会构建一套整个内容的一个母婴行业的标签体系,然后基于用户的行为,我们可以把整个用户的倾向、兴趣打到人身上。然后在这两个进行结合的时候,其实所涉及的技术也是整个推进的召回。我们有个性化召回,然后基于协同的召回,还有各种现代化的深度学习的召回的方式,排序也主要是基于深度学习排序方式。
我们的场景和常规的推荐场景有什么不一样呢?我们不仅仅是一个内容的,尤其是咨询的一种消费场景,其实我们是希望给妈妈一种陪伴感,就是希望通过这种内容的方式,然后让妈妈觉得育儿是一个轻松的、舒心的、非常愉快的过程。因为我们知道妈妈尤其是产后妈妈,为了很好的育儿,其实是有很多心理焦虑的。所以在这个阶段其实我们要解决的第一个问题就是我们的内容,要看整个内容的情绪,内容的分布以及人的分布,所以我们包括标准体系,包括内容召回和排序体系,要特别考虑整个内容的一个适宜程度,内容后面所代表的情绪、温度,一些宝妈在这个阶段应该需要什么内容,所以我们更倾向于跟用户推荐一些更适合当前需要的、温暖的、能够激励她向上的,然后让他觉得从宝宝树能够获得内心的成长,然后更加觉得是一件非常愉悦的非常幸福的事情。所以我们和常规的推荐体系是不太一样的。
然后再介绍一下我们整个大数据上云的过程,我们也是阿里云的一个忠实的客户了。我们之前也是自建的一套大数据体系,从数据的产生,数据的传输、存储、计算,然后整个数据的服务,然后整个上层的应用,包括BI报表以及数据分析工具等,我们主要是自建的。基于各种考虑,大数据上阿里云之后,我们大部分是采用了阿里的一些技术栈,部分还是用自己的。
大家可以看看上面那个图,我们说几点,我们觉得整个阿里的技术栈和我们自己的技术栈结合起来,我们觉得比较突出的,或者说从开发者角度比较好的,第一个是DataWorks,一种一站式的开发平台,确实能够增加我们的开发效率。其他的像Flink,我们从spark stream升级到Flink之后,那种流批一体化的方式,使整个开发效率也是有明显的提升。
像这样使用阿里云的一些技术,我们总结起来,其实主要是有几点收益:
第一个就是我们整个从成本角度,就从硬件的成本,从运维的成本,从整个操作的成本综合评估下来,我们基本上可以节约40%左右。
第二个就是从产品角度,我们因为采用了很多阿里的技术栈,这些技术栈对开发者来说还是非常友好的,确实解决了很多开发者长期以来面临的痛点,比如前面说的DataWorks一站式开发平台,对我们的开发效率是提升比较明显的。另外一个就是从云计算的底层来说,我们可以很好的享受,包括它的一些安全性对,还有整个弹性、可伸缩性等。因为我们的业务有时候流量也是会突发,在这种场景下我们是能够天然的享受云服务的好处。
举个例子,比如我们对GPU的使用,我们以前的话可能是自己购买的,然后现在可以按需的去使用阿里云的GPU,就可以很好的提升我们技术的使用效率。
谢谢大家!
更多大数据客户实战案例:https://developer.aliyun.com/article/772449