一、公司介绍
StartDT作为一家独立的第三方数据科技集团,旗下有奇点云(Data Cloud)和GrowingIO(Analytics Cloud)两大品牌。专注为客户构建统一开放、中立安全的数据云,和全域全场景智能易用的分析云,协同客户培育其自有的数据能力,在数据商业时代占据制高点。
其中,奇点云(Data Cloud)核心的数据云产品,为企业去提供中立、安全、可控的数据云的基础底座,帮助企业做好数据的沉淀和管理。
GrowingIO(Analytics Cloud)的分析云,致力于为客户提供「数据+分析+智能+运营」的一站式产品与服务,提升数据驱动增长能力,全域全场景赋能商业决策。
下图为StartDT产品的矩阵大图,底层是数据云,上层是分析云。
从数据采集到数据加工到数据应用,我们提供端到端全链路的产品和服务,去帮助企业完成从构建数据云的基础设施,到挖掘数据数据价值,到数据驱动应用的全场景的需求。
本次分享的主题是全域数据融合,下面和大家分享一下StartDT在全域数据融合的经验。
StarDT的CEO张金银(行在)是淘宝消费者信息库TCIF的创始人。他在2012年花了一年的时间,拉通了阿里消费者与所有用户的数据,然后在建立统一用户识别ID的基础之上,构建了one data体系,生成了三千多个通用的用户标签。
这个项目当时也在阿里内部被各个业务去使用,这件事也论证了全域数据融合能带来巨大的商业价值,以及StarDT有最领先的经验。
二、全域数据融合场景介绍
StarDT合作了非常多的企业,包含了泛零售、金融、制造、政企等行业。不管是哪个行业的客户,发展到了一定的规模,它的数据和业务也逐渐成熟。在这个阶段企业会有非常强烈的做数据驱动业务这样的诉求。但是在做这件事情也会面临非常大的挑战。
第一个问题是用户数据割裂的问题。企业通过多渠道运营沉淀了大量的数据,如果这些数据分散,它是很难形成有效的数据资产的。
第二个问题是标签数据未整合。如果没有做统一的数据拉通,在这样的基础之上去做画像和标签,都是很难做到精准的,数据的价值也很难体现。
第三个问题是数据化运营体系薄弱。没有一个数据化运营的基础底座,企业的数据加工就会非常的低效,也很难去满足业务更多的数据需求。所以全域数据融合这件事情是非常有必要,是做数据数字化转型的一个基础。
下面以零售企业为例,客户可能会有淘宝、天猫、京东等渠道去做品牌的运营,通过公域渠道去获取优质的用户流量。另外客户也会有自己的APP、公众号、订阅号去运营自己的私域流量。
一个用户可能会关注天猫店,关注企业的公众号,下载企业的APP,然后在APP上完成了一笔商品交易。但是用户的这些操作行为会落在不同的业务系统,如果没有做有效的数据拉通,其实是没有办法通过这些零散的数据,去识别这些操作的背后其实是同一个用户。
权益数据融合这件事情是一个非常基础而且非常有必要的工作。通过全域数据融合可以把碎片化的信息以围绕一个自然人ID的方式去融合和拉通起来。
这里说的用户ID是描述真实世界中用户的数字化标识,包含像Union ID、手机号、身份证号。另外ID-Mapping是全域数据融合里非常核心的技术,它是将同一个用户在各个不同渠道、生态及业务系统中的身份标识串联起来并映射到一个统一的用户标识。
有了全域数据融合的基础底座,再和大家分享一个身份新增的例子。
如果一个用户关注了企业的公众号,然后去注册了一个账号。这个时候我们就会获取到一条用户信息,包含了手机号、Open ID。然后我们把这个新增的信息输入到ID-Mapping计算的过程中,就可以去持续扩充用户唯一标识的列表和持续丰富用户的特征数据。
全域数据融合整体的解决方案,包含通过整合多元的业务数据,使用ID-Mapping的技术去把各个业务系统的用户ID进行关联,并且生成唯一用户标识。从而进一步可以串联起来各个业务系统的用户标签和行为轨迹,全面助力全域营销的场景。
整个方案架构包含三个核心的服务,数据采集、识别服务、查询服务。通过采集可以把多个渠道的数据进行统一收集以及加工处理,然后再进到识别服务对用户识别做相应的计算。最后把结果以API的方式对外服务和调用。
在权益数据融合实践过程中也会面临非常多的问题。第一个问题是,如果企业的数据体量非常大,渠道非常多,ID类型多的话,那么它对计算性能的要求就会非常高。还有一些大型企业它可能会有亿级别的用户数据,有几十甚至几百个渠道, ID的类型可能也会有十几种。用户ID类型多,ID关系复杂的话,一些传统的规则计算的逻辑也会遇到一些挑战。
第二个问题是渠道数据的质量问题。如果渠道数据参差不齐,就需要考虑做ID关系的权重以及数据置信度的设定。最后做完整个数据融合的计算,这样的结果怎么去做验证呢?
这就是第三个问题。图计算在全域数据融合遇到的这些实践的问题,能带来一些很好的解决方案。下面我们将从七个维度去比较规则识别和图计算识别的方案。几个维度包含可用性、时效性、可解释性、业务扩展性、准确度、开发和维护成本、可推广性。
规则识别基于多渠道场景会很快遇到计算性能的一个瓶颈,通过图计算识别能够去解决计算性能的一个限制。另外我们也在多个大型项目中沉淀了很多业务规则,解决了一些业务复杂的诉求,最终形成了一套基于规则和图计算识别的一个解决方案。这个方案从计算性能、业务的复杂度以及最终结果的可解释性上都具备优势。
三、图计算实践
整个全域用户关联的流程分为四个的步骤。
第一个步骤是数据接入。这个部分会把多个渠道的数据和业务系统的数据做采集和接入。然后在这个阶段也需要强调一下数据安全性的问题,针对一些敏感和重要的个人用户数据,在这个阶段也要做好数据加密和脱敏的处理。
第二个步骤是ID校验。每一个渠道都需要做一个校验判定,来确定哪些ID要参与到ID-Mapping的计算。第三个步骤是ID关联。它有几个细分的步骤,包括关联、回溯、拆分和删除等逻辑。最后基于计算好的结果做一个存储和落盘。
我们有一整套基于流批图一体的技术架构方案,它的计算会包含两个链路。第一个链路是实时流。数据通过Kafka推过来,进入到实时计算引擎做计算和加工处理。这个是为了满足一些企业对于实时用户识别和实时标签的诉求。
第二个链路是离线,包含数据初始化和增量计算两个部分。数据初始化阶段会把全量的数据都加载进来,再做统一的加工和处理。最后输入到图计算引擎去做计算,然后再把结果去做落盘。数据初始化一般只需要做一次,之后只需要保留每天的增量计算的部分。
基于流批图一体的技术架构,我们会定期把图计算和流计算的结果做修正,然后把我们的结果以API的方式对外去做输出调用。
下面来分享下在用户关联场景使用图计算的流程。首先数据接入会把多个来源的数据做一个聚合,这里的ID-Mapping我们以证件、unioinid及手机号三个特征为例子。聚合好的数据首先需要对一些脏数据或者是异常数据做处理,然后再把加工好的聚合表形成一个点集合和编集合的数据。
点集合会包含了证件、unioinid及手机号的数据,边集合主要是三个特征之间的关系。然后会把点和边的数据加载到图计算引擎做一个连通图的计算。最后形成一个基于用户特征和unioinid的一个映射表。
基于全量亿级别的数据我们做过一个测试。如果前期的加工过程是用Hive处理亿级别数据,整个ETL会耗时65分钟。图计算基于四台32G的机器计算大概需要15分钟。最后结果落盘1分钟,整个过程大概耗时81分钟。
增量计算的部分主要的处理逻辑差异在于,前期聚合和异常处理的部分,这里考虑一个百万级别的增量数据,整个计算过程大概是19分钟,这个计算结果是能满足一个中型企业数据量级计算要求的。
另外我们也对常见的一些图计算引擎做了一些技术调研。因为我们在做数据治理的时候用了图数据库,所以首先考虑了我们熟悉的图数据库技术Janusgraph。同时也调研了开源的图计算引擎,Spark GraphX和Alibaba GraphScope。从使用场景、运维以及对于现有技术架构的兼容性这三个维度做一个综合的评估。
其中Janusgraph更适合OLTP场景,Spark GraphX和Alibaba GraphScope对于OLAP场景会更实用。另外GraphScope有一个优势,它有丰富的使用场景,能够支持图计算、图学习和图查询,性能上也能有一定的保障。
为了让我们整个的数据加工处理和图计算任务的开发能够更灵活,我们把图计算引擎深度集成到了算法组件中。形成了一套集数据集成、交互式任务开发、任务调度、任务运维、数据治理和数据安全能力于一体的体系。
底层是图计算引擎,能够支持计算和查询的服务。在接口层能够支持交互式任务和周期任务的运行。往上的应用层我们提供基于全域数据融合的算法以及基于数据安全异常检测的算法。
在实践过程中我们也会遇到一些具体业务场景的诉求。比如属性合并的问题,如果一个用户关联到多个属性,就需要根据时序或者渠道的优先级去设定属性合并的逻辑。
另外一个是不能合并的规则,比如有一些企业希望他们用户的证件或者手机号不要做合并,这个就需要通过我们的业务规则去实现。
在实践的过程中也会遇到渠道的数据质量参差不齐的问题,我们会提供数据置信度的方案。通过对不同来源、不同渠道的数据去设定置信度的参数,以及设计置信度的计算公式。我们可以去满足企业在不同场景,例如做客户身份识别、sso、权益、营销推广等。
整体来说应用图计算对于现有的全域数据融合的方案能带来一个显著的提升。基于流批图一体的方案,整个效果能体现在多、快、好、省四个方面。
多是指我们能够合并更多的渠道,快是指我们的数据处理的速度快,好是指我们的处理结果准确度高,省是指我们能够跨渠道关联出更多的用户。
四、未来展望
首先我们会讲现在的一套基于业务规则和图计算识别的方案,形成一套标准的算法包方案。把一些业务场景和不同企业沉淀下来的逻辑形成一些配置开关,能够快速的落地到不同的客户场景。
第二我们会进一步去深度集成产品,把一些计算的能力去集成到我们的算法组件。最后我们会探索更多图计算方向的应用,包括数据治理,还有像推荐场景用户商品的知识图谱等等。