4. 特色研发能力
Dataphin除规范建模、离线及实时研发及运维能力外,还提供了两种特色的资产构建能力。
1) 标签平台,一站式标签研发、管理及应用
标签作为企业数据资产的一部分,在数据应用及业务中扮演着非常重要的角色。不同的企业中对标签有不同的应用。
如金融机构中,对私客户经理需要基于客户画像进行理财产品推荐。消费金融领域对用户贷前准入有严格审核,需要基于借贷用户以及设备信息建立画像生成风险评估报告,对高风险客户进行有效识别。在零售营销业务中,需要针对不同的用户进行运营,如为促进高价值新用户留存提高复购,制定运营策略“对当天注册为会员的新用户,且满足注册当日消费总金额满100元条件时,对其进行短信营销,派发优惠券”等。
标签资产作为重要的资产,也需要进行有规划的建设和管理,业务部门可便捷高效地使用标签资产用于业务。Dataphin标签平台提供了基于标签类目进行标签的开发、管理、应用、治理,实现数据资产商业价值闭环。
a) Dataphin标签平台概述
标签平台基于Dataphin基础研发版能力,面向成熟期企业,提供企业核心商业要素的标签建设与管理能力,帮助企业沉淀好找好用、易开发、好治理的数据资产。
标签平台面向不同角色的人员提供了全生命周期的标签加工、管理与应用功能:
∙ 标签管理与运营:从业务场景和诉求出发,可进行标签市场的规划与管理,标签的实体、ID的管理以及标签属性的前置规划,为后续的标签开发及标签应用做好前置的设计和规划。可对标签和群组进行类目管理、对标签和群组的应用进行统计分析,从而进行标签的运营工作
∙ 标签开发与生产:为标签资产建设者提供标签生产、群组加工的工作空间,在工作台可以进行视图和行为关系的定义,基于视图、事件、行为关系进行标签、群组加工逻辑配置完成资产开发与发布,并上架至资产市场。业务人员也可以基于市场的标签或群组进行再加工,生成衍生标签、衍生群组用于自己的业务。
∙ 标签应用与服务:为标签资产应用者提供统一资产门户,在资产市场可以查看标签热度,获取标签上架最新信息,查看标签分布情况以及血缘信息,进行标签测试以及统计其离线、在线应用情况。为资产应用者提供多种资产服务类型,如标签离线服务,通过批量标签查询,输出标签表给到下游报表系统;标签实时查询,通过在线接口请求查询标签值。
b) 标签平台优势
依托于Dataphin资产建设模块强大的数据集成、数据研发及运维能力,以及围绕标签资产建设与运营管理的标签平台有其独特的优势:
∙ 丰富强大的标签加工:支持多类型标签开发,包括离线、实时等标签可视化加工。可基于离线视图、实时视图、行为关系,通过配置化的方式构建属性类、统计类标签、偏好类标签,也可以及与已有的标签创建衍生组合标签。通过标签可圈选群组,也可以衍生出新的群组。标签及群组支持周期性调度及手动加工模式,可提前生产,提升性能。
∙ 丰富便捷的服务应用:支持多实体标签开发、标签及群组类目管理、公共及私有标签及群组资产市场管理、离线标签及群组数据的导出,在线服务调用,满足多种业务场景诉求。通过配置化的方式,即可将标签导出到不同的目标数据库中,通过实时服务能力,应用在申请标签及群组权限后,即可调用服务API获取标签值,或查询群组信息。
∙ 多云环境多引擎支持:多引擎、多种容灾,架构扩展性强、稳定性强、性能高。通过统一的平台底座,可兼容多种部署环境,适配主流的大数据离线及实时计算引擎。
2) 隐私计算,数据可用不可见
a) 隐私计算概述
当前我国数据流通还处在起步阶段,数据价值无法最大化释放。因此,数据的开放共享、交换流通成为大数据产业发展的重中之重,快速发展的隐私计算等数据流通新技术为产业"破局"提供了关键思路,成为建设和完善数据要素市场的重要抓手。
Dataphin隐私计算,基于隐私计算技术,为企业提供数据可用不可见的数据安全流通方案,帮助企业实现产业间高效协同,促进行业、机构实现数据价值的共享与协作。
b) 隐私计算核心能力
ID安全匹配
功能介绍:在弱匿名化的前提下进行ID安全匹配。用于在不泄漏数据参与多方原始数据的前提下,得出共有ID集,非共有ID不会透出。
适用场景:适用于一些数据圈选的场景。例如,某银行期望在某电商平台,对【特定非活跃老客】用户进行老客营销,需要求两边客户交集,但两边客户ID不透出,此处可用ID安排匹配功能完成。
隐匿信息查询
功能介绍:隐匿信息查询,也称隐私信息检索,是指查询方隐藏被查询对象关键词或客户ID信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。
适用场景:适用于一些查询场景,数据查询方不想向数据服务方透露要查询的内容。例如病患想通过医药系统查询其疾病的治疗药物,如果以该疾病名为查询条件,医疗系统将会得知该病人可能患有这样的疾病,从而病人的隐私被泄露,通过隐私信息查询可以避免此类泄露问题。
安全联邦学习
功能介绍:在原始数据不出域的前提下,通过交换各个参与方的算法训练的中间结果梯度、参数信息,或完全在密文条件下进行计算,从而发挥参与多方数据样本更丰富、更全面的优势,得出更优模型。联合建模,分为横向联合建模、纵向联合建模。其中,纵向联合建模,联合多个参与者的共同样本的不同数据特征进行联合建模,即各个参与者的训练数据是纵向划分的。横向联合建模,联合多个参与者的具有相同特征的多行样本进行联合建模,即各个参与者的训练数据是横向划分的。
适用场景:纵向联合建模,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况,例如某银行和某电商平台,分别拥有一部分客户数据,拥有的客户特征不一样,银行拥有客户的金融信用数据,电商拥有客户的电商消费数据,期望联合两方数据训练精准营销模型,则适合使用纵向联合建模。横向联合建模,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况,例如两家银行,分别拥有一部分客户数据,拥有的客户特征相似,但各自数据偏少,期望联合两方数据训练共同训练评分卡模型,则适合使用横向联合建模。
安全联合分析
功能介绍:在原始数据不可见的前提下,提供SQL模式对多方数据进行联合分析。
适用场景:适用于双方数据不共享,但有一些统计分析的需求。例如电商平台在媒体平台进行了营销广告投放,投放结束后,电商平台期望能联合两边的数据,进行全链路的营销活动复盘分析,就可以借助联合分析功能实现。
c) 隐私计算核心优势
∙ 安全性高
Dataphin隐私计算,拥有全链路数据保护和权限管理机制,在数据的数据源调取、算法使用、算法变更环节,隐私计算都会发起授权,需要数据合作方进行确认审批,保证数据的使用不会出现数据合作预期之外的场景,全程清晰可见。
另外,Dataphin隐私计算底层加密算法全部自研,自研算法在多个顶会中稿,底层算法能力已开源。并且,瓴羊Dataphin隐私计算已获得工信部、ISO、国家金融评测中心三大类评测。
∙ 性能优越
DataTrust,生长于阿里数据中台实践,在解决大数据场景下有优越的性能,支持百亿级别的PSI、亿级别的SQL分析,千维联邦学习,隐匿信息查询秒级返回;
∙ 智能化强
安全性和性能是隐私计算领域的两大挑战,想达到很高的安全性,性能必然受到影响。瓴羊Dataphin隐私计算,结合了大量的场景实践,创新性提出了智能计算模式,能保障安全性的前提下,能根据场景、数据量、网络等情况,自动选择最优的协议、最优的计算引擎、最优的算法,自动为该场景匹配最优的计算模式。