带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——4. 特色研发能力

4. 特色研发能力


Dataphin除规范建模、离线及实时研发及运维能力外,还提供了两种特色的资产构建能力。


1) 标签平台,一站式标签研发、管理及应用


标签作为企业数据资产的一部分,在数据应用及业务中扮演着非常重要的角色。不同的企业中对标签有不同的应用。

 

如金融机构中,对私客户经理需要基于客户画像进行理财产品推荐。消费金融领域对用户贷前准入有严格审核,需要基于借贷用户以及设备信息建立画像生成风险评估报告,对高风险客户进行有效识别。在零售营销业务中,需要针对不同的用户进行运营,如为促进高价值新用户留存提高复购,制定运营策略“对当天注册为会员的新用户,且满足注册当日消费总金额满100元条件时,对其进行短信营销,派发优惠券”等。

 

标签资产作为重要的资产,也需要进行有规划的建设和管理,业务部门可便捷高效地使用标签资产用于业务。Dataphin标签平台提供了基于标签类目进行标签的开发、管理、应用、治理,实现数据资产商业价值闭环。


a) Dataphin标签平台概述


标签平台基于Dataphin基础研发版能力,面向成熟期企业,提供企业核心商业要素的标签建设与管理能力,帮助企业沉淀好找好用、易开发、好治理的数据资产。

 

image.png

 

标签平台面向不同角色的人员提供了全生命周期的标签加工、管理与应用功能:

 

标签管理与运营:从业务场景和诉求出发,可进行标签市场的规划与管理,标签的实体、ID的管理以及标签属性的前置规划,为后续的标签开发及标签应用做好前置的设计和规划。可对标签和群组进行类目管理、对标签和群组的应用进行统计分析,从而进行标签的运营工作


标签开发与生产:为标签资产建设者提供标签生产、群组加工的工作空间,在工作台可以进行视图和行为关系的定义,基于视图、事件、行为关系进行标签、群组加工逻辑配置完成资产开发与发布,并上架至资产市场。业务人员也可以基于市场的标签或群组进行再加工,生成衍生标签、衍生群组用于自己的业务。


标签应用与服务:为标签资产应用者提供统一资产门户,在资产市场可以查看标签热度,获取标签上架最新信息,查看标签分布情况以及血缘信息,进行标签测试以及统计其离线、在线应用情况。为资产应用者提供多种资产服务类型,如标签离线服务,通过批量标签查询,输出标签表给到下游报表系统;标签实时查询,通过在线接口请求查询标签值。


b) 标签平台优势


依托于Dataphin资产建设模块强大的数据集成、数据研发及运维能力,以及围绕标签资产建设与运营管理的标签平台有其独特的优势:

 

丰富强大的标签加工:支持多类型标签开发,包括离线、实时等标签可视化加工。可基于离线视图、实时视图、行为关系,通过配置化的方式构建属性类、统计类标签、偏好类标签,也可以及与已有的标签创建衍生组合标签。通过标签可圈选群组,也可以衍生出新的群组。标签及群组支持周期性调度及手动加工模式,可提前生产,提升性能。


丰富便捷的服务应用:支持多实体标签开发、标签及群组类目管理、公共及私有标签及群组资产市场管理、离线标签及群组数据的导出,在线服务调用,满足多种业务场景诉求。通过配置化的方式,即可将标签导出到不同的目标数据库中,通过实时服务能力,应用在申请标签及群组权限后,即可调用服务API获取标签值,或查询群组信息。


多云环境多引擎支持:多引擎、多种容灾,架构扩展性强、稳定性强、性能高。通过统一的平台底座,可兼容多种部署环境,适配主流的大数据离线及实时计算引擎。

 

 

2) 隐私计算,数据可用不可见


a) 隐私计算概述


当前我国数据流通还处在起步阶段,数据价值无法最大化释放。因此,数据的开放共享、交换流通成为大数据产业发展的重中之重,快速发展的隐私计算等数据流通新技术为产业"破局"提供了关键思路,成为建设和完善数据要素市场的重要抓手。

 

Dataphin隐私计算,基于隐私计算技术,为企业提供数据可用不可见的数据安全流通方案,帮助企业实现产业间高效协同,促进行业、机构实现数据价值的共享与协作。

 

image.png

 


b) 隐私计算核心能力


ID安全匹配

 

功能介绍:在弱匿名化的前提下进行ID安全匹配。用于在不泄漏数据参与多方原始数据的前提下,得出共有ID集,非共有ID不会透出。

 

适用场景:适用于一些数据圈选的场景。例如,某银行期望在某电商平台,对【特定非活跃老客】用户进行老客营销,需要求两边客户交集,但两边客户ID不透出,此处可用ID安排匹配功能完成。

 

image.png

 

隐匿信息查询


功能介绍:隐匿信息查询,也称隐私信息检索,是指查询方隐藏被查询对象关键词或客户ID信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。

 

适用场景:适用于一些查询场景,数据查询方不想向数据服务方透露要查询的内容。例如病患想通过医药系统查询其疾病的治疗药物,如果以该疾病名为查询条件,医疗系统将会得知该病人可能患有这样的疾病,从而病人的隐私被泄露,通过隐私信息查询可以避免此类泄露问题。

 

image.png

 

安全联邦学习

 

功能介绍:在原始数据不出域的前提下,通过交换各个参与方的算法训练的中间结果梯度、参数信息,或完全在密文条件下进行计算,从而发挥参与多方数据样本更丰富、更全面的优势,得出更优模型。联合建模,分为横向联合建模、纵向联合建模。其中,纵向联合建模,联合多个参与者的共同样本的不同数据特征进行联合建模,即各个参与者的训练数据是纵向划分的。横向联合建模,联合多个参与者的具有相同特征的多行样本进行联合建模,即各个参与者的训练数据是横向划分的。

 

适用场景:纵向联合建模,适用于参与者训练样本ID重叠较多,而数据特征重叠较少的情况,例如某银行和某电商平台,分别拥有一部分客户数据,拥有的客户特征不一样,银行拥有客户的金融信用数据,电商拥有客户的电商消费数据,期望联合两方数据训练精准营销模型,则适合使用纵向联合建模。横向联合建模,适用于参与者的数据特征重叠较多,而样本ID重叠较少的情况,例如两家银行,分别拥有一部分客户数据,拥有的客户特征相似,但各自数据偏少,期望联合两方数据训练共同训练评分卡模型,则适合使用横向联合建模。

 

image.png

 

 

安全联合分析

 

功能介绍:在原始数据不可见的前提下,提供SQL模式对多方数据进行联合分析。

适用场景:适用于双方数据不共享,但有一些统计分析的需求。例如电商平台在媒体平台进行了营销广告投放,投放结束后,电商平台期望能联合两边的数据,进行全链路的营销活动复盘分析,就可以借助联合分析功能实现。

 

image.png

 

c) 隐私计算核心优势


安全性高


Dataphin隐私计算,拥有全链路数据保护和权限管理机制,在数据的数据源调取、算法使用、算法变更环节,隐私计算都会发起授权,需要数据合作方进行确认审批,保证数据的使用不会出现数据合作预期之外的场景,全程清晰可见。

 

另外,Dataphin隐私计算底层加密算法全部自研,自研算法在多个顶会中稿,底层算法能力已开源。并且,瓴羊Dataphin隐私计算已获得工信部、ISO、国家金融评测中心三大类评测。

 

性能优越


DataTrust,生长于阿里数据中台实践,在解决大数据场景下有优越的性能,支持百亿级别的PSI、亿级别的SQL分析,千维联邦学习,隐匿信息查询秒级返回;

 

智能化强


安全性和性能是隐私计算领域的两大挑战,想达到很高的安全性,性能必然受到影响。瓴羊Dataphin隐私计算,结合了大量的场景实践,创新性提出了智能计算模式,能保障安全性的前提下,能根据场景、数据量、网络等情况,自动选择最优的协议、最优的计算引擎、最优的算法,自动为该场景匹配最优的计算模式。

相关文章
|
6月前
|
SQL 安全 数据建模
Dataphin常见问题之计算任务没有按调度执行如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
数据挖掘 数据建模 BI
Dataphin常见问题之衍生指标的计算逻辑需要写where和group条件如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
9天前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
1月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
3月前
|
消息中间件 Kafka SQL
|
4月前
|
SQL 关系型数据库 MySQL
如何在Dataphin中构建Flink+Paimon流式湖仓方案
当前大数据处理工业界非常重要的一个大趋势是一体化,尤其是湖仓一体架构。与过去分散的数据仓库和数据湖不同,湖仓一体架构通过将数据存储和处理融为一体,不仅提升了数据访问速度和处理效率,还简化了数据管理流程,降低了资源成本。企业可以更轻松地实现数据治理和分析,从而快速决策。paimon是国内开源的,也是最年轻的成员。 本文主要演示如何在 Dataphin 产品中构建 Flink+Paimon 的流式湖仓方案。
7764 10
如何在Dataphin中构建Flink+Paimon流式湖仓方案