智能数据构建与管理平台Dataphin的前世今生:缘起

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务。

困难是最好的教练


阿里巴巴从2008年开始建设自有的大数据体系,致力于构建好数据服务多样的业务。一路上,经历了各种各样的困难。

技术陷在临时取数不可自拔

阿里巴巴曾今通过建设专门的“临时取数需求管理系统”,给每个业务线分配临时取数的时间额度,每次还没到月底额度已经为零。业务同学求着数据技术同学加班取数的情况时有发生。为了改变这一局面,专门建立了“业务人员SQL技能培训”,希望用这样的方式让业务人员自己掌握临时取数技能,美其名曰“赋能”。而这背后的本质是:资源。

数据口径定义有差别

曾经就因为数据口径差异,差点造成商家损失。商家在后台看到的数据预测,显示可以达到活动报名要求,于是提前备货,准备大干一场。但是最终报名却没有通过,原因是小二侧的数据口径与商家侧的数据口径不一致,小二系统评估商家的数据未达标,导致不通过。虽然最终通过协调解决了问题。但这背后的本质是:标准。

加班做报表,汇报还被骂

加班取数是常态,通常取数花费2-3小时,而之后的核对差异则要花费巨大精力,动辄1-2天;最后的汇报环节,也会因为一些口径差异及数据质量问题造成尴尬,甚至会出现错误数据导致决策失误的情况。这背后的本质是:质量。

除了上述这几个典型的场景,阿里巴巴也曾因业务增长而出现数据量爆发增长,对数据不治理不管理,意味着数据的存储和计算成本不断攀升。成本,也是大数据领域面临的困难之一。

探索中前行,实战中沉淀


带着克服困难的决心,阿里巴巴开始了B2B业务数据建设、电商业务数据建设、阿里系业务数据建设。过程中,边探索、边沉淀、边前行,通过更体系化的数据建设提升数据质量,降低数据重构的风险,提升数据服务的效率。

经历近十年的打磨,基于实战,阿里巴巴沉淀了一套大数据建设的方法论:OneData(OneModel+OneID+OneService)。其中:OneModel通过对数据体系化架构、数据元素规范定义、数据指标结构化拆解,对数据进行统一的构建及管理;OneID通过建立实体对象、对象相关的行为数据及标签构建方法,对企业的核心商业要素进行资产化;对数据资产进行统一的主题式数据单元构建,配置构建数据API并提供API服务,以提升数据资产消费的便捷性,提升数据资产价值。


image.png


克服痛点 创造领先的大数据能力


随着全球数字化进程的加速,企业面临着更加严峻的市场竞争,而数智化转型所遇到的困境也曾是阿里巴巴最初之痛。于是,阿里云数据中台应运而生,与各行各业的企业在数据领域开展了合作,解决企业凸显的数据问题:

  • 数据标准问题:烟囱式开发及局部业务服务支撑,导致指标同名不同口径问题频发;历史上不同业务系统逐步迭代上线,相同对象属性编码不一致等问题突出;
  • 数据质量问题:重复建设导致任务链冗长、任务繁多,计算资源紧张,数据时效性不好;口径梳理定义的文档沉淀到开发代码实现之间存在脱节,数据准确性保障风险高;
  • 需求响应问题:烟囱式开发周期长、效率低,面向应用的服务化不足,导致业务响应速度慢,业务不满意的同时技术又觉得没有沉淀与成长;既懂业务又懂数据的人才不足,需求理解到开发实现涉及大量沟通,服务效率较差;
  • 成本资源问题:烟囱式开发的重复建设浪费技术资源;上线难下线更难,源系统或业务变更不能及时反映到数据上,加之数据不标准,研发维护难上加难的同时,大量无用计算和存储造成资源浪费。


阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务。Dataphin除了大数据处理全链路涉及到的数据集成、开发、发布、调度、运维能力,同时提供了数据规范定义、逻辑模型定义、代码自动化生成、数据主题式服务能力,高效地完成好数据的构建。

Dataphin产品核心模块

image.png


Dataphin自2018年问世以来,已发展出了丰满的大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现。

1、环境适配

最底层为Dataphin的环境适配能力。Dataphin支持不同的云环境,为不同规模以及不同部署要求的客户提供不同的选择,包括公共云多租户、公共云VPC、专有云企业版及敏捷版,以及本地IDC部署。

2、引擎支持

在云环境之上,根据不同的云环境可以支持不同的计算引擎。离线的计算引擎包括阿里云MaxCompute,Hadoop生态引擎包括阿里云E-MapReduce、CDH5、CDH6、以及即将支持的FusionInsight、CDP等。实时计算引擎支持阿里云Blink和Flinkvvp。开源版本的Flink也即将支持。

3、数据构建

基于不同的云环境和计算引擎,Dataphin提供了大数据处理全链路涉及的数据集成、开发、发布、调度、运维能力,提供了数据规范定义、逻辑模型定义、代码自动化生成、主题是查询的数据构建能力。

4、资产

Dataphin提供了配套的资产地图、资产血缘、资产质量管理和监控、资源成本管理和提效的资产管理能力,并提供了配置化的资产服务研发和管理能力,可将数据资产快速服务业务、反哺业务。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
SQL 人工智能 分布式计算
【产品升级】Dataphin V5.3 全新上线:四大能力升级,数据管理更统一、更智能!
V5.3版本,Dataphin推出众多重磅功能:例如,全新的智能应用:X-数据标准、X-数据安全以及智能应用反馈看板;更前沿的数据研发能力:利用SelectDB/Doris/StarRocks查询加速Hive和MaxCompute的离线引擎、全面支持Paimon格式的数据湖构建;资产运营和数据服务持续提效。
280 0
|
2月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
110 8
|
3月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
363 0
|
4月前
|
运维 安全 关系型数据库
【产品升级】Dataphin V5.1版本发布:跨云数据集成、指标管理、平台运维带来重大更新!
V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。
305 0
|
28天前
|
数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限功能通过“控制字段”实现灵活数据管控,支持多表批量绑定与动态授权,有效降低权限管理复杂度,提升数据安全性与管理效率。
|
28天前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
|
2月前
|
SQL 数据管理 API
【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
301 9
|
3月前
|
SQL 安全 BI
Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
377 0
|
5月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
159 8
|
4月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!

热门文章

最新文章

相关产品

  • 智能数据建设与治理 Dataphin