带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览

二、用中台方法论构建与治理企业级好数据


1. 概览


阿里巴巴在2015年提出全面启动中台战略,并在集团内部开启了一系列数据技术建设探索,沉淀下特有方法论捋清了数据全生命周期的管理思路,将其植入到瓴羊智能数据建设与治理Dataphin产品中,并与Quick BI(数据可视化分析)、Quick Audience(全域消费者运营增长)一同形成数据中台建设核心产品体系。

 

自2018年问世以来,Dataphin已发展出了内容丰富的功能大图,到目前为止经历了多轮大版本升级,产品核心的能力模块清晰显现,可以帮助企业高效地完成「好数据」的构建。


1) 产品架构

 

image.png

Dataphin产品架构图

 

Dataphin从下而上可分为四个大板块:

 

平台底座:


引擎平台兼容:可支持不同的引擎及部署环境,可纳管不同的引擎,包括但不限于MaxCompute、EMR、Hadoop体系(CDH、华为、星环、亚信等)、交互式分析Holo、Impala、ADB for PG、Starrocks等,Flink商业及开源版等,也支持不同云平台环境的部署及私有IDC部署


多样化开放接口:开放数据集成、数据处理、调度、运维、元数据、质量、安全、标准等几百个标准化接口,可与企业自有系统进行对接集成或进行功能个性与定制


配置化能力:开放了关于消息渠道、审批渠道、认证、审批模板、样式配置等客制化的能力,更好的适配企业的规范及场景。


数据建设平台:


全域数据可集成:通过配置化的方式完成数据的模型构建及指标的构建,并同时支持代码编写模式,更灵活的适应不同的场景和诉求,并支持日千万级调度能力。


规范建模:Dataphin遵循Ralph Kimball的维度建模理论,可根据业务实际情况在Dataphin设计并创建概念模型,并通过概念模型中的业务实体(业务对象或业务活动)创建对应的维度表、事实表、原子指标、业务限定、指标、汇总逻辑表。


指标构建与管理:通过构建的规范化的要素(原子指标、统计周期、维度、业务限定),配置化的方式构建指标;也可将通过代码方式已经加工好的指标注册到汇总表上,进行统一的指标管理。


标签工厂:可通过配置化的方式加工标签,让业务人员也可进行标签的二次加工及群组的圈选;通过快捷的配置,提供群组及标签的服务;根据元数据进行标签及群组进行治理、运行和管理。


数据服务:通过数据服务,可将提供高效的API开发及运维能力,可将数据资源通过API统一服务业务系统。


隐私计算:打通内外循环,实现数据不出域的自由流通,让数据可用不可见,数据价值化的同时保障数据的安全合规。


全域数据治理:Dataphin不仅仅治理数仓内的数据,也需要治理全域数据资产。


资产盘点:在数据治理开始前,需要对全域的数据进行盘点,对元数据进行丰富


标准及规范:Dataphin可支持数据的规范、研发的规范,制定数据标准,让数据治理“有法可依”;通过数据标准的手动和自动映射,可将表资产的字段与标准进行关联,并进行元数据和内容的稽核和监控


资产质量:提供全域的资产质量校验及跟踪方案,从质量稽核与评估(质量大盘、配置质量规则、查看校验记录、质量监控、智能报警)、质量治理(质量工作台、质量整改跟踪)、查看质量报告等功能。


数据安全:通过自动及手动的方式,可对资产进行分类及分级打标,对数据的权限申请流通进行规范的管理,也可对高敏数据在流通前就对数据进行加密处理,避免数据泄露


资源治理:通过元数据,对数据存储与计算资源诊断与治理,在数据价值挖掘的同时,也控制数据的成本,避免数据沼泽。


全域数据运营:数据在消费者手中用起来才能发挥数据的价值,全域运营是将数据资产推送到数据消费场景中,让数据在消费者手动实现价值化。全域数据运营板块主要提供一下功能模块:


资产目录:业务及消费视角的数据资产目录,可快速搜索查找推荐数据资产,推动企业数据文化。针对不同的人群,Datpahin可定制多套目录满足不同场景不同人群的找数、看数需求。


数据门户:通过提供场景式、主题是的数据门户,让用数的成本进一步降低,数据可找到正确的人。


自助消费:通过打通BI分析系统,面向业务人员运营人员,实现从可见到可用;通过提供即系分析的功能,可通过简单的SQL、Python能力,进行数据分析


2) 三大核心优势


Dataphin产品经过了几年的沉淀,积累的丰富的产品能力,也形成了独特的产品核心优势:

 

image.png

三大核心优势

 

多样的计算引擎兼容,可利旧降本:除了支持大数据离线和实时计算主流引擎外,我们还会不断探索和集成更多的计算引擎,以满足不同客户的需求。我们会不断优化引擎的性能和稳定性,以提高计算效率和降低成本。在部署的平台底座上,我们也适配支持了不同的云平台,包括阿里云的公共云多租户、阿里云专有云、阿里云公共云VPC部署,IDC部署,以及其他云平台上进行部署。


资产化驱动构建数据:阿里巴巴多年的内部的实践,我们沉淀了一套完整的方法论,帮助数据资产的构建。这套方法论和产品也在100多家客户中进行了深度的验证。


价值导向、消费驱动的数据治理:我们将进一步完善数据治理体系,包括数据盘点、数据质量管理、数据安全与合规等方面。我们还将借鉴和应用更多的经验和案例,不断提升数据治理的水平和效果。同时,我们也会更加注重数据的价值和消费者需求,以提供更有针对性和可用性的数据治理解决方案。

相关文章
|
2月前
|
SQL 运维 自然语言处理
Dataphin智能化重磅升级!编码难题一扫光,开发运维更高效!
Dataphin重磅推出三大核心智能化能力:智能代码助手提升SQL开发效率;智能运维助手实现移动化任务管理;智能分析通过自然语言生成SQL,助力数据价值释放。未来将持续开放智能ETL、安全助手等能力,助力企业构建高效、稳定的数据资产体系。
318 0
|
8天前
|
数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限功能通过“控制字段”实现灵活数据管控,支持多表批量绑定与动态授权,有效降低权限管理复杂度,提升数据安全性与管理效率。
|
1月前
|
SQL 数据管理 API
【产品升级】Dataphin V5.2 全新上线:四大能力升级,数据管理更统一、更智能!
Dataphin是阿里巴巴推出的数据建设与治理平台,提供全链路数据服务,助力企业构建标准化数据资产体系。V5.2版本新增“数据资产一站式运营平台”,引入X-数据管家、X-ETL等智能应用,提升数据运营效率。开发平台全面升级,支持多云复杂环境,强化API行级权限管控,保障数据安全。新版还适配国际化多时区场景,助力企业高效协同,释放数据价值。
255 9
|
1月前
|
存储 安全 网络安全
都在谈数据安全,可你真的会做数据全生命周期防护吗?
数据安全远不止防火墙和杀毒软件,而是贯穿数据从产生到销毁的全过程。本文详解数据全生命周期保护,涵盖数据产生、存储、传输、处理、使用、共享、归档与销毁七大阶段,剖析各环节风险与防护要点,帮助企业构建系统性防护体系,真正守住数据安全底线。
都在谈数据安全,可你真的会做数据全生命周期防护吗?
|
6月前
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
5月前
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
562 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
2月前
|
SQL 安全 BI
Dataphin数据服务API行级权限管控解决方案 ——构建企业级数据安全的精细化管控体系
Dataphin数据服务推出行级权限管控功能,解决传统权限管理中用户权限分散、管控复杂等问题。支持直连与代理双模式访问,实现API与SQL权限统一管理,满足金融、零售、医疗等行业对数据访问的精细化控制需求。通过动态权限决策引擎和自动化继承体系,确保数据安全且提升应用开发效率。
302 0
|
4月前
|
SQL 存储 大数据
Dataphin V5.0:支持创建异步调用API,实现慢 SQL 复杂计算的直连消费
本文介绍了数据服务产品中异步调用的应用场景与优势,包括大数据引擎查询、复杂SQL及大规模数据下载等场景,解决了同步调用可能导致的资源浪费和性能问题。通过创建异步API、测试发布以及权限申请等功能,实现高效稳定的服务提供。以电商订单查询为例,展示了如何利用异步调用提升系统性能与用户体验。
166 9
|
3月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
5月前
|
SQL 调度
如何基于Dataphin智能研发开发“留存率”指标
用户留存率是指在互联网行业中,某段时间内新增用户中,在后续特定时间点或时间段内继续使用应用的用户比例。它是衡量应用质量和用户保留能力的重要指标。 本文为您介绍如何基于Dataphin规范建模结合SQL加工能力进行留存率指标开发。
171 11

热门文章

最新文章