DawnSql在数据治理中的优势

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: DawnSql数据治理平台的优势。1、降低成本DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移DawnSql 支持机器学习和扩展其方法结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。

数据治理的定义

根据DAMA国际数据管理协会对数据治理定义:数据治理是对数据资产的管理活动行使权力和控制的活动集合(规划、监控和执行)。

数据治理的最终目标是提升数据的价值。

数据治理的流程

数据治理的主要流程:

  1. 数据集成
  2. 数据开发
  3. 数据质量
  4. 数据服务

1. 数据集成

数据集成主要包括两块:数据采集和清洗。

2.数据开发

数据开发包括编码研发和规范建模。编码研发用于构建计算任务,例如创建SQL代码任务、Shell任务、Python任务、MR任务和Spark任务等;规范建模用于构建逻辑化的数据模型。

3. 数据质量

数据质量体现在:时效性、准确性、一致性

时效性

随着业务发展,企业对业务、产品和服务进行调整优化的速度也会增加,在使用一些比较强调实时性的数据时,企业的技术、分析和管理人员需要在短时间内使用数据,一旦数据不能及时利用,这个数据就很有可能就没有价值了。

准确性

如果数据不准确,那么就失去了数据的价值。所以未来保证数据的准确性。会做数据的准确性测试、以及数据的准确性监控。

一致性

提供给下游使用的数据,要有统一的口径和解释。通常情况下,指标是由分析师定义,但实际开发中,业务、产品、甚至是研发自己,也往往会定义一些指标,往往又会因为数据范围的不同,导致结果不一致。因此要避免结果的不一致性,数据的结果一定要有验证的过程。

4. 数据服务

数据服务是为数据的应用提供支持:决策支持、数据大屏、智能数据应用、其它服务

数据治理的架构

总体系统框架

总体技术框架.png

总体技术框架

总体技术框架

数据平台.png

数据平台

传统大数据平台

大数据平台_1.png

大数据平台_1

传统MPP平台

大数据平台_2.png

大数据平台_2

数据管理体系和运作机制

数据管理体系和运作机制.png

数据管理体系和运作机制

数据管理组织架构

数据管理组织架构.png

数据管理组织架构

DawnSql在数据治理中的优势

DawnSql数据治理平台

DawnSql架构图.png

DawnSql架构图

1、降低成本

  1. DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓
  2. DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言
  3. DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值
  4. DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移
  5. DawnSql 支持机器学习和扩展其方法 结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。 也就是说原来需要多个系统,多个平台的支持,现在只需要 DawnSql 一个就可以了,开发成本,运维成本,硬件成本都极大的降低了。

2、提升数据价值

对比其他平台,DawnSql 在提升数据价值方面,它拥有更快的时效性和安全性。企业对数据的使用,会更快捷,更安全。因为 DawnSql 不仅仅是缓存,它还可以根据企业的实际的业务需求,对不同的人,不同的业务,赋予不同的数据读写权限。让数据更快捷、更准确、更安全的、被业务放使用。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
弹性计算 运维 关系型数据库
云上部署环境(基础设施)的正确姿势——使用资源编排ROS进行基础设施的部署
![image.png](https://ata2-img.cn-hangzhou.oss-pub.aliyun-inc.com/66daa0b176da97de1dc8e66580fc0384.png) # 常见的部署问题 1. 多环境部署。根据实际开发的需要,一般至少需要准备3个环境:日常测试环境,部署预发环境,部署生产环境。 2. 多地域部署。对于云产品还需要支持多地域部署
|
11月前
|
存储 JSON 小程序
微信小程序入门之新建并认识小程序结构
微信小程序入门之新建并认识小程序结构
175 1
|
10月前
|
SQL 流计算 关系型数据库
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
阿里云OpenLake解决方案建立在开放可控的OpenLake湖仓之上,提供大数据搜索与AI一体化服务。通过元数据管理平台DLF管理结构化、半结构化和非结构化数据,提供湖仓数据表和文件的安全访问及IO加速,并支持大数据、搜索和AI多引擎对接。本文为您介绍以Flink作为Openlake方案的核心计算引擎,通过流式数据湖仓Paimon(使用DLF 2.0存储)和EMR StarRocks搭建流式湖仓。
971 5
基于OpenLake的Flink+Paimon+EMR StarRocks流式湖仓分析
|
10月前
|
数据采集 机器学习/深度学习 运维
智能化运维在现代IT系统中的应用与挑战####
【10月更文挑战第29天】 本文探讨了智能化运维(AIOps)在现代IT系统中的重要作用及其面临的主要挑战。通过引入机器学习和大数据分析,智能化运维能显著提高系统稳定性、降低运营成本,并增强故障预测能力。然而,数据质量、技术整合及安全性等问题仍是其广泛应用的主要障碍。本文详细分析了这些挑战,并提出了相应的解决方案和未来发展趋势。 ####
160 5
|
算法 数据可视化 定位技术
【python实操】如何通过简单拖拽直接开发软件,避免手写界面布局
【python实操】如何通过简单拖拽直接开发软件,避免手写界面布局
230 0
|
算法
暗通道先验算法
暗通道先验算法
323 0
|
SQL 存储 NoSQL
阿里云 EMR StarRocks 在七猫的应用和实践
本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。
783 2
|
Java 数据库
使用java.sql.Timestamp处理时间戳
使用java.sql.Timestamp处理时间戳
|
Java Maven
IDEA中查看源码点击Download Sources时出现Cannot download sources的问题复现及解决
IDEA中查看源码点击Download Sources时出现Cannot download sources的问题复现及解决
1979 0
|
关系型数据库 MySQL
mysql查询结果时间戳转成日期格式——date、DATE_FORMAT和FROM_UNIXTIME的使用
mysql查询结果时间戳转成日期格式——date、DATE_FORMAT和FROM_UNIXTIME的使用
302 0

热门文章

最新文章