数据治理平台Datavines

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
简介: 【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。

随着数字化改革的发展,数据变得越来越多,越来越重要,怎么治理维护好这些数据,让数据更加准确有效尤为重要,数据治理也成为最近几年一个重要的话题。

今天我们来看一个开源的数据治理平台,Datavines是一个易于使用的数据治理平台,提供数据目录和数据概览让您对你的数据有全方位的了解,同时内置了多种数据质量检查规则来确保数据集成和数据处理过程中数据的准确性。

image.png
源码:https://github.com/datavane/datavines

01 部署
下载源码

git clone https://github.com/datavane/datavines.git
cd datavines

创建数据库

创建datavines

执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化

编译打包

Need: Maven 3.6.1 and later

$ mvn clean package -Prelease -DskipTests

解压修改配置

cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz
cd datavines-1.0.0-SNAPSHOT-bin
cd conf
vi application.yaml
主要是修改数据库信息

spring:
config:
activate:
on-profile: mysql
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
username: root
password: 123456

启动

cd bin

sh datavines-daemon.sh start mysql

02 使用
在浏览器输入:localhost:5600,就会跳转至登录界面,输入账号密码 admin/123456

第一步:配置数据源,告警方式等基础信息image.png

第二步:查看数据目录

点击数据源,可以看到质量大盘,数据目录,作业管理,作业执行记录等页面。
image.png
可以在列上添加规则,例如点击表dv_catalog_entity_instance的properties列,进入列的详情页面,点击 添加规则 按钮, 选择空值检查规则, 选择 固定值 期望值类型、输入期望值 10 , 选择 实际值 检查公式 、> 比较符并输入阈值 10, 这样选择的意思就是当实际值 > 10 ,那么检查结果为成功,否则是失败。

第三步:添加检查作业image.png

添加好规则运行的schedule和sla配置,就可以定时触发数据的质量监控。

第四步:作业执行记录

可以在这里查看作业的运行情况,还可以看质量报告大盘
image.png

相关实践学习
DataV Board用户界面概览
本实验带领用户熟悉DataV Board这款可视化产品的用户界面
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
目录
相关文章
|
12月前
|
存储 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
142 0
|
12月前
|
数据建模 供应链 定位技术
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
218 0
|
12月前
|
SQL API 数据安全/隐私保护
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
221 0
|
12月前
|
运维 分布式计算 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
467 0
|
12月前
|
数据采集 数据安全/隐私保护 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——5. 资产治理:高价值数据,助力企业高质量发展
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——5. 资产治理:高价值数据,助力企业高质量发展
363 0
|
存储 数据中心
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》—— 一、数据建设与治理:用中台方法论治理企业级好数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》—— 一、数据建设与治理:用中台方法论治理企业级好数据
376 0
|
供应链 数据库
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(3)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(3)
268 0
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(1)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(1)
331 0
|
存储 供应链 Java
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(2)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(一)规划:数据体系(2)
311 0
|
数据采集 监控 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(1)
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——(三)资产治理:标准、质量、安全、资源(1)
186 0