随着数字化改革的发展,数据变得越来越多,越来越重要,怎么治理维护好这些数据,让数据更加准确有效尤为重要,数据治理也成为最近几年一个重要的话题。
今天我们来看一个开源的数据治理平台,Datavines是一个易于使用的数据治理平台,提供数据目录和数据概览让您对你的数据有全方位的了解,同时内置了多种数据质量检查规则来确保数据集成和数据处理过程中数据的准确性。
源码:https://github.com/datavane/datavines
01 部署
下载源码
git clone https://github.com/datavane/datavines.git
cd datavines
创建数据库
创建datavines
执行 script/sql/datavines-mysql.sql 脚本进行数据库的初始化
编译打包
Need: Maven 3.6.1 and later
$ mvn clean package -Prelease -DskipTests
解压修改配置
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz
cd datavines-1.0.0-SNAPSHOT-bin
cd conf
vi application.yaml
主要是修改数据库信息
spring:
config:
activate:
on-profile: mysql
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8&serverTimezone=Asia/Shanghai
username: root
password: 123456
启动
cd bin
sh datavines-daemon.sh start mysql
02 使用
在浏览器输入:localhost:5600,就会跳转至登录界面,输入账号密码 admin/123456
第一步:配置数据源,告警方式等基础信息
第二步:查看数据目录
点击数据源,可以看到质量大盘,数据目录,作业管理,作业执行记录等页面。
可以在列上添加规则,例如点击表dv_catalog_entity_instance的properties列,进入列的详情页面,点击 添加规则 按钮, 选择空值检查规则, 选择 固定值 期望值类型、输入期望值 10 , 选择 实际值 检查公式 、> 比较符并输入阈值 10, 这样选择的意思就是当实际值 > 10 ,那么检查结果为成功,否则是失败。
第三步:添加检查作业
添加好规则运行的schedule和sla配置,就可以定时触发数据的质量监控。
第四步:作业执行记录
可以在这里查看作业的运行情况,还可以看质量报告大盘