•Apache Atlas简介•Apache Atlas架构•Titan图数据库介绍•ApachAtlas配置•Apache Atlas案例•总结
定义、注释和自动捕获数据集和底层之间的关系元素包括源、目标和派生过程
数据访问的日志审计
元数据信息及数据之间的血缘
用户可以使用两种方法管理 Atlas中的元数据
https://cwiki.apache.org/confluence/display/ATLAS/Atlas+REST+API
(1) neo4j
社区版 免费
企业版 收费
(2) Titan
全开源
Titan是一个分布式的图数据库,支持横向扩展,可容纳数千亿个顶点和边。 Titan支持事务,并且可以支撑上千并发用户和 计算复杂图形遍历。
在安装前需要确定,你运行titan的Java环境为1.8+ *
1) 将安装包拷贝到安装位置后解压缩:
unzip titan-1.0.0-hadoop2.zip
2) 删除并添加相关jar包
官方提供的hadoop2的安装包有一些问题,如果想要顺利的使用titan,必须删除相关的jar包,并添加一些缺失的jar包:
a. 删除异常jar包
hadoop-core-1.2.1.jar
b. 添加所需要的jar包,这些jar包可以通过maven进行下载
titan-hadoop-1.0.0.jar
titan-hadoop-core-1.0.0.jar
./bin/gremlin.sh
:remote connect tinkerpop.serverconf/remote.yaml
//初始化
graph=TitanFactory.open('conf/titan-cassandra-es.properties')
GraphOfTheGodsFactory.load(graph)
g=graph.traversal()
//获取saturn点
saturn=g.V().has('name', 'saturn').next()
g.V(saturn).valueMap()
//查看saturn孙子
g.V(saturn).in('father').in('father').values('name')
//查看hercules父母
hercules = g.V().has('name', 'hercules').next()
g.V(hercules).out('father', 'mother').values('name')
1,Atlas安装后默认hbase和solr存储,如果想修改存储介质,需要修改
/usr/hdp/2.6.0.3-8/atlas/conf/atlas-application.properties
2,Atlas安装完之后会在hive-site.xml文件中插入,是一个钩子函数
Hive 在使用 hive hook 的hive 命令执行上支持侦听器。 这用于在 Atlas 中使用org.apache.atlas.hive.model.HiveDataModelGenerator 中定义的模型添加/更新/删除实体。 hive hook将请求提交给线程池执行器,以避免阻塞命令执行。 线程将实体作为消息提交给通知服务器,并且服务器读取这些消息并注册实体。
3,如果Atlas中没有元数据,需要手动执行
/usr/hdp/2.6.0.3-8/atlas/hook-bin/import-hive.sh
4,Atlas高可用
要在 Atlas 中设置高可用性,必须在 atlas-application.properties文件中定义一些配置选项。
atlas.server.ha.zookeeper.connect=zk1.company.com:2181,zk2.company.com:2181,zk3.comp
$ATLAS_HOME/bin/atlas_admin.py -status
以下hive 操作由 hive hook 当前捕获
create database
create table/view, create table as select
load, import, export
DMLs (insert)
alter database
alter table (skewed table information, stored as, protection is notsupported)
alter view
案例
http://192.168.200.13:21000/api/atlas/lineage/hive/table/stg.stg_device_info_d@test/inputs/graph
http://192.168.200.13:21000/api/atlas/lineage/hive/table/stg.stg_device_info_d@test/outputs/graph
注意:已经删除的表,RESTAPI不能查询,但是图形化工具可以查询
ApacheAtlas可监控数据的流向
ApacheRanger统一授权管理