《CDP企业数据云平台从入门到实践》——CDP平台的安全和治理(5) https://developer.aliyun.com/article/1228317?groupCode=ClouderaCDP
三、 数据治理
1. 建立可信数据湖的数据管理
利用 CDP 平台构建可信数据湖,其中包含了大量的数据管理,包括:数据质量和配置文件、安全和访问控制、元数据管理、数据保留和归档、主数据管理、业务定义、数据血缘、审计、搜索和索引、治理等。
2. 理解你的数据
通过了解以下内容更好的理解数据:
• 如何发现哪些数据存储在哪里?
• 如何追踪数据沿袭?
• 如何以适当的粒度保护数据?
• 如何跟踪谁有权访问数据?
• 如何审核谁访问了数据?
• 如何启用数据自助服务?
• 如何始终如一地管理创建、应用和管理策略?
• 如何确保元数据随数据移动而保留?
3. Apache Atlas 架构
Apache Atlas 为 Hadoop 提供数据治理功能。Apache Atlas 用作通用元数据存储,旨在在 Hadoop 堆栈内外交换元数据。Atlas 与 Apache Ranger 的紧密集成使您能够跨 Hadoop 堆栈的所有组件一致地定义、管理和管理安全性和合规性策略。Atlas为 Data Steward Studio 提供元数据和沿袭,以支持跨企业数据管理数据。CDP 平台使用 Apache Atlas 来进行理解数据的工作。Atlas 主要负责元数据管理、数据血缘和数据分类处理,其架构图如下:
• Apache Atals 通过 Messaging 消息框架从 Apache Hadoop 组件中捕获数据血缘,并将数据血缘维护到 Janus 图数据库系统中。
• 审计系统是维护元数据变更的操作审计。
• 在他们之上提供包括分类、数据资产、业务术语、血缘等搜索能力,最上层是REST API,可以灵活访问 Apache Atlas 服务、Cloudera 数据平台(CDP)组件、UI 和外部工具。
• Bridge 负责导入和导出到现有业务元数据,并与其他系统进行集成整合。
《CDP企业数据云平台从入门到实践》——CDP平台的安全和治理(7) https://developer.aliyun.com/article/1228315?groupCode=ClouderaCDP