开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

数据湖统一元数据服务需要具备哪些能力和价值?

数据湖统一元数据服务需要具备哪些能力和价值?

展开
收起
Lee_tianbai 2021-01-07 16:01:38 1096 0
1 条回答
写回答
取消 提交回答
  •  提供统一权限、元数据管理模块:统一的权限/元数据管理模块是各类引擎和存储互通 的基础,不仅权限/元数据模型需要满足业务对于权限隔离的需要,也需要能够合理支 持目前引擎的各种权限模型。

     提供大规模元数据的存储和服务能力,提升元数据服务能力极限,满足超大数据规模和 场景。

     提供存储统一的元数据管理视图:将各类存储系统(对象、文件、日志等系统)上数据 进行结构化既能够方便数据的管理,也因为有了统一元数据,才能进行下一步的分析和 处理。

     支撑丰富的计算引擎:各类引擎,通过统一元数据服务视图访问和计算其中的数据,满 足不同的场景需求。比如 PAI/MaxCompute/Hive 等可以在同一份 OSS 数据上进行 计算和分析。通过引擎支撑的多样化,业务场景将越来容易进行场景转换和使用。

     元数据操作的追溯/审计。

     元数据自动发现和收集能力:通过对文件存储的目录/文件/文件格式的自动感知,自动 创建和维护元数据的一致性,方便存储数据的自动化维护和管理。

    2021-01-07 16:02:06
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
DLA 一站式数据湖管理-如何高效构建安全的数据湖? 立即下载
阿里云云原生数据湖体系全解读 立即下载
数据湖存储解决方案蓝皮书 立即下载