开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1606内容
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。
数据湖元数据服务的实现和挑战
数据湖元数据服务为大数据而生,为互通生态而生,期望后续继续完善其服务能力和支撑更多的大数据引擎,通过开放的服务能力、存储能力、统一的权限及元数据管理能力,为客户节省管理/人力/存储等各项成本,实现客户自己的业务价值。
利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源隔离和quota限制
本文结合EMR集群,讲述了如何利用yarn capacity scheduler在EMR集群上实现大集群的多租户的集群资源quota限制与管控。
【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构
本文翻译自 Altinity 针对 ClickHouse 的系列技术文章。面向联机分析处理(OLAP)的开源分析引擎 ClickHouse,因其优良的查询性能,PB级的数据规模,简单的架构,被国内外公司广泛采用。本系列技术文章,将详细展开介绍 ClickHouse。
| |
大数据&AI实战派 第2期
《大数据&AI实战派》系列电子书由阿里云开发者社区与阿里灵杰共同打造,覆盖数据计算、数据分析、数据湖/湖仓一体、机器学习等多个领域,解读各技术领域基础原理,剖析行业实践案例,培养大数据开发者从“生产-采集-存储-分析-开发-治理-价值体现”的技术能力。
免费试用