Cloudera Manager简介
Hadoop家族
整个Hadoop家族由以下几个子项目组成:
Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。
HDFS:
是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNo
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。
阿里云 MaxCompute 2020-6 月刊
MaxCompute备份与恢复功能(公测)发布,提供持续备份用户修改/删除历史数据,支持快速恢复,持续保护数据安全。
该功能适用于广泛的企业级客户,尤其适用于对数据保护有强需求、担心数据误删除以及担心数据被恶意删除的客户。
Hive架构优点及使用场景
先阅读初识hive
Hive在大数据生态环境中的位置
Hive架构图
client 三种访问方式
1、CLI(hive shell)、command line interface(命令行接口)
2、JDBC/ODBC(ja.
分布式工作流任务调度系统Easy Scheduler正式开源
Easy Scheduler是一个分布式工作流任务调度系统,主要解决数据研发ETL错综复杂的依赖关系,而不能直观监控任务健康状态等问题。Easy Scheduler以DAG流式的方式将Task组装起来,可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。