Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11361内容
阿里封神谈hadoop生态学习之路
在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。
Cloudera Manager简介
Hadoop家族 整个Hadoop家族由以下几个子项目组成: Hadoop Common: Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。 HDFS: 是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNo
【资料合集】Apache Flink 精选PDF下载
Apache Flink是一款分布式、高性能的开源流式处理框架,本文收集整理了Apache Flink相关的PDF和文章资料,供大家参考。
权威详解 | 阿里新一代实时计算引擎 Blink,每秒支持数十亿次计算
阿里巴巴需要研发世界级一流的流式计算引擎,实时处理海量数据,提供在线统计、学习和预测能力,不仅支持阿里巴巴自己的核心电商场景,同时也能通过阿里云向外部中小企业提供流式计算服务,输出实时计算能力,这就是我今天要分享的最新一代阿里巴巴实时计算引擎Blink。
对比解读五种主流大数据架构的数据分析能力
数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、对业务发展有着举足轻重的作用。
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;     默认值:strict   描述:strict是避免全分区字段是动态的,必须
阿里云一键部署 Hadoop 分布式集群
Hadoop是一个能够让用户轻松架构和使用的开源分布式计算框架,以一种可靠、高效、可伸缩的方式进行数据处理。通过ROS资源编排服务可以在阿里云上一键部署Hadoop集群。
混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践
2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。
如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue
目前Aliyun E-MapReduce支持了zeppelin和hue,在Aliyun E-MapReduce集群上可以很方便的使用zeppelin和hue。本文将详细介绍如何在Aliyun E-MapReduce玩转Zeppelin和Hue!
比自建 Hadoop 还便宜!云栖大会揭秘阿里云数加 MaxCompute
DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。
免费试用