Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11261内容
Hadoop生态圈一览
根据Hadoop官网的相关介绍和实际使用中的软件集,将Hadoop生态圈的主要软件工具简单介绍下,拓展对整个Hadoop生态圈的了解。 这是Hadoop生态从Google的三篇论文开始的发展历程,现已经发展成为一个生态体系,并还在蓬勃发展中.... 这是官网上的Hadoop生态图,包含了大部分常用到的Hadoop相关工具软件 这是以体系从下到上的布局展示的Hadoop
【Hadoop Summit Tokyo 2016】为什么我的Hadoop集群运行这么慢?
本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了对于Hadoop集群的性能度量与监控、日志记录、以及跟踪和分析等的相关方法和使用到的HBase、HDFS、YARN等相关的开源技术。
Spark修炼之道(高级篇)——Spark源码阅读:第五节 Stage提交
Stage提交 调用流程: 1.org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted 2. org.apache.spark.scheduler.DAGScheduler.handleJobSubmitted.submitStage 3. org.apache.spark.scheduler.DAGSch
来!PyFlink 作业的多种部署模式
关于 PyFlink 的博客我们曾介绍过 PyFlink 的功能开发,比如,如何使用各种算子(Join/Window/AGG etc.),如何使用各种 Connector(Kafka, CSV, Socket etc.),还有一些实际的案例。
PySpark安装+Jupyter Notebook配置(Ubuntu 18.06)
学校一门Big Data Computing需要学习Spark in Python。 这篇文章记录一下安装PySpark和Jupyter Notebook上运行Spark的步骤。
HDFS部署体验
体验一把 HDFS 部署。不涉及复杂功能。当作自动文件备份工具使用。
​你应该知道的 HBase 基础,都在这儿了
2006 年10 月Google 发布三架马车之一的《Bigtable:A Distributed Storage System for Strctured Data》论文之后,Powerset 公司就宣布 HBase 在 Hadoop 项目中成立,作为子项目存在。
Hadoop大数据平台实战(01):Impala vs Hive的区别
Hadoop大数据生态系统重要的2个框架Apache Hive和Impala,用于在HDFS和HBase上进行大数据分析。 但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别?
免费试用