一图解说Hadoop的发展历程

简介:
文章讲的是 一图解说Hadoop的发展历程

一图解说Hadoop的发展历程

  1. 这一切是如何开始的—Web上庞大的数据!

  2. 使用Nutch抓取Web数据

  3. 要保存Web上庞大的数据——HDFS应运而生

  4. 如何使用这些庞大的数据?

  5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析

  6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe

  7. Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中

  8. MapReduce编程需要的高级接口——Pig, Hive, Jaql

  9. 具有先进的UI报表功能的BI工具- Intellicus

  10. Map-Reduce处理过程使用的工作流工具及高级语言

  11. 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia

  12. 支持框架—Avro (进行序列化), Zookeeper (用于协同)

  13. 更多高级接口——Mahout, Elastic map Reduce

  14. 同样可以进行OLTP——Hbase


原文发布时间为:2011-9-26

本文作者:唐蓉 

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。

相关文章
|
运维 Kubernetes Cloud Native
云原生基本概念,核心技术、现状与前景|学习笔记
快速学习云原生基本概念,核心技术、现状与前景
1502 0
云原生基本概念,核心技术、现状与前景|学习笔记
|
存储 JavaScript 前端开发
【前端系列】- 富文本组件(mavon-editor)
mavon-editor是一款基于vue的markdown编辑器,可以用来做文本的编辑,比如是某种业务需要发送公告、个人博客等,都可以用到,操作也十分简单。
4578 0
【前端系列】- 富文本组件(mavon-editor)
|
存储 XML 缓存
医院信息管理系统之PACS系统组成和系统流程
医院信息管理系统之PACS系统组成和系统流程
799 0
|
存储 分布式数据库 数据处理
未来数据库技术发展趋势及挑战
【2月更文挑战第2天】 传统的数据库技术面临着越来越多的挑战,如数据规模的爆炸性增长、实时性和可扩展性要求的提升等。本文将探讨未来数据库技术的发展趋势,包括分布式数据库、无服务器数据库、区块链技术在数据库领域的应用等,并分析这些新技术带来的机遇和挑战。
|
机器学习/深度学习 数据采集 数据可视化
【优秀python系统毕设】基于Python flask的气象数据可视化系统设计与实现,有LSTM算法预测气温
本文介绍了一个基于Python Flask框架开发的气象数据可视化系统,该系统集成了数据获取、处理、存储、LSTM算法气温预测以及多种数据可视化功能,旨在提高气象数据的利用价值并推动气象领域的发展。
1020 1
|
前端开发 Python
我们从`reportlab.pdfgen`模块中导入了`canvas`。这个模块提供了创建PDF文件所需的基本功能。
我们从`reportlab.pdfgen`模块中导入了`canvas`。这个模块提供了创建PDF文件所需的基本功能。
|
自然语言处理 数据挖掘 API
GraphRAG揭秘:构建层次化知识图谱的终极指南
GraphRAG揭秘:构建层次化知识图谱的终极指南
1210 0
|
设计模式 存储 安全
Java设计模式:深入探讨饿汉式单例模式
当谈到Java设计模式时,"单例模式"是一个必不可少的主题。在这篇文章中,我们将深入探讨单例模式的一种常见实现方式——"饿汉式"。我们将了解什么是饿汉式单例模式,为什么选择它,以及如何在Java中实现。
417 0
|
存储 负载均衡 算法
TiKV简介
【2月更文挑战第27天】本章节旨在为读者提供一个关于TiKV存储引擎的初步认识,包括其基本概念、产生背景、主要特性以及在分布式存储领域中的应用。通过本章节的介绍,读者将能够对TiKV有一个整体的了解,为后续深入学习其存储原理和数据模型奠定基础。
|
XML 缓存 JSON
HTTP 头部:你不可不知的网页开发基础(上)
HTTP 头部:你不可不知的网页开发基础(上)