Hadoop 一二事(1) - 简单介绍与杂谈

简介: 大数据大数据,身边很多朋友都在谈大数据,Big Data!!! 到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧 hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的大象 发音 /hadu:p/  在Apache旗下作为一个开源项目 它不是云计算,却是...

大数据大数据,身边很多朋友都在谈大数据,Big Data!!!

到底是什么,用来干嘛的,也很少有人说得出一二,那今天开始就简单说说这一二事吧

hadoop 的来源:是作者女儿的一个玩具 - 一只黄色的大象

发音 /hadu:p/ 
在Apache旗下作为一个开源项目
它不是云计算,却是云计算中的一部分,属于大数据这块
hadoop是一个开源的分布式计算系统
 
hadoop所解决的问题:
     海量数据存储 - HDFS (分布式文件系统,分布在多台电脑上进行存储)可以理解为一个大型的网盘,例如百度网盘,115网盘,可以进行上传下载
     海量数据分析 - MapReduce (分布式的计算模型)有多台机子进行数据的分析,例如原来工地有一个人搬砖,一次性搬100块砖头,后来分为100个人,每个人搬10块,同时会有老大工头监控这些小弟
 
hadoop擅长日志分析
 
现在的淘宝使用Stome来进行实时推荐
 
凌晨分析后的产生有用的数据,分为冷数据和热数据,冷数据存放在MyFox中(Mysql集群),热数据存放在Prom中(HBase集群)
 
实时流数据处理使用Storm,可以用于购买商品时实时推送推荐商品
Hive可以用于附近认识的人,朋友圈你可能认识的人,校内网(从网,或者说人人网)中的推荐认识的好友
 
现在hadoop已经出到了2,但是很多公司还是会基于1.0版本,因为稳定,也省去了迁移的风险
 
生态圈,各种掉渣天高大上(非常喜欢zookeeper)
 
hadoop的安装有2种
本地模式:使用eclipse进行调试,只有一个map,只有一个reduce
伪分布式:模拟多台机子,进行调试
集群模式:生产环境
 
 
 
 
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 分布式计算 资源调度
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(上)
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】
334 0
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(上)
|
分布式计算 资源调度 Hadoop
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
119 0
吐血整理的Hadoop最全开发指南【Hadoop集群搭建篇】(下)
|
SQL 分布式计算 安全
吐血整理的Hadoop最全开发指南【环境准备篇】(上)
吐血整理的Hadoop最全开发指南【环境准备篇】
175 0
吐血整理的Hadoop最全开发指南【环境准备篇】(上)
|
存储 分布式计算 安全
吐血整理的Hadoop最全开发指南【环境准备篇】(下)
吐血整理的Hadoop最全开发指南【环境准备篇】(下)
217 0
吐血整理的Hadoop最全开发指南【环境准备篇】(下)
|
分布式计算 资源调度 并行计算
|
分布式计算 算法 大数据
大数据开发是先学习Hadoop还是spark,看10万程序猿所留下的结论
从目前我遇到过的面试者和看过的简历来看,凡是没有过大数据项目经验的人,简历写出花来都是扯淡。部署一个集群,装一个Hive,HBase什么的根本就不叫大数据(有的公司甚至部署Hadoop只用HDFS,每天处理5GB数据,这是我面过的一个人告诉我的他的工作经验)。
1832 0
|
分布式计算 大数据 Java
[雪峰磁针石博客]大数据Hadoop工具python教程3-MapReduce
MapReduce是一种编程模型,通过将工作分成独立的任务并在一组机器上并行执行任务,可以处理和生成大量数据。 MapReduce编程风格的灵感来自函数式编程结构map和reduce,它们通常用于处理数据列表。

相关实验场景

更多