源码见 https://github.com/hiszm/hadoop-train
大数据概述
导学
学习内容
- Hadoop
- 分布式文件系统HDFS
- 分布式资源调度YARN
- 分布式计算机框架MapReduce
- 数据仓库Hive
- Hadoop分布式集群搭建
环境参数
- Linux:Centos7
- Hadoop:CDH5.15.1
- 开发工具:IDEA
案例
有一天,一名美国男子闯入他家附近的一家TARGET,抗议道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,你们这是赤裸裸的侮辱,我要起诉你们!”
店铺经理立刻跑出来承认错误,迷惑的经理到最后也没明白,到底发生了什么
一个月后,这名男子来TARGET道歉
因为他后来才知道女儿的确怀孕了
这样说来,TARGET比这位父亲知道他女儿怀孕的时间,足足早了一个月。
那么问题来了,TARGET是怎么知道的呢?
这个女孩之前并没有购买过任何的母婴用品
原来,这就是神秘的大数据发挥的作用。
定义和特征
- 海量的计算
- 大量的用户全体
- 数据分析
- 数据管理
4V特征
技术变革
- 技术驱动:数据量大
- 存储: 文件存储->分布式存储
- 计算:单机-> 分布式计算
- 网络:万兆
- DB:RDBMS(关系型数据库)-> NoSql(HBase/Redis)
现存的模式
- 手握大数据,无大数据行为(金融。通讯运营商)
- 没数据,又大数据思维(一些It企业)
- 又大数据,又有大数据思维(google,阿里)Ω
存储和分析
数据采集:Flume sqoop
数据存储:Hadoop
数据处理,分析,挖掘:Hadoop,Spark,Flink
数据可视化:echart
差异
- 对数据库的技术升级
- 经典数据库没有考虑到的多类别
- 实时性的技术
- 对网络,数据中心,运维的要求
Google的大数据结束
为了应对大数据带来的挑战
- 存储容量
- 读写数据
- 计算机效率
Google提供的思路(未开源)
- MapReduce
- BigTable
- GFS
所以开发者根据谷歌的思路构建了Hadoop