1.什么是数据?
人类的行为及产生的事件的一种记录称之为数据
2.数据有什么价值?
对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律
比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易
3.大数据的诞生是跟随着互联网的发展的
当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据待处理
基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成了海量数据处理的处理方式,并逐步发展成现代大数据体系
4.Apache Hadoop对大数据体系的意义
第一款获得业界普遍认可的开源分布式解决方案
让各类企业都有课用二队企业级开源分布式解决方案
一定程度上催生出了众多的大数据体系技术栈
从Hadoop开始(2008年左右)大数据开始蓬勃发展
5.什么是大数据
狭义上:对海量数据进行处理的软件技术体系
广义上:数字化,信息化时代的基础支撑,以数据为生活赋能
6.大数据的特征,5V
1.volume:体积:数据量大:采集数据量大,存储数据量大,计算数据量大,TB,PB级别起步
2.variety:种类:种类,来源多样化:种类:结构化,半结构化,非结构化,来源:日志文本,图片,音频,视频
3.value:价值:低价值密度:信息海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与
4.velocity:速度:速度快:数据增长速度快,获取数据速度快,数据处理速度快
5.veracity:质量:数据的质量:数据的准确性,数据的可信赖度
7.大数据核心工作:
1.数据存储:妥善保存海量待处理数据
2.数据计算:完成海量数据的价值挖掘
3.数据传输:协助各个环节的数据传输
8.大数据软件生态
存储:Apache Hadoop HDFS,Apache HBase,Apache Kudu,云平台
计算:Apache Hadoop MapReduce,Apache Spark,Apache Flink
传输:Apache Kafka,Apache Pulsar,Apache Flume,Apache sqoop
9.什么是Hadoop
Haddoop是开源的技术框架,提供分布式存储,计算,资源调度的解决方案
10.为什么学习Hadoop
Hadoop诞生早在企业中广泛应用
Hadoop概念较为简单,适合大数据分布式入门
11.Hadoop的发展
创始人Doug Cutting
基于Nutch搜搜项目发展
发展受到Google三篇著名的论文影响
12.Hadoop的版本
Apache开源社区版Hadoop(原生版本)
行业公司自行封装的版本,在源代码上加自己的东西
CDH(商业版使用最多的版本)
HDR
星环
在整个hadoop框架中,主要存在三个组件:HDFS,MapReduce和YARN,HDFS主要负责数据的存储,MapReduce则数据模型的运算,YARN负责资源的调度