了解基础讨论数据

简介: 了解基础讨论数据

1.什么是数据?

人类的行为及产生的事件的一种记录称之为数据

 

2.数据有什么价值?

对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律

比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易

 

3.大数据的诞生是跟随着互联网的发展的

当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据待处理

基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成了海量数据处理的处理方式,并逐步发展成现代大数据体系

 

4.Apache Hadoop对大数据体系的意义

第一款获得业界普遍认可的开源分布式解决方案

让各类企业都有课用二队企业级开源分布式解决方案

一定程度上催生出了众多的大数据体系技术栈

Hadoop开始(2008年左右)大数据开始蓬勃发展

 

5.什么是大数据

狭义上:对海量数据进行处理的软件技术体系

广义上:数字化,信息化时代的基础支撑,以数据为生活赋能

 

6.大数据的特征,5V

1.volume体积:数据量大:采集数据量大,存储数据量大,计算数据量大,TBPB级别起步

2.variety种类:种类,来源多样化:种类:结构化,半结构化,非结构化,来源:日志文本,图片,音频,视频

3.value价值:低价值密度:信息海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与

4.velocity速度:速度快:数据增长速度快,获取数据速度快,数据处理速度快

5.veracity质量:数据的质量:数据的准确性,数据的可信赖度

 

7.大数据核心工作:

1.数据存储:妥善保存海量待处理数据

2.数据计算:完成海量数据的价值挖掘

3.数据传输:协助各个环节的数据传输

 

8.大数据软件生态

存储:Apache Hadoop HDFSApache HBaseApache Kudu,云平台

计算:Apache Hadoop MapReduceApache SparkApache Flink

传输:Apache KafkaApache PulsarApache FlumeApache sqoop

 

 

9.什么是Hadoop

Haddoop是开源的技术框架,提供分布式存储,计算,资源调度的解决方案

 

10.为什么学习Hadoop

Hadoop诞生早在企业中广泛应用

Hadoop概念较为简单,适合大数据分布式入门

 

11.Hadoop的发展

创始人Doug Cutting

基于Nutch搜搜项目发展

发展受到Google三篇著名的论文影响

image.png

 

12.Hadoop的版本

Apache开源社区版Hadoop(原生版本)

行业公司自行封装的版本,在源代码上加自己的东西

CDH(商业版使用最多的版本)

HDR

星环

 

在整个hadoop框架中,主要存在三个组件:HDFSMapReduceYARNHDFS主要负责数据的存储,MapReduce则数据模型的运算,YARN负责资源的调度

 

 

 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
存储 编译器 C#
C#基础补充
C#基础补充
41 0
|
前端开发 JavaScript NoSQL
第一次提供技术服务涉及的技术点和思考过程
一年前的今天,我肯定还不敢做前后端联动的工程,没有这个视野。如今有了些许,不敢自傲,还需学习。今天我站在稍上一点的角度,谈一谈我的思考过程及技术点。
63 0
|
机器学习/深度学习 人工智能 算法
谈谈从分析到行动看数据驱动和数据信息的区别
近年来,“数据驱动”这个术语已经被广泛使用,很多人谈论要成为一个数据驱动的组织。
谈谈从分析到行动看数据驱动和数据信息的区别
|
数据采集 存储 架构师
谈谈如何理解数据建模也是数据治理的一种形式
数据建模是数据治理的一种形式。我们将数据治理定义为“执行和实施”对数据和与数据有关的资产的定义、生产和使用的权威。
谈谈如何理解数据建模也是数据治理的一种形式
|
监控 数据可视化 测试技术
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
202 0
软工导第一节课 计算机软件工程学作一个简短的概述,回顾计算机系统发展简史 软件工程的基本原理和方法有概括的本质的认识,详细讲解生命周期相关知识讲解8种典型的软件过程模型
|
缓存 前端开发 NoSQL
笔记整理:技术架构涵盖内容和演变过程总结
单体架构 2. 应用与数据库分离 3. 使用缓存抗量 4. 多应用部署和Nginx反向代理 5. 数据库读写分离 6. 应用分组部署 7. 应用分库设计 8. RPC 分布式部署 9. 应用细分和网关引入 10. 低代码编程和可复用
278 0
笔记整理:技术架构涵盖内容和演变过程总结
|
计算机视觉
挣值分析 概念
挣值分析 概念