了解基础讨论数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 了解基础讨论数据

1.什么是数据?

人类的行为及产生的事件的一种记录称之为数据

 

2.数据有什么价值?

对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律

比如,购物的订单记录(数据)可以帮助平台更好的了解消费者,从而促进交易

 

3.大数据的诞生是跟随着互联网的发展的

当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据待处理

基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成了海量数据处理的处理方式,并逐步发展成现代大数据体系

 

4.Apache Hadoop对大数据体系的意义

第一款获得业界普遍认可的开源分布式解决方案

让各类企业都有课用二队企业级开源分布式解决方案

一定程度上催生出了众多的大数据体系技术栈

Hadoop开始(2008年左右)大数据开始蓬勃发展

 

5.什么是大数据

狭义上:对海量数据进行处理的软件技术体系

广义上:数字化,信息化时代的基础支撑,以数据为生活赋能

 

6.大数据的特征,5V

1.volume体积:数据量大:采集数据量大,存储数据量大,计算数据量大,TBPB级别起步

2.variety种类:种类,来源多样化:种类:结构化,半结构化,非结构化,来源:日志文本,图片,音频,视频

3.value价值:低价值密度:信息海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与

4.velocity速度:速度快:数据增长速度快,获取数据速度快,数据处理速度快

5.veracity质量:数据的质量:数据的准确性,数据的可信赖度

 

7.大数据核心工作:

1.数据存储:妥善保存海量待处理数据

2.数据计算:完成海量数据的价值挖掘

3.数据传输:协助各个环节的数据传输

 

8.大数据软件生态

存储:Apache Hadoop HDFSApache HBaseApache Kudu,云平台

计算:Apache Hadoop MapReduceApache SparkApache Flink

传输:Apache KafkaApache PulsarApache FlumeApache sqoop

 

 

9.什么是Hadoop

Haddoop是开源的技术框架,提供分布式存储,计算,资源调度的解决方案

 

10.为什么学习Hadoop

Hadoop诞生早在企业中广泛应用

Hadoop概念较为简单,适合大数据分布式入门

 

11.Hadoop的发展

创始人Doug Cutting

基于Nutch搜搜项目发展

发展受到Google三篇著名的论文影响

image.png

 

12.Hadoop的版本

Apache开源社区版Hadoop(原生版本)

行业公司自行封装的版本,在源代码上加自己的东西

CDH(商业版使用最多的版本)

HDR

星环

 

在整个hadoop框架中,主要存在三个组件:HDFSMapReduceYARNHDFS主要负责数据的存储,MapReduce则数据模型的运算,YARN负责资源的调度

 

 

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
存储 编译器 C#
C#基础补充
C#基础补充
63 0
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型的特点、重要概念及工作方式详解
大模型是具有大量参数和复杂结构的深度学习模型,通过处理大量数据实现高效任务解决。其特点包括参数规模庞大、深层网络结构、预训练与微调、多任务学习和自适应能力。重要概念有注意力机制、Transformer架构、迁移学习和分布式训练。大模型的工作方式包括输入处理、特征提取、预测与损失计算、反向传播与优化,以及评估与微调。这些特性使其在自然语言处理、计算机视觉等领域取得显著进展。
|
4月前
|
机器学习/深度学习 开发框架 数据可视化
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
|
6月前
|
数据库
第二章用表组织数据
第二章用表组织数据
|
Linux Go 数据库
技术阅读摘要 - 1.十二要素应用原则
十二要素应用原则(The Twelve-Factor App) 在如今的微服务领域非常流行,相信大家或多或少有所耳闻,但了解其中细节的并不多。 今天,我将对这12个原则做一个概要分析,结合Go语言中的相关例子,根据开源与大厂的具体实践,和大家一起看看个中究竟。
52 0
|
机器学习/深度学习 人工智能 算法
谈谈从分析到行动看数据驱动和数据信息的区别
近年来,“数据驱动”这个术语已经被广泛使用,很多人谈论要成为一个数据驱动的组织。
谈谈从分析到行动看数据驱动和数据信息的区别
|
数据采集 存储 架构师
谈谈如何理解数据建模也是数据治理的一种形式
数据建模是数据治理的一种形式。我们将数据治理定义为“执行和实施”对数据和与数据有关的资产的定义、生产和使用的权威。
谈谈如何理解数据建模也是数据治理的一种形式
|
缓存 前端开发 NoSQL
笔记整理:技术架构涵盖内容和演变过程总结
单体架构 2. 应用与数据库分离 3. 使用缓存抗量 4. 多应用部署和Nginx反向代理 5. 数据库读写分离 6. 应用分组部署 7. 应用分库设计 8. RPC 分布式部署 9. 应用细分和网关引入 10. 低代码编程和可复用
330 0
笔记整理:技术架构涵盖内容和演变过程总结