一、大数据概念

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一、大数据概念

一、定义与特点

对于大数据目前还没有一个权威的定义,每个领域、公司、个人等对大数据的定义是不同的,但是总结起来大致包含三层定义:


  1. 数据量达到一定级别,能够满足一定的分析需求;
  2. 传统的方法和技术很难进行有效的分析;
  3. 通过对大数据的分析,可以得出在少量数据下无法得出的结论。


通常我们所说的大数据,更多的指的通过对大量数据进行快速分析,在较短的时间内得出有价值的信息。

大数据主要有如下四个特点:


  1. 数据规模巨大;
  2. 数据种类繁多;
  3. 数据价值难以挖掘;
  4. 数据处理速度要求很高。


目前大数据的类型主要有结构化数据、半结构化数据和非结构化数据。由于数据繁杂并且多样化,使得大数据的整体价值密度比较低,需要运用特定的技术方法来对数据进行收集、筛选、分析和整理。


二、处理大数据的技术步骤

大数据的处理步骤主要包括:数据获取与预处理、数据组织与管理、数据分析以及数据解释四个步骤。


2.1 数据获取与预处理

大数据处理的一个重要特征是数据来源与类型的多样,可能包括结构化数据、半结构化数据和非结构化数据,这些数据是系统从各种设备中抽取出来的数据,并根据不同的数据类型出去相应的关系和实体。抽取数据之后需要对数据进行清洗,删除一些噪音以及不完整的数据。另外大数据是根据数据来产生模式的,而且模式随着数据的增长不断演化,因此在当前阶段要保证数据与模式演化的一致性。


2.2 数据组织与管理

从各种设备中抽取的数据金国预处理之后需要将数据存储到数据管理系统中。数据管理系统需要对海量的数据进行存储管理,因此常用的方式是以分布式的方式进行存储。并且在大数据环境下数据的存储位置将会更大程度的影响计算性能,因此如何将数据以合理的方式分布存储在一个大规模分布式系统中是大数据组织管理的重要一环和重大挑战。


2.3 数据分析

数据分析是整个处理流程的核心部分。数据分析主要通过机器学习方法、数据挖掘以及数据统计分析等方法来实现对数据价值的获取,并提供给相应的应用程序使用。针对大数据,我们索要做的必须是如下三点,首先对数据进行预处理,因为大数据系统中的原始数据的数据噪音很大,其次大数据的一个主要特征是数据更新快,因此对数据分析处理的实时性要求很高,但对准确性的要求反而下降了一些,最后云计算平台为大数据处理提供了一个不错的支撑,因此分析大数据的算法要针对云计算进行响应的调整。


2.4 数据解释

数据解释主要是为了将数据的价值以可视化的形式展现给用户,从而让用户更加直观的了解数据的价值。数据解释主要通过可视化界面以及相关系统与用户的人机交互让用户对整个分析过程以及数据的价值有一个直观的了解。

前面我们说到的数据组织管理的形式直接影响了数据的加载速度和计算性能,就目前来说它不仅仅影响了这两方面,还会影响到数据的抽取和预处理效率,并且还会对数据分析效率产生直接影响。大数据环境下数据处理模式的变化使得数据组织管理的形式对系统产生更大的影响。


三、大数据存在的问题

大数据在处理性能和系统可扩展性方面都面临巨大的跳帧,主要是由数据的特征以及分析处理需求带来的。下面列出了两个主要的问题:


  1. 分布式环境下,大数据应用系统面临的数据量是不可预知的也是前所未有的,因此系统必须具备存储并管理海量数据的能力。分布式系统下大数据系统的数据处理模式已经发生了改变,因此数据块的位置将对数据处理性能产生直接的影响。
  2. 分布式环境下,大数据系统对处理仍然由实时性要求,比如微博,几乎在热点事件发生几秒钟后相关时间就会出现在微博热搜上。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
存储 分布式计算 大数据
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
大数据-169 Elasticsearch 索引使用 与 架构概念 增删改查
77 3
|
3月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
168 0
|
3月前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
70 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
3月前
|
存储 缓存 NoSQL
大数据-45 Redis 持久化概念 RDB AOF机制 持久化原因和对比
大数据-45 Redis 持久化概念 RDB AOF机制 持久化原因和对比
59 2
大数据-45 Redis 持久化概念 RDB AOF机制 持久化原因和对比
|
3月前
|
机器学习/深度学习 XML 分布式计算
大数据的概念
【10月更文挑战第16天】
135 4
|
3月前
|
消息中间件 存储 分布式计算
大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败
大数据-72 Kafka 高级特性 稳定性-事务 (概念多枯燥) 定义、概览、组、协调器、流程、中止、失败
45 4
|
3月前
|
消息中间件 NoSQL Kafka
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
大数据-52 Kafka 基础概念和基本架构 核心API介绍 应用场景等
83 5
|
3月前
|
消息中间件 存储 分布式计算
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解
94 4
|
3月前
|
消息中间件 大数据 Kafka
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(二)
42 2
|
3月前
|
消息中间件 NoSQL 大数据
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
大数据-77 Kafka 高级特性-稳定性-延时队列、重试队列 概念学习 JavaAPI实现(一)
51 1