大数据简介

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何在大数据体系中发挥数据价值

到底什么才是大数据?

我们每天都能听到有人说“大数据”,但是大数据到底是什么,又代表着怎样的发展趋势,貌似有不少人会有这样的误解:

  • 在大数据中数据越多越好,数据够多就可以有更多的价值;
  • 我们是小公司,所以跟大数据没关系;
  • 大数据就是 Hadoop;
  • ……

其实不然,大数据并不是数据越多越好,数据也有好坏之分,只有挖掘出数据背后的关系和价值,才是真正的大数据之道。另外,是否需要做大数据是由公司业务决定的,并不是小公司就与大数据没关系。而 Hadoop 绝对不等于大数据,虽然 Hadoop 已经成为大数据领域的标准工具,但该领域还存在很多其他类型的处理系统。


之所以我们对大数据有各种各样的误解,主要是因为大数据本身是一个很庞杂的体系。作为一个火热概念,很多人在宣讲自己的成果时都把“大数据”挂在嘴边,以至于很多公司以为只要搭建起大数据体系,一股脑地把数据收集起来,就能够提升公司的业绩,发现新的商机。


为什么大数据会被广泛应用

大数据系统能够得到广泛应用,主要得益于以下两方面的进展。

底层硬件的支撑

1997 年,我拿到的第一台电脑内存只有 16 MB,硬盘只有 2 GB。放现在来看,这样的配置就是一个“笑话”,但在当时,这已经算是一个中等偏上的个人电脑配置了。而就是这样一台电脑,在那个年代竟然要花 7000 元,这个价格在今天随随便便都可以配一个 16 GB 内存、2 TB 硬盘的机器,内存和硬盘的容量增加了 1000 倍!更别说,虽然都是 7000 元,但是二十多年前一元钱的购买力是明显超过现在的。


我记得当时用电脑玩《三国群英传》的游戏,100+ MB 的存储大小还需要我对硬盘各种清理才能有空间容纳,而现在一个游戏动辄几十个 GB,我们的电脑存储起来都不在话下。


可见,我们的数据存储成本比起二十多年前已经极低极低了。


也正是这样,在气象相关的数据收集上,不再是只能保存重要数据,而是可以保存更多更完整的数据,到需要用到的时候,就可以取出来进行挖掘分析。


当然,除了存储以外,计算性能、网络带宽,这些年都在快速地发展,这些都为大数据的运算处理以及大数据集群的构建提供了有力的硬件支撑,在这方面我想你也有非常深刻的感受。

数据生产方式

在硬件发展利好的基础上,数据生产的方式也随之发生了巨大的改变。


随着网络、手机、电脑等设备的普及,越来越多的人成了内容的生产者,也就是我们现在所说的自媒体。微信公众号、今日头条,以及今天盛极一时的抖音、快手,都是依赖大家自发地去制作和上传内容,在这些平台上,每天发布的内容数量要以千万甚至亿级来进行计算。


在我们的生活中,除了这种主观创造的内容数据,被动数据的生产则更加迅速:


  • 手机会时刻记录下你停留的位置、你行走的步数;
  • 路口的摄像头不停地记录着每天在这里发生的事情;
  • 气象站的传感器 24 小时都在上传各种气象指标。


这些数据的生产是源源不断的,所以,每天都会有大量的数据产生并且被存储下来。


大数据的4个重要特点

基于以上两方面的发展,大数据系统才得以广泛应用,从中我们不难看出大数据的一些特征。


同样如果在网上搜索“大数据”,可能大家对它的定义不尽相同,但总体而言,都有着一些共同的特征。这些特征不外乎 4 点:数量多(Volume)、种类多(Variety)、速度快(Velocity)及数据价值(Value)。

大量数据

要说大数据数量多,这是无可争议的。正如我们上面所说的,硬件的发展及数据生产方式的变化,使得数据的数量急剧膨胀。使原本散落的信息变得连贯起来,并不停地生产,不停地交换。有一种说法是,最近两年所产生的数据量与过去人类产生的数据总量基本一致,而且在接下来的一段时间里,仍将继续保持这样快速的增长速度。


种类繁多

现在的数据不再局限于一些精密的数字,你写的一段话、拍下的一张照片、录制的一段音频或者视频,都是大数据的组成部分。这些主要源于我们的视觉、听觉,在不久的将来,我们的触觉、味觉、嗅觉等数据也会进入机器获取的范畴,从而形成完整的数据获取体系。


高速

在大数据的背景下,所有环节都变得更快了。这里的高速不单单指数据的生产速度,还有数据的交换速度、处理速度等。比如,当你在京东商城浏览商品的时候,你的每一次点击都会以毫秒级的时延传输到服务器上,而服务器集群又会根据你的这些行为,迅速地为你推荐出新的商品,在你下一秒的浏览内容中展示出来。显然,如果这个过程太慢,可能还没等后台的数据计算完成,你就已经关掉了京东转头去了淘宝,那岂不是会损失客户?所以,高速也是大数据体系一直不懈追求的目标。

数据价值

我们拥有了大量数据,一定是期望这些数据能给我们带来一些价值。显然,大数据是有价值的,但是大数据价值有一个特色——价值密度低。


比如,危险品生产车间的监控摄像头在 24 小时不间断地记录并回传着数据,但是这些数据通常都是毫无变化的,它日复一日地记录着,每隔一段时间就需要删除一些,以便腾出存储空间。当出现异常的时候,比如说在视频中发现了高温点,可能是车间中存在火苗,这个时候需要立即调用消防系统对火苗进行扑灭,从而防止危险发生。像这种存在价值的数据可能只是摄像头记录的一个微小片段,所以说数据的价值密度较低。


以上就是大数据的一些重要特点。也就是说,符合这些特征的数据,我们基本可以认为是“大数据”。


大数据的工作环节


数据的采集

各式各样的数据生产方式都需要我们配备完整的数据采集方案,譬如你想要在 App 上收集用户的行为信息,就需要进行各种数据埋点。


数据的存储

虽然说存储的硬件成本降低了,但是终归还是有成本的,同时数据也不可能杂乱无章地堆放在存储设备上,所以对应的数据库和文件存储方案,需要经过精密的设计来支撑这种巨量的数据存取。


数据的计算

目前主流的就是批处理和流处理两种方式,而针对这些方式,又有多种计算框架被研制出来,比如当前应用广泛的 Spark、Flink 等。


数据挖掘与分析

鉴于大量的数据和低密度的价值,我们期望能够使用一些巧妙的方案,从中找到那些有用的信息甚至是结论,于是各种算法与工具层出不穷。


数据的应用

从数据中挖掘到的有价值的信息正在我们的身边发挥着巨大的经济价值,内容推荐、气象预测,乃至疫情控制,都是在大数据的指导之下进行的。

数据安全

大数据有着重要的价值,而这些数据一旦泄露也会成为不法分子危害我们权益的帮手。所以,如何保障数据安全也是一个重要的问题。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
消息中间件 分布式计算 大数据
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
【大数据技术Hadoop+Spark】Flume、Kafka的简介及安装(图文解释 超详细)
300 0
|
1月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
36 4
|
SQL NoSQL Java
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
|
1月前
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
60 4
|
3月前
|
存储 分布式计算 数据可视化
大数据概念与术语简介
大数据概念与术语简介
89 2
|
6月前
|
存储 大数据 虚拟化
【云计算与大数据技术】虚拟化简介及虚拟化的分类讲解(图文解释 超详细)
【云计算与大数据技术】虚拟化简介及虚拟化的分类讲解(图文解释 超详细)
649 0
|
6月前
|
消息中间件 分布式计算 大数据
大数据组件之storm简介
大数据组件之storm简介
160 2
|
6月前
|
监控 大数据 数据处理
大数据组件之Storm简介
【5月更文挑战第2天】Apache Storm是用于实时大数据处理的分布式系统,提供容错和高可用的实时计算。核心概念包括Topology(由Spouts和Bolts构成的DAG)、Spouts(数据源)和Bolts(数据处理器)。Storm通过acker机制确保数据完整性。常见问题包括数据丢失、性能瓶颈和容错理解不足。避免这些问题的方法包括深入学习架构、监控日志、性能调优和编写健壮逻辑。示例展示了实现单词计数的简单Topology。进阶话题涵盖数据延迟、倾斜的处理,以及Trident状态管理和高级实践,强调调试、性能优化和数据安全性。
265 4
|
6月前
|
存储 分布式计算 Hadoop
大数据存储技术(1)—— Hadoop简介及安装配置
大数据存储技术(1)—— Hadoop简介及安装配置
298 0
|
6月前
|
机器学习/深度学习 搜索推荐 算法
「机器学习」推荐系统简介——一起来看看你是怎么被大数据杀熟的(四)
「机器学习」推荐系统简介——一起来看看你是怎么被大数据杀熟的(四)
82 0