【学习】粗懂大数据的基本概念，不涉及行业和具体技术-阿里云开发者社区

【学习】粗懂大数据的基本概念，不涉及行业和具体技术

2017-11-09 1787

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

Big Data已经是被热炒的一个词汇。外行看热闹，内行开门道。对于这个“热词”，我们没必要认为它是“西洋镜”，理解我们过去对数据的运用，再延伸到当今信息爆炸的时代，应该会更容易理解。

对于任何事物（大数据），我们要抓住它的本质，沿着本质这条线寻找出解决之道。依托于所在的行业，环境，走出符合每个行业自身特点的解决方案。也许大家，觉得上述这句话很熟悉。我就是将历史观的方法，借鉴到技术上的。党报媒体常说结合马克思主义走中国特色的社会主义，我们能否可以说结合大数据拿出符合中国特色的大数据之路。大数据是纲目，要在这条思想下，不断实践，风起云涌。

没有必要神秘化大数据这个概念，只不过当今世界，人的脑力处理能力已经跟不上纷乱复杂的信息迭代更新了。我们可以看到古代打仗，两军对垒的将领肯定关注的是军队和武器的人数，这就相当于结构化数据了。但是没有办法直接获取到这样的数据怎么办？根据军队行军是扬起的灰尘，根据灶头来判断军队人数，这些应该属于非结构化的数据，要经过大脑的梳理转化为真实有效的数字。当然，还有天时和地形（非结构化数据），这些都可以归纳为对数据的理解。最后根据这些数据形成最终的战斗序列。

机器是生产工具的标志，机器产生解放生产力，改变生产关系。从机器处理数据开始，科学家们研究如何用机器来处理数据，诸如数据库、数据仓库、数据集市等信息管理领域的技术，就是要解决大规模数据的问题。数据之父的Bill Inmon认为要处理如此庞大的数据，它的基本流程如下图：

数据抽取与集成

● 大数据是多样性variety，来源极其广泛，类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。

● 要想处理大数据，首先必须对所需数据源的数据进行抽取和集成，从中提取出关系和实体，经过关联和聚合之后采用统一定义的结构来存储这些数据。

● 在数据集成和提取时需要对数据进行清洗，保证数据质量及可信性。

● 现有的数据抽取与集成方式可以大致分为以下四种类型：数据整合、数据联邦、数据传播和混合方法等。

数据分析

● 传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整，因为这些技术在大数据时代面临着一些新的挑战：

1、数据量大并不一定意味着数据价值（value）的增加，相反这往往意味着数据噪音的增多；

2、大数据时代的算法需要进行调整(邦弗朗尼原理)。

数据解释

● 数据分析是大数据处理的核心，但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法，则所得到的结果很可能让用户难以理解，极端情况下甚至会误导用户。

● 大数据时代的数据分析结果往往也是海量的，同时结果之间的关联关系极其复杂，采用传统的解释方法基本不可行。

● 可以考虑从下面两个方面提升数据解释能力：

— 引入可视化技术

— 让用户能够在一定程度上了解和参与具体的分析过程

Big Data主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展。无所不在的移动设备、RFID、无限传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互。要处理的数据量实在是太长、增长太快了，而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求，传统的常规技术手段根本无法应付。在这种情况下，技术人员纷纷研发和采用了一批新技术。

（1）存储

存储分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等

（2）计算

Map Reduce、流计算、图计算……

（3）应用

HIVE,pig,mahout，Sqoop以及ETL工具，统计与报告工具等

Google于2006 年首先提出了云计算的概念,并研发了一系列云计算技术和工具。以论文的形式逐步公开。正是这些公开的论文,使得以GFS、MapReduce、Bigtable为代表的一系列大数据处理技术被广泛了解并得到应用,同时还催生出以Hadoop为代表的一系列云计算开源工具。这些工具有些是完整的处理平台,有些则是专门针对特定的大数据处理应用。

现在一些主流的处理平台和工具

就实践方面来说，Hadoop 已经发展成为目前最为流行的大数据处理平台，Hadoop是一个分布式系统基础架构，由Apache基金会开发。

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。

Hadoop采用了分布式存储方式，提高了读写速度，并扩大了存储容量。采用MapReduce来整合分布式文件系统上的数据，可保证分析和处理数据的高效。与此同时，Hadoop还采用存储冗余数据的方式保证了数据的安全性。——具体hadoop学习，可以查阅大数据和云计算的书，甚至还有专门讲hadoop的书籍。

Hadoop作用

Hadoop中HDFS的高容错特性，基于Java 语言开发的，这使得Hadoop可以部署在低廉的计算机集群中，同时不限于某个操作系统。Hadoop中HDFS的数据管理能力，MapReduce处理任务时的高效率，以及它的开源特性，使其在同类的分布式系统中大放异彩，并在众多行业和科研领域中被广泛采用。

Hadoop功能和优点

●可扩展：不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。

●经济：框架可以运行在任何普通的PC上。

●可靠：分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。(元数据磁盘错误，心跳测试，副本数)

●高效：分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式，为高效处理海量的信息作了基础准备。

Hadoop生态系统图

生态图

【学习】粗懂大数据的基本概念，不涉及行业和具体技术

现在一些主流的处理平台和工具

Hadoop生态系统图

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【学习】粗懂大数据的基本概念，不涉及行业和具体技术

现在一些主流的处理平台和工具

Hadoop生态系统图

热门文章

最新文章

相关课程

相关电子书

相关实验场景