《大数据分析:点“数”成金》----第一章:什么是大数据

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:      第1章   什么是大数据   “ 大数据”到底是什么?这个概念乍看上去相当模糊,它似乎指的是数量庞大信息量巨大的数据。


 
 


 第1章   什么是大数据

  “

大数据”到底是什么?这个概念乍看上去相当模糊,它似乎指的是数量庞大信息量巨大的数据。尽管这样的描述确实符合“大数据”的字面含义,但它并没有解释清楚大数据到底是什么。

大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。从网上我们可以得到一个被大多数人所认同的观点:当数据集已经发展到相当大的规模,常规的信息技术已无法有效地处理、适应数据集合的增长和演化时,大数据就应运而生了。换言之,数据集规模已大到难以用传统信息技术进行有效的管理,更不用说从中挖掘价值了。具体来说,难题主要在于数据的采集、存储、检索、共享、分析和数据可视化。

关于大数据到底是什么,绝非三言两语就能解释清楚。这个概念经过演变不仅包含了对数据集规模的描述,还包括数据利用的过程。大数据甚至变成了其他商务概念的代名词,如商业智能(Business Intelligence, BI)、数据分析(Analytics)和数据挖掘(Data Mining)。

大数据虽新,可“大数据”却早已存在。虽然海量的数据规模在最近两年内才形成,但大数据的概念却早已在科学界、医学界等组织中萌芽。这些组织对海量数据集进行复杂的分析,并将其运用于药物研制、物理建模及其他研究领域。然而,正是这些渊源为大数据今日的发展奠定了基础。

1.1 数据分析的春天

科学家们对大数据集进行研究和分析后得出一个结论——数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。于是,研究者们开始在分析过程中引入相关数据集、非结构化数据、归档数据和实时数据,而这反过来又催生出我们今日所谓的“大数据”。

在商业领域中,大数据暗藏商机。据IBM公司称,全球每天产生2.5亿亿(2.5×1018)字节的数据,当今世界90%的数据都是近两年产生的。这些数据来源广泛,有的来自收集气候信息的传感器,有的来自社交媒体网站,还有的是网络上传的数字照片和视频、电子商务交易记录,甚至是手机GPS信号等。这些都是大数据的“催化剂”。更重要的是,所有的数据都蕴含内在价值,利用数据分析、算法和其他技术是可以将这些内在价值提炼出来的。

大数据的价值及其重要性已经在一些领域得到了证明。美国国家海洋和大气管理局(NOAA)、美国国家航空航天局(NASA)、部分制药公司和许多能源公司正在把大数据技术运用于日常工作并从海量的数据中提取价值。

美国国家海洋和大气管理局运用大数据的方法助力气候、生态系统、天气和商业研究,美国国家航空航天局则使用大数据从事航空航天等研究。在大数据的帮助下,制药公司和能源公司已经在药物测试和地理分析方面得到了实际的效益。《纽约时报》利用大数据工具进行文本分析和Web挖掘;迪士尼公司则分析了旗下所有店铺、主题公园和网站的数据,试图发现数据间的关联性,进而理解用户行为。

在如今的商业活动中,大数据还扮演着其他的角色,大型企业越来越迫切地需要维护海量的结构化和非结构化数据——从数据仓库中的交易信息到员工的微博数据,从供应商的供货记录到政府的监管信息(为了符合政府法规的规定)。在近期诉讼案件的审理过程中,法庭鼓励公司保存大量文档、电子邮件以及其他电子通信消息(例如即时消息、网络通话等)。一旦公司面临诉讼,便可以从这些信息中进行电子取证,这也进一步推动了数据维护的需求。

1.2 价值何在

发掘价值从来都是说起来容易做起来难。面对技术、理论、实践中的种种挑战,大数据的发展可谓一路荆棘。任何一种挑战都可能消弭发掘大数据商业价值的能力,进而影响大数据的发展。

对大数据的概念的探究虽然涉及多个维度,不过人们认为以下4个维度最为重要,并将其统称为4V

1.海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。

2.多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流[①]、日志文件等各种类型的非结构化数据。

3.精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。

4.时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量数据,方能最大化地显现出大数据的商业价值。与此同时,大数据还应被归档存储,以备不时之需。

大数据的4V特征为我们进行数据分析指明了方向,其中每个V在发掘大数据价值的过程中都有着内在价值。然而,大数据的复杂性并非只体现在这4个维度上,还有其他因素在起作用,这些因素存在于大数据所推动的一系列过程中。在这一系列过程中,需要结合不同的技术和分析方法才能充分揭示数据源的价值,进而用数据指导行为,促进业务的发展。

以下诸多支撑大数据的技术或概念早已有之,但现在已归至大数据范畴之下,包含如下方面。

   传统商业智能(Traditional Business Intelligence, BI)。商业智能涵盖了多种数据采集、存储、分析、访问的技术及应用。传统的商业智能对来自数据库、应用程序和其他可访问数据源提供的详细商业数据进行深度分析,通过运用基于事实的决策支持系统,给用户提供可操作性的建议,辅助企业用户做出更好的商业决策。在某些领域中,商业智能不仅能够提供历史和实时视图,还可以支持企业预测未来的蓝图。

Data Mining, DM)。数据挖掘是人们对数据进行多角度的分析并从中提炼有价值的信息的过程。数据挖掘的对象通常是静态数据和归档数据,数据挖掘技术侧重于数据建模以及知识发现,其目的通常是预测趋势而绝非纯粹为了描述现状——这是从大数据集中发现新模式的理想过程。

   统计应用 (Statistical Application)。统计应用通常是基于统计学原理利用算法来处理数据,一般用于民意调查、人口普查以及其他统计数据集。为了更好地估计、测试或预测分析,可以使用统计软件分析收集到的样本观测值来推断总体特征。调查问卷和实验报告这类经验数据都是用于数据分析的主要数据来源。

   预测分析 (Predictive Analysis)。预测分析是统计应用的一个分支,人们基于从各个数据库得到的发展趋势及其他相关信息,分析数据集进行预测。预测分析在金融和科学领域显得尤为重要,因为加入对外部影响因素的分析,更容易形成高质量的预测结论。预测分析的一个主要目标是为业务流程、市场销售和生产制造等规避风险并寻求机遇。

   数据建模 (Data Modeling)。数据建模是分析方法论概念的应用之一,运用算法可在不同的数据集中分析不同的假设情境。理想的情况下,对不同信息集的建模运算算法将产生不同的模型结果,进而揭示出数据集的变化以及这些变化会产生怎样的影响。数据建模与数据可视化密不可分,二者结合所揭示的信息能够为企业的某些特定商业活动提供帮助。

上述分析种类仅是大数据的一隅而已,未能展现大数据对商业的全部价值。对利益无尽的追求及不懈的竞争刺激着人们对大数据商业价值的渴求,促使组织机构利用企业内部和外部数据“仓库”中的数据来揭示发展规律、进行数据统计、获取竞争情报,协助他们部署下一步战略。大数据正是企业所需的大“仓库”。这使得大数据及其相关处理工具、平台、分析技术等在企业技术层和管理层中备受青睐。

1.3 琳琅满目的大数据

超大的数据量只是大数据概念的一个部分。人们渐渐形成共识,结构化和非结构化的数据均蕴藏着关键的商业信息,因此必须将这些数据融入商业智能和实际运营之中。另一方面,非结构化的业务数据量不仅现在在增长,在可预见的未来仍将持续增长,而且这一增长趋势非常明显。

大数据涉及结构化数据、半结构化数据和非结构化数据这三类数据。

结构化数据通常指的是传统数据库(SQL或其他数据库)中的数据,这些数据根据预先定义好的业务规则(Business Rule)存储于不同的表中。在数据库中存储数据前需要事先定义数据并创建索引,这使得访问和过滤数据变得非常简单,因此结构化数据最容易处理。

相比之下,非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用或使用数据库进行分析。二进制图片文件就是非结构化数据的一个典型例子。

半结构化数据介于结构化数据和非结构化数据之间。半结构化数据因不具有严格的结构而不同于基于数据库表和关系的结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并提供了记录和字段的层级结构来定义数据。

1.4 不同的数据,统一的处理

得益于标准XML语言格式和行业XML数据标准的应用(如保险行业的ACORD标准[②],医疗行业的HL 7[③]标准),不同类型的数据处理方法日渐趋同。虽然XML技术拓展了大数据分析和集成工具所能处理的数据类型,但是受限于数据的复杂结构及巨量规模,现有工具的转化能力无法满足不断增多的数据处理需求,从而加剧了有限处理能力与新兴需求之间的矛盾。人们急需一种新的通用数据转换工具以应对所有类型的数据(结构化、半结构化、非结构化),不用编写代码就能部署在任何应用软件或平台架构上。

对大数据的认识和分析依旧存在争论,与之相关的工具、技术和过程仍在不断发展。但是,这并不意味着想从大数据中探究价值的人们除了等待别无他法。大数据对商业活动的意义非常大,我们绝不能无所作为。

想要更好地实现数据分析的目标绝非易事,大数据发展的瓶颈在于满足分析需求的同时找到不同数据源的最优处理方法。如此看来,将硬件、软件及处理流程整合成一套可用、易用的管理程序来及时生成分析结论,似乎是明智之举。追根溯源,这一切正是得益于数据。

存储问题对大数据而言至关重要,因为数据必须存储在便于访问和维护之处。由于购买和管理SANNAS这样基于网络的存储系统相当昂贵,这一挑战对于很多公司来说代价不菲。

毕竟存储技术早已成熟并且成功商用,存储设备已经成为标准数据中心的常规配备。尽管如此,这仍然无法满足企业对多种存储技术新生的需求。重要的是,随着大数据分析的推进,企业方能利用BI对大数据集进行处理。

对于大数据分析过程所需的处理能力而言,常规的存储模式常常无能为力。诸如SANSNAS和其他传统的存储技术,无法应对大数据与生俱来的那些动辄TB甚至PB级的非结构化信息。大数据分析若想成功,就需要更多突破:一种全新的海量数据处理方法,以及一个全新的存储平台理念。

1.5 一款开源利器

Hadoop是一个开源项目,它提供了处理大数据的平台。尽管Hadoop已经存在多年,但是越来越多的企业现在才刚刚开始领略到它的威力。Hadoop平台旨在解决海量数据所产生的问题,尤其是混杂有结构化或非结构化的复杂数据问题,因为这些数据无法有效地存储在表中。在类似聚类分析和定位分析这样的场景中,需要深度分析和大量计算进行支撑方能得以处理,而这恰是Hadoop的长处所在。

Hadoop可对海量数据进行有效的序化和访问,从而解决了绝大多数与大数据相关的常见问题,为想要利用大数据的决策者清除了障碍。

Hadoop设计的初衷就是允许数量众多的机器组成一个平台而共同协作,却不必共享任何内存或磁盘。考虑到这一特点,Hadoop怎样带来附加价值便一目了然:网络管理员只需要购置大批商用服务器并安置到机架上,分别运行Hadoop软件即可。

更何况,Hadoop有助于简化大型数据集的繁杂管理。实际操作中,一旦某一组织的数据被载入Hadoop平台,软件就会把数据切分成容易操作的小数据集,然后将其自动分发给不同服务器。由于分布式技术的一个本质特征就是弃用了对数据进行访问的统一入口,那么对于Hadoop中的分布式数据而言,这也就意味着人们可以使用Hadoop从多个地方访问同一数据。而且,Hadoop还跟踪记录数据驻留的位置,并且通过创建多个存储副本来保护数据。该设计增强了系统整体的健壮性,因为即使某个服务器脱机或者宕掉,数据仍可以从一个已知保存完好的副本中自行恢复。

不同于传统数据库系统,Hadoop对数据的深入处理并非一蹴而就。传统集中式的数据库系统固有的局限性,如挂入服务器级系统上的大量硬盘及多个处理器,使得数据分析不但受限于磁盘性能,更取决于其所拥有处理器的数量。

而在Hadoop集群中,Hadoop把任务和数据分发至各个服务器,然后利用这些服务器来进行计算。具体而言,一项任务被分解为一系列作业后,Hadoop将这些作业分发给集群中的每台服务器,服务器分别处理各自的数据分片后,再将所有结果作为统一的整体返回。Hadoop的这个过程被称为“映射-化简”(MapReduce),即指令或作业被映射至所有服务器,而运算结果被化简为单个数据集的过程。

正因为Hadoop能够分发数据并利用所有可用的集群处理器并行工作来解决复杂计算的问题,因此对海量数据的处理成了Hadoop的拿手好戏。

1.6 入门容易修行难

然而,一旦在尝试着步入Hadoop的世界后,你就会发现Hadoop的使用并不是即插即用那么简单的事情,因为除了要满足一定的前提条件以外,硬件配置和系统设置是成功的必备条件。

首当其冲的是理解和定义分析的过程。由于数据的抽取(extract)、转换(transform)和加载(load)在构建BA(业务分析)或BI(商业智能)解决方案中起到关键作用,所以人们将其合称为ETL。所幸,大多数CIO(首席信息官)不仅对BABI的过程较为熟悉,还能够把最常用的ETL层和这个过程结合起来。因此,要进行大数据分析之前,企业首先需要挑选并确定哪些数据用来分析,然后对数据进行检验、对比和汇总,最后进行数据整合(ETL)。整个过程同时伴有数量庞大的数据,这些数据来源广泛(社交网络、数据日志、网站、移动设备、传感器和其他领域)并且类型复杂(结构化、非结构化)。

Hadoop基于容错性集群架构,拥有更强的数据计算能力,能够对大数据进行并行或批量处理,还具有一套从数据存储到分析的开放生态圈。不仅该生态圈能够对企业构架进行全方位的支持,Hadoop上述这些特点更有助于支持企业进行大数据分析。

当然,并非所有的企业都需要大数据分析的支持。对于那些确实需要的企业来说,应该考虑利用Hadoop的能力来满足企业需求。不过Hadoop本身并非万能药。在构建Hadoop项目时,企业还必须根据实际需求确定需要用到哪些额外的Hadoop组件。

例如,从软件上看,Hadoop组件虽多,但让其运行起来却只需少数组件构成的组件集合即可。这些组件有:用于数据管理的HDFSHBase[④],作为任务处理框架的MapReduceOOZIE,用以提高开发人员开发效率的开发框架PigHive,以及用于BI的开源项目Pentaho。从硬件的角度看,一个测试项目并不需要大量设备。硬件需求可以简单到仅仅两台拥有多核CPU、至少24 GB内存、十几个TB硬盘的服务器即可。事实证明,这样的硬件配置对于一个测试项目的运行而言,已然足够。

需要对数据管理者在观念上打个“预防针”:有效管理和使用Hadoop不能离开专业知识和经验。若真缺乏,信息技术管理部门则应该考虑与服务提供商进行合作,他们可对Hadoop项目提供鼎力支持。此外,这些专业知识对于安全而言,尤为重要。由于HadoopHDFSHBase中默认集成的安全性组件数量极少,所以为了防止数据遭到破坏或窃取,企业仍然需要对数据进行安全保护。

在全面评估之后,企业应该组建一个内部Hadoop项目来对大数据分析的能力进行初步测试。如果初测结果理想,企业还希望更加深入地了解大数据分析,那么已有大量现成的商业和(或)托管解决方案可供选择。



① 点击流(Click Stream),即指记录用户在Web服务器上的浏览历史。通过分析用户造访页面的历史数据,可以发现用户访问网站的路径、瓶颈、热点连接等,并根据这些数据对系统功能进行相应调整。因此,点击流有时也被称为用户访问路径分析。——译者注

[②] ACORD Transactional/Business Wrapper (TXLife) XML 规范日渐成为寿险、养老金和健康保险行业内用于内部和外部数据集成的首选数据格式。——译者注

[③] HL 7Health Level Severn),健康信息交换第七层协议。HL 7标准是医疗领域不同应用系统之间电子数据传输的协议,主要目的是要发展各型医疗信息系统间,如临床、检验、保险、管理及行政等各项电子资料交换的标准;主要应用在医疗保健领域,特别是在住院患者急需的医护设施领域内进行及时的电子数据交换。——译者注

[④] HBase(Hadoop Database)是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HDFS作为其文件存储系统。——译者注

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
106 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
2月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
4月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
在大数据时代,数据被视为新财富源泉,而从海量信息中提取价值成为企业竞争的核心。本文通过对比方式探讨如何运用Python数据分析与深度学习框架实现这一目标。Python凭借其强大的数据处理能力及丰富库支持,已成为数据科学家首选工具;而TensorFlow和PyTorch等深度学习框架则为复杂模型构建提供强有力的技术支撑。通过融合Python数据分析与深度学习技术,我们能在各领域中发掘数据的无限潜力。无论是商业分析还是医疗健康,掌握这些技能都将为企业和社会带来巨大价值。
162 6
|
5月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
265 4
大数据环境下的房地产数据分析与预测研究的设计与实现
|
5月前
|
存储 数据可视化 大数据
基于Python Django的大数据招聘数据分析系统,包括数据大屏和后台管理
本文介绍了一个基于Python Django框架开发的大数据招聘数据分析系统,该系统具备后台管理功能和数据大屏展示,利用大数据技术收集和分析招聘市场趋势,帮助企业和招聘机构提高招聘效率和质量。
181 3
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【2023 年第二届钉钉杯大学生大数据挑战赛初赛】 初赛 A:智能手机用户监测数据分析 问题一Python代码分析
本文提供了2023年第二届钉钉杯大学生大数据挑战赛初赛A题"智能手机用户监测数据分析"的Python代码分析,包括数据预处理、特征工程、聚类分析等步骤,以及如何使用不同聚类算法进行用户行为分析。
86 0
【2023 年第二届钉钉杯大学生大数据挑战赛初赛】 初赛 A:智能手机用户监测数据分析 问题一Python代码分析
|
6月前
|
机器学习/深度学习 数据挖掘 大数据
大数据时代的“淘金术”:Python数据分析+深度学习框架实战指南
【7月更文挑战第30天】大数据时代视数据为新石油,Python因强大处理能力成为首选工具。通过NumPy、Pandas等库,Python构建了高效数据分析生态。深度学习框架如TensorFlow和PyTorch支持复杂模型构建。Python与深度学习结合,实现数据清洗、特征工程到模型训练全流程,为企业决策提供强有力支持。掌握这些技能如同掌握“淘金术”,开启无限可能。
176 5
|
5月前
|
Java Spring 安全
Spring 框架邂逅 OAuth2:解锁现代应用安全认证的秘密武器,你准备好迎接变革了吗?
【8月更文挑战第31天】现代化应用的安全性至关重要,OAuth2 作为实现认证和授权的标准协议之一,被广泛采用。Spring 框架通过 Spring Security 提供了强大的 OAuth2 支持,简化了集成过程。本文将通过问答形式详细介绍如何在 Spring 应用中集成 OAuth2,包括 OAuth2 的基本概念、集成步骤及资源服务器保护方法。首先,需要在项目中添加 `spring-security-oauth2-client` 和 `spring-security-oauth2-resource-server` 依赖。
63 0
|
5月前
|
消息中间件 分布式计算 Kafka
MaxCompute 在实时数据分析中的角色
【8月更文第31天】随着大数据应用场景的不断扩展,对数据处理速度的要求越来越高,传统的批处理模式已经难以满足某些业务对实时性的需求。在这种背景下,实时数据处理成为了大数据领域的研究热点之一。阿里云的 MaxCompute 虽然主要用于离线数据处理,但通过与其他实时流处理系统(如 Apache Flink 或 Kafka Streams)的集成,也可以参与到实时数据分析中。本文将探讨 MaxCompute 在实时数据分析中的角色,并介绍如何将 MaxCompute 与 Flink 结合使用。
125 0
|
5月前
|
消息中间件 数据挖掘 Kafka
揭秘大数据时代的极速王者!Flink:颠覆性流处理引擎,让实时数据分析燃爆你的想象力!
【8月更文挑战第29天】Apache Flink 是一个高性能的分布式流处理框架,适用于高吞吐量和低延迟的实时数据处理。它采用统一执行引擎处理有界和无界数据流,具备精确状态管理和灵活窗口操作等特性。Flink 支持毫秒级处理和广泛生态集成,但学习曲线较陡峭,社区相对较小。通过实时日志分析示例,我们展示了如何利用 Flink 从 Kafka 中读取数据并进行词频统计,体现了其强大功能和灵活性。
101 0