想成为大数据分析师必须知道的这些事儿(文末福利)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

​点击标题下「异步社区」可快速关注


“不是所有有价值的都能被计算,不是所有能计算的都有价值。”

——阿尔伯特·爱因斯坦

观察一下周围的世界,你就会发现,几秒钟内会产生、捕获并通过媒介传输庞大的数据。这些数据可能来自于个人计算机(PC)、社交网站、企业的业务或通信系统、ATM机和许多其他渠道。

一些报告宣称,在2002年的时候大约有5 EB(1 EB= 1 024 PB=260字节)的在线数据。然而到了2009年,这个数字增长了56倍,达到281 EB。在2009年之后,该数字更是呈现了指数级的增长。这些数据以网络帖子、图片、视频和天气信息的形式不断地产生出来。

如果对不断产生的庞大数据进行合理分析,可能会产生巨大的价值,因为我们可以根据大量关键信息做出更明智的决定。换句话说,仔细的分析可以把数据转换为信息,把信息转化成洞察力

对关键数据进行系统、全面的分析和输出的需求,促使了一个火爆的术语——大数据的出现。

定  义

大数据是在可接受的时间内,对相关信息或数据进行捕获、存储、搜索、共享、传输、分析和可视化的大型数据集。

大数据分析是通过检查大量的数据来获取洞察力的过程。

因为大数据是IT领域的一个时髦术语,它提供了许多新的就业和成长机会,本文简介部分希望帮助你理解大数据的概念(大数据的重要性、类型和要素),同时引导你适应不断增长的大数据环境以及与大数据相关联的各种就业机会。

1.1 什么是大数据

考虑如下事实:

  • 每一秒,全球消费者会产生10 000笔银行卡交易。

  • 每小时,作为全球折扣百货连锁店的沃尔玛需要处理超过100万单的客户交易。

  • 每天,数以百万计的用户在主流网站上产生数据,例如:

  • 每天,Twitter用户发表5亿篇推文;

  • 每天,Facebook用户发表27亿个赞和评论。

  • 射频识别(RFID)系统产生的数据是条码系统数据的近千倍。

数据无处不在,它以数字、图像、视频和文本的形式存在于各个行业及业务功能中。

交叉参考 1.4节将详细介绍数据的速度、容量和多样性。

随着数据量的不断增长,需要有一种方法来对数据进行组织,使个人或组织可以将其当作信息源来使用。这就是体现大数据价值的地方。

在IT行业,大数据指的是分析数据以获得深入洞察力的艺术和科学。在大数据诞生之前,由于缺少访问数据和处理数据的手段,这是不可能实现的。

大数据确实是“大”,其意义在于持续增长。任何从1 TB(1 TB=1 024 GB)增长到1 PB(1 PB=1 024 TB)继而增长到1 EB(1 EB=1 024 PB)的数据均可称为大数据。

1.1.1 大数据的优势

在当今的竞争社会中,大数据是一种有发展前途的新兴生产力和创新手段。通过对不同行业和地区的大数据进行系统性的研究,可以:

  • 更好地了解目标客户;

  • 在医疗保健行业削减开支;

  • 增加零售业的营业利润率;

  • 通过运营效率的提升带来数十亿美元的资金节省,等等。

纵观各行各业,数据和数据分析可以在许多方面带来显著的业务流程的变革,例如:

  • 通过分析及跟踪表现和行为提高运动成绩;

  • 改善科研;

  • 通过更好的监控改善安全和执法;

  • 通过更多信息化决策改进金融交易。

纵观各个企业,对可用数据进行正确的分析可以在许多方面带来显著的业务流程的变革,例如:

  • 采购:找出哪些供应商在交货及时、有效的情况下更节约成本。

  • 产品开发:提出对创新产品、服务形式和设计的深刻见解,强化开发流程,以期创造出符合要求的产品。

  • 制造:发现机械和流程方面的差异,预见质量问题。

  • 分销:针对各种外部因素(如天气、假日、经济环境等),加强供应链活动,使最优库存水平标准化。

  • 市场营销:找出哪些市场活动能最有效地推动和吸引顾客,并洞悉顾客行为和渠道表现。

  • 价格管理:根据对外部因素的分析优化价格。

  • 销售规划:基于目前的购买模式,改进商品分类。根据对大量顾客行为的分析,改进库存水平和产品利润点。

  • 销售:优化销售资源、账目、产品组合和其他经营活动的分配。

  • 店铺运营:根据对购买模式的预期和对人口统计、天气、关键事件及其他因素的研究,进行库存水准的调整。

  • 人力资源:总结成功雇员和高效雇员的特质和行为,以及其他雇员的所思所想,以此来更好地管理人才。

与现实生活的联系

Google公司利用其强大的数据收集能力,能够比现有公共服务提前大约两周发布流感预警。为了达到这个效果,Google监测了数百万用户的健康跟踪行为,随后进行了包括流感症状、胸部充血、温度计购买率在内的一系列调研。Google分析收集到的数据并生成反映美国流感告警级别的综合结果。为了确定数据的精确性,在发布信息前,Google做了进一步的研究和数据比较。

1.1.2 挖掘各种大数据源

术语大数据由“大量数据”演变而来。另外,它还涉及数据类型和数据来源多样化的概念。表1-1-1展现了一些数据来源类型及其用途。

表1-1-1 数据源类型及其用途对大数据的需求是显而易见的。如果领导人和经济体希望看到示范性的增长,并希望为自己的所有利益相关人产生价值,那么请拥抱大数据,并将其广泛地用于:

  • 允许以数字化形式存储和使用业务数据;

  • 提供更多、更具体的信息;

  • 细化分析,做出更好的决策;

  • 对顾客进行分类,根据购物模式提供个性化的产品和服务。

技术材料

IBM最新的大数据技术平台利用具有专利技术的先进分析方法来探索这个充满机遇的世界。大数据使企业能够深入地理解新型的数据和内容类型,从而变得更加灵活。

知识检测点1

一个制造业公司需要改善明年的销售状况,但是不知道该如何着手。该企业有销售交易数据库和客户数据库。你认为该企业应当如何利用这些信息?

a.公司应该利用销售数据来研究顾客行为,并采取相应的措施

b.公司给全体顾客发送优惠券

c.公司无法利用自己的数据

d.公司应该着手开发新产品

1.2 数据管理的历史——大数据的演化

速度、多样性及数据量3个因素导致了数据演化进入了新阶段——大数据阶段。图1-1-1展示了过去几十年中我们在数据处理上面临的挑战。

图1-1-1 大数据的演化

信息技术、互联网和全球化的浪潮有力地推动了数据和信息产生量的指数级增长,导致了“信息大爆炸”。这反过来促进了始于20世纪40年代,直到今日还方兴未艾的大数据的演化进程。

定  义

对信息大爆炸的描述包括两个方面——发布的信息或数据量的持续增长,以及这些丰富的信息或数据所产生的影响。

表1-1-2列出了大数据演化过程中的一些主要里程碑。

表1-1-2 大数据演化

年代 里 程 碑

20世纪40年代

一位美国图书管理员推测出了书架和图书编目工作人员的缺口,意识到了快速增长的信息和有限存储空间之间的矛盾

20世纪60年代

一篇名为《自动数据压缩》(Automatic Data Compression)的论文发表在《ACM通讯》上。它指出在过去的几年中,信息大爆炸使得信息的存储必须最小化。
这篇论文把“自动数据压缩”描绘成全自动的、快速的三部分压缩器,可以用来压缩任何形式的信息,以便减少对慢速的外部存储的需求,进而提高计算机系统的传输效率

20世纪70年代

日本邮政为了跟踪国内的信息循环量,提出了一个信息流研究项目

20世纪80年代

匈牙利中央统计局为了统计国家的信息产业,启动了包括以位(bit)为计量单位测量信息量在内的一个研究项目

20世纪90年代

存储系统发展为比纸张存储经济得多的数字存储。
与数据量和过时数据相关的挑战已变得显而易见,有大量的相关论文发表。举几个例子来说:
• Michael Lesk发表了How much information is there in the world?

20世纪90年代

• John R. Masey发表了一篇题为Big Data…and the Next Wave of InfraStress的论文
• K.G. Coffman和Andrew Odlyzko发表了The Size and Growth Rate of the Internet
• Steve Bryson、David Kenwright、Michael Cox、David Ellsworth和Robert Haimes联合发表了Visually Exploring Gigabyte Datasets in Real Time

2000年以后

• 许多研究者和科学家发表了论文
• 多种方法被引入,使信息得以合理化
• 出现了分别控制数据3个维度(数据量、速度和多样性)的技术,随后产生了3D数据管理
• 开展了一项估算世界范围内以4种物理介质(纸张、胶片、光介质和磁介质)创建和存储的原创信息的研究

表1-1-2仅仅是对演化过程进行了概要的简介。正如在表1-1-2中解释的那样,当那位图书管理员推测需要更多存储书架时,大数据的概念就诞生了。随着时间的推移,大数据进一步成长为了一个文化、技术和学术现象。

大数据的产生,以及与大数据相伴而生的用于处理这些信息的新型存储及处理解决方案,能够帮助企业完成如下的任务:

  • 增强和合理化现有的数据库;

  • 洞悉存在的机遇;

  • 探索和利用新的机遇;

  • 提供更快的信息访问;

  • 存储大量信息;

  • 更快地处理数据,提高洞察力。

下一讲将进一步帮助你了解大数据在各行业中的业务适用性。

大数据是一个已被用了很久的概念。当研究人员使用计算机来分析大量的数据时,他们分析的就是大数据。对快速访问数据的需求,以及对处理这些数据的应用和程序的需求,推动了目前IT行业中的大数据和大数据分析概念的产生。

总体情况 

假设一家银行计划在一个主要城区设立自助服务亭。市场部希望根据顾客穿越城市的交通模式,确定最繁忙的地方以建立自助服务亭。在银行现有的数据仓库中,不存在这些信息。在这种情况下,银行可以通过第三方来获得顾客的GPS定位数据,从而获得客户的流动模式。

这样,通过合适的大数据集,利用正确的数据提取、准备和整合技术,以及来自银行营销部门的数据仓库所交付的客户交易数据,如今银行可以确定城市中最繁忙的地点,以此建立自助服务亭。

知识检测点2

数据驱动的决策方法不仅限于收集数据,而且要知道所收集的数据在做出关键性决策的时候是如何被使用。这里所采取的方法主要是基于:

a.数据及其分析

b.经验

c.直觉

d.数据利用

1.3 大数据的结构化

简单来说,数据的结构化是用于研究和分析数据的技术,旨在了解用户的行为、需求和偏好,为每个人提供个性化的建议。

那么,为什么需要结构化?

在日常生活中,你可能会遇到这样的问题:

  • 如何利用我的优势,使用我所遇到的海量数据和信息?

  • 在每天遇到的数以千计的新闻中,我该阅读哪些?

  • 如何在我喜欢的网站或商店里,从数以百万计的书籍中,选择一本书?

  • 全球范围内每时每刻都有大量的新事件、突发新闻、体育、发明和发现,如何让自己始终能了解最新信息?

如今,计算机可以找到解决这类问题的方法。推荐系统可以根据搜索内容、查看内容以及所持续时间,专门为你进行大量的数据分析和结构化——从而按照你的行为和习惯进行扫描,为你提供定制化的信息。

技术材料 

推荐程序或推荐系统可以定义为信息过滤系统,这种系统一般通过协同或基于内容的过滤产生一个推荐列表。

总体情况

当一个用户经常地在eBay网上在线购买时,每一次他/她登录时,系统可以根据其先前的购买或搜索,呈现一个用户可能感兴趣的推荐产品列表,从而为每一个用户提出了特别定制的推荐。这就是大数据分析的力量。

因此,当今的网络世界在应对数百万种可用数据类型造成的信息过载方面越来越得心应手。数据结构化过程需要人们理解各种类型的可用大数据。

大数据的类型

来自多个来源(如数据库、企业资源计划(ERP)系统、博客、聊天记录和GPS地图)的数据有着不同的格式。然而,为了用于分析,必须将不同格式的数据转化成一致、清晰的数据。

从不同来源获得的数据根据来源类型主要分类如下。

  • 内部来源:如组织或企业数据。

  • 外部来源:如社交数据。

表1-1-3比较了数据的内部来源和外部来源。

表1-1-3 数据的内部来源和外部来源对比

因此,根据从上述来源得到的数据,大数据包括了:

  • 结构化数据;

  • 非结构化数据;

  • 半结构化数据。

在现实世界中,非结构化数据在数量上通常要比结构化数据和半结构化数据大。图1-1-2展示了大数据的数据类型组成。

图1-1-2 大数据的类型

结构化数据

结构化数据可以定义为一组具有确定重复模式的数据集。这种模式使任何程序都能更容易地排序、读取和处理数据。结构化数据的处理速度远远快于没有具体重复模式的数据处理速度。

因此,结构化数据:

  • 以预定义的格式组织数据;

  • 是驻留在一个记录或文件中的固定字段上的数据;

  • 是具有实体-属性映射的格式化数据;

  • 用于对预定数据类型进行查询和报告。

结构化数据的部分来源包括:

  • 关系型数据库;

  • 使用记录格式的平面文件;

  • 多维数据库;

  • 遗留数据库。

表1-1-4展示了结构化数据的样例,其中每个客户的属性数据都存储在已定义字段的单个数据点上。

表1-1-4 结构化数据样例

客 户 编 号 名  字 产 品 编 号 城  市

12365

Smith

241

Graz

Styria

23658

Jack

365

Wolfsberg

Carinthia

32456

Kady

421

Enns

Upper Austria

加知识

在结构化系统中,处理和输出是高度组织和预先定义好的。这些系统最适合:

  • IT部门;

  • 机票预订;

  • 银行系统;

  • ATM交易。

非结构化数据

非结构化数据是一组具有复杂结构的数据,可能具有或者不具有重复模式。非结构化数据:

  • 一般由元数据组成;

  • 包含不一致的数据;

  • 由不同格式的数据组成,如电子邮件、文本、音频、视频或图像文件。

非结构化数据的部分来源包括:

  • 企业内部的文本,包括在企业数据库和数据仓库中的文档、日志、调查结果和电子邮件;

  • 来自社交媒体的数据,包含来自社交媒体平台的数据,包括YouTube、Facebook、Twitter、LinkedIn和Flickr;

  • 移动数据,包括文本消息和位置信息等数据。

非结构化系统通常很少采用甚至不采用预定义形式,并为用户提供了一个宽泛的范围,可以根据他们的选择对数据进行结构化。企业部署非结构化数据通常有如下目的:

  • 获得可观的竞争优势;

  • 获得明确的、完整的未来前景展望。

与现实生活的联系

对超市的店内闭路电视片段进行彻底分析,着重关注客户浏览商店所使用的行进路线,堵塞时的客户行为,以及在购物时客户通常会停下来的位置。来自闭路电视片段的非结构化信息,与包括点钞机、产品和安排在购物区的物品在内的结构化信息相结合,形成数据驱动的客户行为全貌。这种分析可以用于规划超市中的最佳布局,为顾客提供一个愉快的购物体验,得到更好的销售业绩。

技术材料

元数据通常是关于数据本身的数据——定义、映射和其他用于描述数据和软件组件的查找、访问和使用方式的特性。

与非结构化数据相关的挑战

处理非结构化数据面临如下挑战:

  • 理解非结构化数据的难度和时间消耗;

  • 组合和链接非结构化数据,以得到更结构化的信息,借此改进决策和计划,是很困难的;

  • 处理指数级增长的大数据会增加存储和对人力资源(数据分析师和科学家)方面的成本。

图1-1-3展示了对非结构化数据相关挑战进行调查的结果。图中按照投票比例的顺序,显示了非结构化数据带来的挑战——从最具挑战的IT领域到最容易应付的IT领域。

图1-1-3 非结构化数据的挑战  
(来源:英特尔于2012年8月所做的调查)

调查显示,数据量是最大的挑战,其次是管理这些数据量的基础设施需求。管理非结构化数据也很困难,因为不容易识别它们。

例  子

位图图像、地震数据、音频和视频等文件往往只有一个文件名和扩展名。同一类别的不同文件在不同来源中可能具有相同的文件名,仅靠名称和扩展名无助于数据识别、分类甚至基本的搜索。因此,企业发现对不同类型文件的基本管理任务具有挑战性。

知识检测点3

1.ABC是一个零售企业,它通过电子商务运营业务。企业为他们的客户提供定制的在线购物体验,提供一个具有吸引力、反应灵敏的网页用户界面。现在公司想要收集有关客户在互联网上活动的数据。这些数据的最佳来源是什么?

a.交易数据库

b.社交媒体

c.客户的博客

d.以上全部

2.你认为,对于一个企业的生产或者经营部门,最大的挑战是什么?

a.确定用于商业决策的数据

b.确定要使用的最佳的大数据技术

c.保护大数据免遭未授权访问

d.确定呈现大数据中发现的最佳方式,协助决策

半结构化数据

半结构化数据,也被称为无模式自描述结构,指一种包含标记或者标记元素的结构化数据形式,这种形式中的标记或者标记元素旨在分离语义元素,为给定的数据生成记录和字段层次结构。这种类型的数据不像关系数据库中的数据那样遵循适当的数据模型结构。

为了组织半结构化数据,这些数据应该从数据库系统、文件系统,通过数据交换格式(包括科学数据和可扩展标记语言XML)以电子形式提供。XML使数据具备精细、复杂的结构,这种结构明显更加丰富,也相对复杂。

半结构化数据的部分来源包括:

  • 数据库系统;

  • 文件系统,如网页数据和书目数据;

  • 数据交换格式,如科学数据。

技术材料

XML被设计成半结构化,提供精确并且灵活的规则。

半结构化数据的一个例子如表1-1-5所示,它表明属于同一类的实体即便组合在一起也可以有不同的属性。

表1-1-5 半结构化数据

SI编号 名  字 电 子 邮 件

1

Sam Jacobs

smj@xyz.com

2

名:David
姓:Brown

davidb@xyz.com

我们已经检查了数据到达和呈现的方式,下面研究描述这些数据特性的要素。

1.4 大数据要素

大数据主要包括以下3个要素:

  • 数据量;

  • 速度;

  • 多样性。

图1-1-4展示了大数据的基本要素。

图1-1-4 大数据的基本要素

1.4.1 数据量

数据量是指由企业或者个人产生的数据的量。今天,数据量正在接近EB量级。一些专家预测在未来几年中,数据量会达到ZB量级。企业正在尽最大努力来处理这一不断增长的数据量。

例  子

企业处理的数据量正在显著增长,例如:

  • Google公司每天处理20 PB的数据。

  • Twitter简讯每天产生大约8 TB的数据,或者说每秒80 MB。

1.4.2 速度

速度用以描述数据生成、捕获和共享的速率。只有当数据被实时捕获和共享时,企业才可以利用这些数据。

现有系统(如客户关系管理和企业资源计划)面临与数据速度相关的问题——数据不断地增加,却不能迅速地得到处理。这些系统能每隔几小时批量地处理数据,然而,时间的滞后使得这些数据失去了重要性,同时,新的数据还在源源不断地产生。

例  子

eBay每天实时分析500万个交易,以处理PayPal使用中发生的欺诈行为。

1.4.3 多样性

来自社会、机器和移动资源的数据池不断地向传统交易数据中添加新的数据类型和数据种类,因此,数据不再以任何预先确定的形式组织,而且包含了新的数据类型,如网络日志数据、机器数据、移动数据、传感器数据、社交数据和文本数据。

例  子

现在,每年存储的数据量已达到PB甚至EB的数量级。Twitter公司运营的时间并不长,但是现在其积累和存档的图像、文本、视频等数据已多达数PB。

总体情况

全球定位系统、社交媒体和传感器数据,都对产生多种多样数据的产生做出了积极的贡献,这些数据可以处理并转换成有用的信息。

知识检测点4

随着技术的增强,企业正在使用不同的方法营销其产品和服务。新的营销活动中将使用新型传感器,这将产生新的数据和信息种类。这里所讨论的大数据要素是什么?

a.数据量

b.速度

c.多样性

d.数据量和速度

1.5 大数据在商务环境中的应用

在技术和业务的增长和扩张中,可以对丰富的可用数据进行合理化,并加以利用。如果能够成功对数据进行分析,它就解答了一个重要问题:企业如何才能获得更多的客户并增进业务洞察力?

关键在于能够获取、联系、理解和分析数据。

图1-1-5强调了使用大数据而使业务领域受益的比例。

图1-1-5 大数据的受益领域  
(来源:TDWI,即The Data Warehousing Institute,2013年7月)

下面让我们来了解企业应用大数据的一些常见分析方法。

表1-1-6描述了与大数据相关的各种常见的分析方法。

表1-1-6 分析方法

方  法 可能的评估

预测分析

• 企业如何使用现有的数据,在不同的领域进行预测和实时分析?
• 企业如何从非结构化的企业数据中受益?
• 企业如何利用情绪数据、社交媒体、点击流和多媒体等新数据类型?

行为分析

企业如何利用复杂的数据来为下列事项创建新的模型:
• 推动业务产出
• 降低经营成本
• 推动经营战略的创新
• 提高整体客户满意度
• 提高由受众成为客户的转化率

数据解释

• 哪些新的业务分析可以从现有的数据估算得到?
• 哪些数据可以用来对新产品的革新进行分析?

大数据应用领域

当今所有的业务和行业都受到来自多个方面的大数据分析的影响,并从中受益。计算机、电子产品和IT等行业的销售额都因此得到了巨大的增长,金融、保险和政府部门都为此开发了准确的评估技术。

仔细观察某些特定的行业,将有助于了解大数据在这些行业的应用。

交通运输

大数据通过提供改进的交通信息和自治功能改变了交通运输。

例  子

• 挑战:长时间的交通拥堵浪费能源,导致全球变暖,并让人们花费了更多的时间、金钱、燃料和精力。

• 措施:安装在手持设备、道路和车辆上的分布式传感器可以提供实时路况信息。可以对这些信息进行分析并传送给乘客及交通控制管理部门。

• 效果:这些重要的信息可以帮助驾驶者们规划他们的路线,安全并按时地行驶到目的地。

教育

大数据向教师提供了用以分析学生理解能力的创新方法,改变了现有的教育过程,根据每个学生的需求,有效地进行教育。

该分析是通过研究在课堂上,学生对问题的回答、尝试这些问题所花费的时间以及其他行为的迹象而完成的。

旅游

旅游业也在使用大数据开展业务。大多数航空公司都在更加努力地记住个人喜好,以提高客户满意度,比如发现乘客在短距离航班中选择靠窗座位,在长途飞行时选择靠过道座位以舒展自己的腿。因此,当同一位旅客在航空公司进行新的预订时,该模式就可以自动重复操作了。这种定制的方式超越了以里程奖励为基础的忠诚度计划。

在大数据的帮助下,航空公司可以跟踪在特定航线之间飞行的客户,据此制订交叉销售和追加销售的优惠措施,甚至可以据此决定库存。一些航空公司还将分析应用于定价、库存和广告,以提升客户体验,这会提升客户满意度,从而带来更多的业务。

一些航空公司甚至评估由于延误导致错过中转航班的可能性,在这一基础上,要么推迟中转航班的飞行,要么为客户预订其他航班。

连锁酒店研究数据以了解要花多少钱、在哪里进行整修,以提供独特的客户体验。

政府

对现有数据的分析,可以让政府对欺诈管理做出明智的决策,发现未知的威胁,通过监控全球货运以确保全球供应链的安全,更明智地使用预算,分析风险等。

医疗保健

在医疗保健行业中,医生可以利用大数据确定最佳的临床方案,确保病人在特定的地点得到最佳的医疗效果。制药公司和医疗设备公司使用大数据来改进研究和开发决策,而医疗保险公司使用大数据确定特定病人的治疗模式,保证最佳的结果。大数据也有助于研究人员在与医疗保健有关的挑战成为真正的问题前,发现并消除它们。

知识检测点5

你是一个企业的营销主管,计划将潜在客户转化为实际客户,以实现市场拓展。下面的分析方法中,你认为最好采用哪种方法?

a.数据解释

b.行为分析

c.数据可视化

d.数据采集

1.6 大数据行业中的职业机会

现在你已经知道,在当今世界中,大数据确实是一件“大”事,你可以很好地理解它以及与之相关的机会。该行业需要大量的人才和合格的人员,以利用大数据专业知识帮助企业实现价值。合格、有经验的大数据专业人员必须将技术专长、创造性、分析思考和沟通技巧结合在一起,以便于能够有效地进行大数据的核对、清理、分析,呈现从大数据中抽取的信息。

大数据中的大部分工作源于以下4大领域的公司:

  • 大数据技术推动者,如Google;

  • 大数据产品公司,如Oracle;

  • 大数据服务公司,如EMC;

  • 大数据分析公司,如Splunk。

图1-1-6提供了雇用大数据专业人员的顶级公司的名单。

图1-1-6 雇用大数据专业人员的公司(来源:2011年10月,Glassdoor报告)

1.6.1 职业机会

大数据中最常见的职位包括:

  • 大数据分析师;      

  • 大数据科学家;    

  • 大数据开发人员。

图1-1-7说明了一些大数据相关职位的角色。

图1-1-7 大数据分析中不同职位的角色

总体情况

2011年,一份由麦肯锡公司发布的报告表明,在2018年之前,仅在美国,具备深入知识分析技能的专业人士就可能有14万~19万的巨大缺口。

1.6.2 所需技能

大数据专业人员可以有不同的专业背景,如经济学、物理学、生物统计学、计算机科学、应用数学或工程学。数据科学家大多拥有硕士或者博士学位,因为它是一个高级职位,通常要在数据处理领域取得相当多的经验和专业知识后才能获得该职位。开发人员通常必须熟悉编程。

现有的面向大数据专业人士的培训和认证项目很少。

下面的流程图为读者展示了循序渐进的学习思路。该课程提供了模块化的学习机会,读者可以根据学习和提升技能的需要以及自己选择的职业道路,从所提供的模块中选择特定的模块。      

所需技术技能

大数据分析师应具备以下技术技能:

  • 对Hadoop、Hive和MapReduce的理解;

  • 自然语言处理的知识;

  • 统计分析和分析工具的知识;

  • 概念和预测建模的知识。

大数据开发人员应具备以下技能:

  • 在Java、Hadoop、Hive、HBase和HQL方面的编程技能;

  • 对HDFS和MapReduce的深刻理解;

  • ZooKeeper、Flume和Sqoop方面的知识。

这些技能可以通过适当的培训和实践而获得。

所需软技能

企业追求的是拥有良好的逻辑和分析能力,具有良好沟通能力及战略商业思维的专业人员。大数据专业人员首要的软技能要求是:  

  • 较强的文字和口头沟通能力;

  • 分析能力;

  • 对业务原理的基本理解。

知识检测点6

Sam正在寻找一个大数据分析师的职位。数据分析师的主要职责是什么?

a.确定数据的含义,推荐搜索数据的方法

b.精通从不同来源收集数据,以适当的格式组织数据并进行分析

c.设计、创建、管理和解释大型数据集,以实现业务目标

d.开发代码和图像,实现数据报告自动化

1.6.3 大数据的未来

今天,大多数组织认为数据和信息是除了员工之外最有价值和差异化的资产。通过有效地分析数据,世界各地的企业正在寻找新的竞争手段,争取在所属领域成为领导者,并完善决策、增强绩效。同时,随着数据数量和种类的飞速增长,使用大数据以获取商业价值和竞争优势的全球性现象及其相关机遇只会持续增长。

图1-1-8描绘了未来几年中大数据量的巨大增长。

图1-1-8 数据的增长(来源:Oracle,2012年)

总体情况

由MGI和麦肯锡商业技术办公室进行的研究表明,最大限度地利用大数据极有可能成为个体企业在成功与增长、强化消费者盈余、生产增长和创新方面的关键竞争基础。

练习

多项选择题

选择正确的答案。在下面给出的“标注你的答案”里将正确答案涂黑。

1.下列哪一个不是大数据的特征?

  a.数据量

  b.可变因素

  c.多样性

  d.速度

2.你将应用哪些分析方法来理解包含用户的关键字搜索、导航路径和点击模式在内的人性化模式?

  a.行为分析

  b.预测模型

  c.数据解释

  d.数据挖掘

3.被捕获的数据可以是任何形式,可以是结构化或非结构化的。我们正在讨论的是大数据的哪个特征?

  a.数据量

  b.速度

  c.多样性

  d.价值

4.在下列人员中,你认为谁能够有效地处理越来越多的数据源?

  a.业务开发员

  b.数据科学家

  c.销售经理

  d.软件工程师

5.大数据分析师从各种来源获取数据。其中,哪个不是外部数据源的例子?

  a.来自CRM的数据

  b.来自博客的数据

  c.来自政府来源的数据

  d.来自市场调查的数据

6.下列哪项不属于传统数据库技术?

  a.关系型数据库管理系统

  b.数据库管理系统

  c.平面文件(译者注:一种包含没有相对关系结构记录的文件)

  d.NoSQL

7.如果一位大数据分析师分析来自某电信服务商所提供的呼叫日志数据库中的数据,那么他将处理大数据的哪个要素?

  a.数据量

  b.可变因素

  c.多样性

  d.速度

8.从全球定位系统卫星和网站接收到的数据,应归入哪一类?

  a.结构化数据

  b.非结构化数据

  c.既有结构化数据又有非结构化数据

  d.半结构化数据

9.有些人把这些数据称为“结构化,但非关系型”。我们正在讨论哪种数据?

  a.结构化数据

  b.非结构化数据

  c.半结构化数据  

  d.混合数据

10.如果你需要寻找担任数据分析师的人才,你将着眼于:

  a.目前在职的业务发展顾问

  b.来自于计算机科学以外团体的专业人士

  c.具有统计学背景和概念建模及预测建模知识的学生

  d.机械工程专业的学生

标注你的答案(把正确答案涂黑)

测试你的能力

1.研究和讨论大数据在医疗保健行业中的重要性。

2.列出并讨论大数据的三大要素。哪个要素造成了大数据的开端?

3.一家零售公司想推出一系列新的产品,但却没有经验。哪类数据可以帮助公司有效地制定和推出新产品?这些数据的潜在来源是什么?

4.作为为客户提供大数据解决方案的公司人力资源经理,当招聘一位数据分析师的潜在候选人时,你会寻求什么特质?

5.在当今世界里,实时处理大量数据和将结果及时地应用到业务中的需求是不可避免的。就这一论断是否正确展开辩论。

6.你正在为公司新产品的市场营销策略做计划,确定并列出与此相关的结构化数据的局限性,以及与非结构化数据相关的挑战。

备忘单

  • 大数据是积累大型数据集,并在一个可接受的耗费时间内,进行相关信息或数据的捕获、存储、搜索、分享、传递、分析和可视化的过程。

  • 大数据在以下方面存有差异:

  • 数据量(TB、记录、交易);

  • 多样性(内部、外部、行为、社交);

  • 速度(准实时或者实时同化)。

  • 使用大数据会在如下方面带来帮助:

  • 以更高的频度,使信息透明和可用;

  • 以数字形式创建和存储交易数据;

  • 积累更准确和详细的信息;

  • 完善分析,以改进决策;

  • 对客户分类,以提供个性化的产品和服务。

  • 数据可从以下渠道获得:

  • 内部来源,如组织或企业数据;

  • 外部数据,如社交数据。

  • 大数据包括:

  • 结构化或已组织的数据;

  • 非结构化或未组织的数据;

  • 半结构化数据。

  • 结构化数据可以解释为具有已定义重复模式的数据集,这使得它对于程序来说,更容易排序、读取和处理。

  • 非结构化数据是具有复杂结构的数据集,它可能有重复的模式,也可能没有。

  • 半结构化数据也被称为无模式的或自描述的结构。

  • 合格且有经验的大数据专业人员拥有分析、创造性思考以及沟通技巧方面的技术专长。

  • 解决涉及大数据的业务问题的一些重要方法:

  • 预测分析;

  • 行为分析;

  • 数据解释。

  • 使用大数据以获取商业价值和竞争优势的全球性现象,以及随之而来的机遇都将持续增长。

本文摘自《大数据分析师权威教程:大数据分析与预测建模》

点击封面试读本书


本书内容完全针对“大数据分析师”而设计、展开,全面介绍大数据分析师必备的技术与技能,权威且详尽的大数据分析师培训教程,成长为国际化大数据分析师的必备之作! 



搭配推荐

点击封面试读本书


本系列图书以“大数据分析师”应掌握的IT技术为主线,共分两卷,以7个模块(第1卷含4个模块,第2卷含3个模块)分别介绍大数据入门,分析和R编程入门,使用R进行数据分析,用R进行高级分析,机器学习的概念,社交媒体、移动分析和可视化,大数据分析的行业应用等核心内容,全面且详尽地涵盖了大数据分析的各个领域。

小福利

关注【异步社区】服务号,转发本文至朋友圈或 50 人以上微信群,截图发送至异步社区服务号后台,并在文章底下留言,分享你的大数据开发经验、从业经验或者本书的试读体验,我们将选出2名读者赠送《大数据分析师权威教程:大数据分析与预测建模1本赶快积极参与吧!

活动截止时间:2018 年 1月7日

上期获奖名单 

SUN  和 一辈子一场梦

请获奖读者填写下方获奖信息,活动名称异步社区 数据结构 python语言描述https://www.wenjuan.in/s/m2iaqif/

异步社区”后台回复“关注”,即可免费获得2000门在线视频课程;推荐朋友关注根据提示获取赠书链接,免费得异步图书一本。赶紧来参加哦!

扫一扫上方二维码,回复“关注”参与活动!



点击阅读原文,查看更多大数据图书


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
机器学习/深度学习 数据采集 存储
阿里云大数据分析师ACP考试内容是什么?考试题型是什么?
最近几年阿里云的认证越来越受欢迎,很多人会通过考取阿里云的认证来提升自己的职业竞争力,其中ACP大数据分析师是很多人会考的认证,下面小编简单介绍一下,有需要的伙伴可以在认证大使上详细了解一下。
|
机器学习/深度学习 数据采集 存储
考阿里云大数据分析师需要什么条件?考试内容是什么?
大数据时代,每个人都可以通过算法找到最适合的东西,找到自己喜欢的物品,在这背后起到重要作用的就是大数据分析师,他们通过采集数据、分析数据,精准地锁定需要的人群,从而推送用户需要的东西。
|
数据挖掘 大数据 BI
阿里云ACP大数据分析师公开课—快速攻克ACP大数据数据分析,扫码进领取学习资料!
0元免费 公开课;5天试题+2天直播;发放学习资料,支持学习问题答疑
阿里云ACP大数据分析师公开课—快速攻克ACP大数据数据分析,扫码进领取学习资料!
uiu
|
数据采集 存储 机器学习/深度学习
阿里云ACP大数据分析师 | 笔记纪要
阿里云ACP大数据分析师 | 笔记纪要
uiu
385 0
|
大数据 云计算
阿里云大数据分析师认证是什么,apc证书含金量如何
阿里云大数据分析师认证也就是acp认证,这个认证是目前很火的一个认证,您如果想要考证,可以了解一下这个证书,目前大数据行业非常火,您如果想要转行,或者想要提升自己的能力,可以试一试这个证书,拿到这个证书之后,您一定能收到更好的公司邀约,快去试试吧。想要考证可以联系小编或者联系认证大使,我们可以帮助您快速考取证书,让您的职业生涯更上一层楼。
2026 0
阿里云大数据分析师认证是什么,apc证书含金量如何
|
机器学习/深度学习 存储 SQL
阿里云大数据分析师认证题库都考些什么?什么是ACP认证?
认证大使,听起来比较模糊,很多人会以为这是个职业或者角色的名称,其实是一个网站名称。认证大使是一个专注于整理收集阿里腾讯华为等工程师认证的网站,里面有非常丰富的认证题库和视频资料。很多人可能并不了解阿里云认证,作为阿里公司推出的资格认证,它的含金量很高。那么今天我们就来聊聊:什么是阿里云大数据分析师认证?阿里云大数据分析师认证题库都考些什么?
856 0
阿里云大数据分析师认证题库都考些什么?什么是ACP认证?
|
机器学习/深度学习 数据采集 存储
阿里云大数据分析师认证是什么,需要具备哪些条件
阿里云大数据分析师认证(Alibaba Cloud Certified Professional-Data Analyst, ACP)是阿里云大数据行业认证体系中的职业认证,同时也是一个跨平台、通用型专业技术认证。主要包括数据分析相关的知识体系,如数据库知识、数据质量控制、数据编程、机器学习、数据分析工具、机器学习、数据可视化,主流大数据技术等;介绍了数据分析在行业中的实际应用与项目管理方法,及相关的数据技术和技能,包括8个知识与技能模块:大数据基础知识、大数据存储技术、数据分析工具、数据可视化、数据编程、数据项目质量控制、数据项目设计与执行、机器学习。
1376 0
阿里云大数据分析师认证是什么,需要具备哪些条件
|
机器学习/深度学习 新零售 人工智能
怎么才能转入大数据领域 ,成为一名合格的大数据分析师
  最近两年很多高校都开设了互联网相关专业,大数据、机器人等专业成为热点。
1341 0
|
数据可视化 大数据 数据挖掘