本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.3节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看
1.3 新的大数据生态系统中的关键角色
在1.2.4节介绍的大数据生态系统中,新的生态参与者已经涌现,进行数据的策划(curate)、存储、生产、清除和处理。此外,为了应对日益复杂的业务问题,就需要采用更先进的分析技术,这就推动了新角色、新技术平台和新分析方法的出现。本节将介绍可以解决这些需求的新角色,在后续章节还会介绍一些分析方法和技术平台。
如图1.12所示,大数据生态系统需要三类角色。在麦肯锡2011年5月发布的“大数据全球研究”报告中对这些新角色进行过描述。
第1类:深层分析人才。这类人才精通技术,具有较强的分析能力。他们拥有多项技能,具有处理原始数据和非结构化数据的能力,并且可以应用复杂的大规模分析技术。这类人深入学习过各种量化学科,比如数学、统计学和机器学习。这类人所做的工作一般是在一个强大的分析沙箱或者工作区中进行大规模的数据分析实验。符合这个群体的职业包括统计学家、经济学家、数学家和新兴的数据科学家。
麦肯锡研究报告预测,到2018年美国将会有14万到19万个深层分析人才的缺口。这并不是指市场所需要的深层分析人才的总量,而是表示市场人才需求量和市场可用人才的缺口。这个预测只是反映了美国人才的短缺,相信这个数字在全球范围内会更大。
第2类:数据专业人员。这类人才技术深度较浅,但是具有统计学或机器学习的基本知识,能够定义那些使用高级分析可以回答的关键问题。该组成员通常具有处理数据的基本知识,而且了解一部分数据科学家和其他深层分析人员所做的工作。数据专业人员包括金融分析师、市场研究分析师、生命科学家、营运经理以及业务和职能部门的经理。
麦肯锡研究报告预测,到2018年美国将会有150万数据专业人员的缺口,这个数字是深层分析人才缺口的10倍。经理、董事和领导者们需要开始具备一定的数据专业专员的素质,这样他们才能拥有更宽阔的视野,知道哪些问题可以使用数据来解决。
第3类:技术和数据支持人员。这类人才掌握的专业技术知识可以用于支持分析项目,例如,配置和管理分析沙箱,以及管理企业和其他组织内的大规模数据分析架构。这类人员需要具备计算机工程、编程和数据库管理相关的技能。
这三类人群只有紧密合作才能解决大数据所带来的复杂挑战。大多数组织机构对报告中提到的后两类人比较熟悉,但是对第一类人(深层分析人才)了解不多。关于深层分析人才,本节将重点介绍数据科学家这一新的角色,讲解数据科学家具体要做什么和所需要掌握的技能。
下面是数据科学家经常进行的3类任务。
- 将业务的挑战转化为分析的问题。具体而言,就是剖析业务问题,考虑问题核心,并判断哪种分析方法可以用来解决问题。这个概念将在第2章中进一步讲解。
- 设计、实施、部署大数据的统计模型和数据挖掘技术。这类任务也是通常人们理解中的数据科学家的职责:运用复杂或高级的分析方法和数据来解决各种业务问题。本书第3章到第11章将详细介绍业界流行的几种分析技术和工具。
- 产生能被用于指导实践的洞见。需要注意的是,使用高级方法解决数据问题本身不一定会带来新的商业价值。重要的是要能够从数据中分析出有效见解并进行有效传播。第12章将简述如何实现这一点。
数据科学家通常应该具备以下5项主要技能和行为特征,如图1.13所示。
- 量化分析技能:比如数学或者统计学。
- 技术能力:比如软件工程、机器学习和编程技能。
- 怀疑性的和批判性的思维:数据科学家需要以全面的方式仔细检查自己的工作,这一点非常重要。
- 好奇心和创造力:数据科学家应该热衷于数据,寻求创造性的方式来解决和描述信息。
- 沟通和协作能力:数据科学家必须能够清晰地阐述数据项目能带来的商业价值,并具备和他人(包括项目出资人和利益相关者)协作的能力。
一般而言,数据科学家习惯于使用上述技能来获取、管理、分析和可视化数据,然后再就数据讲令人信服的故事。下节将讲解几个大数据分析案例,看看数据科学家如何利用大数据来创造新价值。