《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.3 新的大数据生态系统中的关键角色

简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.3节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.3 新的大数据生态系统中的关键角色

在1.2.4节介绍的大数据生态系统中,新的生态参与者已经涌现,进行数据的策划(curate)、存储、生产、清除和处理。此外,为了应对日益复杂的业务问题,就需要采用更先进的分析技术,这就推动了新角色、新技术平台和新分析方法的出现。本节将介绍可以解决这些需求的新角色,在后续章节还会介绍一些分析方法和技术平台。

如图1.12所示,大数据生态系统需要三类角色。在麦肯锡2011年5月发布的“大数据全球研究”报告中对这些新角色进行过描述。


a9911c944b02d4725c91c66f3971bde68b9df236

第1类:深层分析人才。这类人才精通技术,具有较强的分析能力。他们拥有多项技能,具有处理原始数据和非结构化数据的能力,并且可以应用复杂的大规模分析技术。这类人深入学习过各种量化学科,比如数学、统计学和机器学习。这类人所做的工作一般是在一个强大的分析沙箱或者工作区中进行大规模的数据分析实验。符合这个群体的职业包括统计学家、经济学家、数学家和新兴的数据科学家。

麦肯锡研究报告预测,到2018年美国将会有14万到19万个深层分析人才的缺口。这并不是指市场所需要的深层分析人才的总量,而是表示市场人才需求量和市场可用人才的缺口。这个预测只是反映了美国人才的短缺,相信这个数字在全球范围内会更大。

第2类:数据专业人员。这类人才技术深度较浅,但是具有统计学或机器学习的基本知识,能够定义那些使用高级分析可以回答的关键问题。该组成员通常具有处理数据的基本知识,而且了解一部分数据科学家和其他深层分析人员所做的工作。数据专业人员包括金融分析师、市场研究分析师、生命科学家、营运经理以及业务和职能部门的经理。

麦肯锡研究报告预测,到2018年美国将会有150万数据专业人员的缺口,这个数字是深层分析人才缺口的10倍。经理、董事和领导者们需要开始具备一定的数据专业专员的素质,这样他们才能拥有更宽阔的视野,知道哪些问题可以使用数据来解决。

第3类:技术和数据支持人员。这类人才掌握的专业技术知识可以用于支持分析项目,例如,配置和管理分析沙箱,以及管理企业和其他组织内的大规模数据分析架构。这类人员需要具备计算机工程、编程和数据库管理相关的技能。

这三类人群只有紧密合作才能解决大数据所带来的复杂挑战。大多数组织机构对报告中提到的后两类人比较熟悉,但是对第一类人(深层分析人才)了解不多。关于深层分析人才,本节将重点介绍数据科学家这一新的角色,讲解数据科学家具体要做什么和所需要掌握的技能。

下面是数据科学家经常进行的3类任务。

  • 将业务的挑战转化为分析的问题。具体而言,就是剖析业务问题,考虑问题核心,并判断哪种分析方法可以用来解决问题。这个概念将在第2章中进一步讲解。
  • 设计、实施、部署大数据的统计模型和数据挖掘技术。这类任务也是通常人们理解中的数据科学家的职责:运用复杂或高级的分析方法和数据来解决各种业务问题。本书第3章到第11章将详细介绍业界流行的几种分析技术和工具。
  • 产生能被用于指导实践的洞见。需要注意的是,使用高级方法解决数据问题本身不一定会带来新的商业价值。重要的是要能够从数据中分析出有效见解并进行有效传播。第12章将简述如何实现这一点。

数据科学家通常应该具备以下5项主要技能和行为特征,如图1.13所示。

  • 量化分析技能:比如数学或者统计学。
  • 技术能力:比如软件工程、机器学习和编程技能。
  • 怀疑性的和批判性的思维:数据科学家需要以全面的方式仔细检查自己的工作,这一点非常重要。
  • 好奇心和创造力:数据科学家应该热衷于数据,寻求创造性的方式来解决和描述信息。
  • 沟通和协作能力:数据科学家必须能够清晰地阐述数据项目能带来的商业价值,并具备和他人(包括项目出资人和利益相关者)协作的能力。


388584ab39591a85ba6a6f353d8b70ce4bf3eb63

一般而言,数据科学家习惯于使用上述技能来获取、管理、分析和可视化数据,然后再就数据讲令人信服的故事。下节将讲解几个大数据分析案例,看看数据科学家如何利用大数据来创造新价值。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
13 2
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
45 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
32 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 1
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
3天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
25天前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
算法 大数据 数据挖掘
python数据分析——大数据伦理风险分析
大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。
43 0

热门文章

最新文章