《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.3 新的大数据生态系统中的关键角色

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.3节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.3 新的大数据生态系统中的关键角色

在1.2.4节介绍的大数据生态系统中,新的生态参与者已经涌现,进行数据的策划(curate)、存储、生产、清除和处理。此外,为了应对日益复杂的业务问题,就需要采用更先进的分析技术,这就推动了新角色、新技术平台和新分析方法的出现。本节将介绍可以解决这些需求的新角色,在后续章节还会介绍一些分析方法和技术平台。

如图1.12所示,大数据生态系统需要三类角色。在麦肯锡2011年5月发布的“大数据全球研究”报告中对这些新角色进行过描述。


a9911c944b02d4725c91c66f3971bde68b9df236

第1类:深层分析人才。这类人才精通技术,具有较强的分析能力。他们拥有多项技能,具有处理原始数据和非结构化数据的能力,并且可以应用复杂的大规模分析技术。这类人深入学习过各种量化学科,比如数学、统计学和机器学习。这类人所做的工作一般是在一个强大的分析沙箱或者工作区中进行大规模的数据分析实验。符合这个群体的职业包括统计学家、经济学家、数学家和新兴的数据科学家。

麦肯锡研究报告预测,到2018年美国将会有14万到19万个深层分析人才的缺口。这并不是指市场所需要的深层分析人才的总量,而是表示市场人才需求量和市场可用人才的缺口。这个预测只是反映了美国人才的短缺,相信这个数字在全球范围内会更大。

第2类:数据专业人员。这类人才技术深度较浅,但是具有统计学或机器学习的基本知识,能够定义那些使用高级分析可以回答的关键问题。该组成员通常具有处理数据的基本知识,而且了解一部分数据科学家和其他深层分析人员所做的工作。数据专业人员包括金融分析师、市场研究分析师、生命科学家、营运经理以及业务和职能部门的经理。

麦肯锡研究报告预测,到2018年美国将会有150万数据专业人员的缺口,这个数字是深层分析人才缺口的10倍。经理、董事和领导者们需要开始具备一定的数据专业专员的素质,这样他们才能拥有更宽阔的视野,知道哪些问题可以使用数据来解决。

第3类:技术和数据支持人员。这类人才掌握的专业技术知识可以用于支持分析项目,例如,配置和管理分析沙箱,以及管理企业和其他组织内的大规模数据分析架构。这类人员需要具备计算机工程、编程和数据库管理相关的技能。

这三类人群只有紧密合作才能解决大数据所带来的复杂挑战。大多数组织机构对报告中提到的后两类人比较熟悉,但是对第一类人(深层分析人才)了解不多。关于深层分析人才,本节将重点介绍数据科学家这一新的角色,讲解数据科学家具体要做什么和所需要掌握的技能。

下面是数据科学家经常进行的3类任务。

  • 将业务的挑战转化为分析的问题。具体而言,就是剖析业务问题,考虑问题核心,并判断哪种分析方法可以用来解决问题。这个概念将在第2章中进一步讲解。
  • 设计、实施、部署大数据的统计模型和数据挖掘技术。这类任务也是通常人们理解中的数据科学家的职责:运用复杂或高级的分析方法和数据来解决各种业务问题。本书第3章到第11章将详细介绍业界流行的几种分析技术和工具。
  • 产生能被用于指导实践的洞见。需要注意的是,使用高级方法解决数据问题本身不一定会带来新的商业价值。重要的是要能够从数据中分析出有效见解并进行有效传播。第12章将简述如何实现这一点。

数据科学家通常应该具备以下5项主要技能和行为特征,如图1.13所示。

  • 量化分析技能:比如数学或者统计学。
  • 技术能力:比如软件工程、机器学习和编程技能。
  • 怀疑性的和批判性的思维:数据科学家需要以全面的方式仔细检查自己的工作,这一点非常重要。
  • 好奇心和创造力:数据科学家应该热衷于数据,寻求创造性的方式来解决和描述信息。
  • 沟通和协作能力:数据科学家必须能够清晰地阐述数据项目能带来的商业价值,并具备和他人(包括项目出资人和利益相关者)协作的能力。


388584ab39591a85ba6a6f353d8b70ce4bf3eb63

一般而言,数据科学家习惯于使用上述技能来获取、管理、分析和可视化数据,然后再就数据讲令人信服的故事。下节将讲解几个大数据分析案例,看看数据科学家如何利用大数据来创造新价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
289 7
|
1月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
44 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
86 1
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
构建高效数据分析系统的关键技术
【10月更文挑战第5天】构建高效数据分析系统的关键技术
54 0
|
25天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
62 4
|
1月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
1月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
58 3
|
1月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
66 2
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
112 2
下一篇
DataWorks