【干货】林漳希:新兴中的数据科学与工程

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:





我先谈谈如何重新认识大数据,接着我要分别强调一下数据科学和数据工程,这是这个报告的要点,我想从一个具体的案例分析说起,最后一点谈谈如何重构大数据的价值。




我们对大数据的认识,如同一个人在成长过程中对人生的认识,可以用德国文学家歌德的著名短篇小说“少年维特之烦恼”来比喻。在2010年起的短短几年中经历了觉察、憧憬、定义、实践等过程,在读过少年青春期的躁动之后,现在开始进入价值实现的时期。



现在大数据的领域面临一个现实的大问题,我们开发了那么多技术,有那么多好算法,囤积了那么多数据,那么我们怎么获得数据价值?我们如果能继续获取更多价值,那么数据的不断存储和囤积是有用的。但是即使你有了一笔数据,不等于你有了一切,因为数据是在不断变化的,你如果不生成新数据,那么老数据价值会慢慢减低。所以在目前大家认可的数据是有价值这个基础上,还要补充一点,就是一个动态增长的数据体系是获得数据更高价值的保证。


如这张源于IBM的图所示,获取大数据价值核心是由中间五个公共应用部分来实现的:大数据探索、安全和风险预警、数据仓库能力增强、运维和运营分析和360度全方位客户分析,这些可分享的功能可以应用在外面这一圈不同的领域中。在这里面,数据科学和数据工程起到重要作用,只用通过数据科学家和数据工程师的努力,不断增长的数据才能转化为源源不断财富。



今天,数据科学已经不再是新鲜的概念,我国一些大学已经有了数据科学研究院,如清华大学和天津大学,而在硅谷早已经有很多公司都成立了数据科学的部门。这是因为数据科学和已经广为应用的商务智能是一脉相承的,而商务智能已经发展了20年了。怎么把数据转化为信息,信息转化为知识,知识转化为见识,再把见识转化为决策是非常重要的。这个数据科学应用的流程实际上就是商务智能的流程。



我这里介绍一个例子-北京1039交通台样本数据,这数据非常小,是通过北京市给一万多个出租车司机一人发一个手机采集来的,手机上有GPS,这里作为例子所展示的信息是汽车所在地点和时间,变量很少,但是我们可以看看这样简单的信息能给我们提供什么样的分析结果。



这是在某一时刻汽车位置图,是根据浮动车辆在同一时刻的位置画出来的。根据这个位置图,如果在下一个时刻可以知道某辆汽车的新位置,就可以知道这部车移动多少,那么距离÷时间就是速度。由此可以得到所有车辆的车行速度,然后就是动态的汽车分布和密集度。通过对某个时间段数据的汇总,我们还可以看到车辆的活动范畴和活动规律。



这里再举一个例子,IBM上海研究院几年前为肯尼亚的M-Pesa做了一个移动银行的信用评估项目,肯尼亚M—Pesa是世界上最大的移动银行系统,后来要推出移动信贷服务业务。肯尼亚手机用户在小额贷款上有很大需求,贷款额一般不超过一百美元,月息可以达到5%。IBM所做的这个项目是要用手机的移动信息做信用评估,但是要怎么评估这些用户的信用呢?其中一个诀窍就是把实际位置信息和地标信息做关联。但是IBM上海研究院拿到这个数据时遇到一个很大的问题,就是肯尼亚的用户用的大都是非智能手机,没有GPS的地理位置信息,只有移动中和哪一个基站相关联的信息。IBM花了近三年时间解决了这个问题,搞出一个不错的信用评估模型,这个项目的成功靠的是数据科学与工程。同样的,宜信在这方面做了大量工作,宜人贷去年上市和他们公司的大数据分析应用非常相关,其中一个应用分析模块是和手机地理位置信息分析相关联的。



数据科学可以做什么呢?归纳起来,数据科学在数据质量诊断和问题处理,数据资源整合和价值发现,数据建模和模型性能评估,数据降维,商业价值实现等方面扮演着重要角色。在图的右边是关于数据科学所需要的基本技能的一个调查结果,从网上刊登的一篇文章转债的,可以看到,统计方面技能占了十大技能的一半。



数据工程相对于数据科学还提得比较少,但是现在我们发现数据工程在大数据应用中的地位变得越来越重要。数据工程在数据科学和大数据之间扮演着十分重要的作用,没有采用数据工程的方法来采集、清理、处理、管理大数据,再好的数据科学方法也难以施展。



这是美国积累多年的数据框架和方法论,上面分了很多细节的问题,底下的两层是和数据工程密切相关的。当我们通过集成统计、数学、计算机等知识系统地训练数据科学家时,我们却缺少同样的体系来培养优秀的数据工程师。对数据科学和工程的综合人才培养,目前我只查到有一个学校办了数据科学与工程硕士点,就是清华大学,其他学校的我暂时还没有看到。



数据工程是和业界的实际应用紧密关联的,而我们的大学讲课的内容和实践比有很大滞后。比如数据湖这个概念,大学里有多少学校在介绍数据湖呢?这个概念刚刚提出两三年时间,现在业界已经广泛应用与大数据管理。通常的数据管理和应用,我们有面向生产的业务数据库,在ODS经过预处理以后加载到数据仓库,完了以后,各个部门通过导入这些数据到自己的数据集市,提供本地的数据分析应用。实际使用中,这些来自生产部门的数据是不够用的,很多部门还自己采集外部数据作为补充,比如银行的市场营销部除了银行的数据之外还会搜集其他的行业数据,这些数据不来自业务数据库,也不会包括在公司数据仓库里,所以形成了本部门很混杂的数据群,而一个公司里的这类数据加在一起就形成了一个很大但是没有很好地协调管理的数据集群,这就提出了公司内部数据治理的一个课题。在这个问题上我们面临的问题就是要解决大数据的管理问题,你必须要有一个全面的大数据存储和管理的架构,你要先把整个数据体系设计好,然后才有可能把各种渠道采集来的数据存储好,才有可能充分共享,并在在上面提炼到所需要的东西,这个任务就是数据工程的很重要的一个部分。数据湖技术在这里扮演着重要角色,相信很快就会再中国普及。



数据工程涉及的内容挺多,其中要求数据工程人员对于业务工作了解足够深入,基本技能有数据逻辑思维,数据查错能力,计算机数据处理能力,统计分析和采样技术,等。其中在数据处理上,我们中很多过来的人会有共同的体验,比如国家发改委的经济信息中心系统从1980年代初第三次人口普查开始形成,在这个系统里的很多人在长年累月的数据处理中获得很多技能,而这些技能是大学里从来没有学过的,需要在实践中摸索体验,所以一般大学出来的都要一到两年才能逐步上手。到现在,大学的计算机课程教学还是没有数据处理这个内容。我们说游泳要有水性,做数据要有数据性,在这方面人才怎么培养是一个问题。



在前面谈了数据科学与工程的定义和重要性的基础上,接下来就是大数据价值体系重构问题,我们已经认识到大数据非常有价值,但是如何实现大数据价值,最终还是需要合适的人来做,套用名人的说法“数据战略决定之后,人才就是决定的因数”。重构大数据价值体系的关键在于重构大数据人才培养体系。


这是各个行业数据科学家的比例。



对数据科学家的需求在不断的上升,未来五年需要50名有素质的数据科学家,缺口高达19万,还需要150万名了解数据的高管和人员。



作为一个企业大数据的主管,可以查查你的企业是否能够应对这些挑战。就是说你的大数据团队能够胜任这些任务吗?你的科学家和工程师,还有你的系统技术人员能支撑你的关键技术吗?对于一家公司来讲是否有能力制定数据发展战略和制定企业的数据治理方案,是不是有能力把数据整合以后,而且能把整合后的资源转化为你的生产力,使你的业务能力大大提高,这是一个很重要的问题,我现在接触到很多公司高管,不管在北京、上海、成都、福建,都提到一个共同的问题 - 我们缺人。包括阿里巴巴也缺人,腾讯也缺人。大家缺的是数据科学与工程的高端人才。



所以在缺人的情况下我们必须要有人做知本家,知识的资本家。要有知本,我们在教育方面一定要提升。大数据价值实现要解决的核心首先是人才培养,这些人才可以解决大数据价值获取的问题。因此我们需要数据战略家,需要数据科学家,还需要数据工程师。



我设想的人才结构分四个梯次,战略型、研究型、研发型、和创业型。这四个梯次可以用类似智库、产业研究院和创新工厂的组合形式来实现,由高校提供基本人才,通过面向产业化的研究院,由创新实验室研发成功项目,再进入新创企业。在高地上的人才指的是智库的人才,在沙滩上的人就是愿意下海的人,他们对产业东西很了解,同时得到智库的指导,但是他们并没有下海,而涉水的则是那些直接给公司提供服务咨询,但是还没有开始创业,他们在条件成熟后就可以下水游泳,那些跳下去游泳的,也就是下海的,专职创业。现在很多创新和产业孵化机构已经在做这些事情,但是一般强调的是项目,我这里强调的是人才。



这个四阶段人才应该纳入一个体系中,针对大数据领域的特点,形成一个数据科学与工程的人才供应链,和大数据产业结合成一个有机的生态系统。在图中这么一个体系结构中,大数据产业联盟的地方应该是例如塔塔数据的位置,当然包括其它公司和研究机构,核心部分是数据科学与工程研究机构,它们不是纯粹的研究机构,是面向产业化的研究机构,就有点像清华数据科学研究院这类性质的,直接和企业挂钩,同时背靠大学,同时要和其他资源对接起来。

原文发布时间为:2016-07-30

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
机器学习/深度学习 数据采集 供应链
探索数据科学在现实世界中的应用与挑战
本文深入探讨数据科学的实际应用,揭示其在商业、医疗和社会科学等领域的显著影响。文章首先概述了数据科学的基本概念及其重要性,然后通过具体案例分析展示了数据科学如何推动创新和决策过程。接着,讨论了在实施数据科学项目时遇到的技术、伦理和管理挑战,最后提出了未来数据科学的发展方向和潜在机遇。
|
4月前
|
机器学习/深度学习 前端开发 数据挖掘
全栈开发者的终极挑战:跨界探索数据科学与前端工程的奇妙融合
在当今快速发展的技术领域中,全栈开发者不仅需要精通多种编程语言和框架,还需要跨界探索数据科学与前端工程的结合。本文将探讨如何通过数据科学技术优化前端用户体验,以及全栈开发者如何应对这一挑战。
|
7月前
|
机器学习/深度学习 算法 Java
现代数据科学中的机器学习技术发展与应用
本文探讨了现代数据科学领域中机器学习技术的发展和应用。我们介绍了机器学习的基本概念和原理,并探讨了它在前端、后端、Java、Python、C以及数据库等多种技术领域的具体应用。通过深入剖析不同领域的案例研究,我们展示了机器学习在解决实际问题和推动技术创新方面的巨大潜力。最后,我们对未来机器学习技术的发展趋势进行了展望。
|
机器学习/深度学习 人工智能 数据可视化
【数据科学】反思十年数据科学和可视化工具的未来
【数据科学】反思十年数据科学和可视化工具的未来
|
机器学习/深度学习 人工智能 算法
【数据科学】数据科学难题,怎么解释到底什么是数据科学
【数据科学】数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 人工智能 算法
数据科学难题,怎么解释到底什么是数据科学
数据科学难题,怎么解释到底什么是数据科学
|
机器学习/深度学习 人工智能 算法
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
花旗银行创建基于人工智能和数据科学的实用分析系统的实战经验
215 0
|
机器学习/深度学习 存储 人工智能
十大最受数据科学欢迎的Python库
很多读者,学习python的就是希望通过数据分析、AI进行求职、转行或者是科研。所以行哥这里罗列了数据科学最受欢迎的十大Python数据科学库,看看有几个是你没掌握的:
256 0
十大最受数据科学欢迎的Python库
|
机器学习/深度学习 算法 Python
2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言
最近,Kaggle这一互联网上最著名的数据科学竞赛平台首次进行了机器学习与数据科学现状调查。在超过 16000 名从业者的答卷中,我们可以一窥目前该行业的发展趋势。
3337 0
|
机器学习/深度学习 Kubernetes API
为什么我们建立机器学习工程平台,而不是数据科学平台?
大约一年前,我们中的一些人开始研究开源机器学习平台 Cortex 。我们的动机很简单:鉴于从模型中构建应用程序是一种可怕的体验,充满了胶水代码和样板,我们需要一个工具,能将这些都予以抽象化。
下一篇
DataWorks