在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身入数据科学领域。
最近,CDA 采访了几位来自不同行业的数据科学团队负责人,聊聊他们眼中的数据科学家是什么样的,以及对于初入数据科学行业的人群有些什么建议。
今天请到的是来自TalkingData的研发副总裁——阎志涛,让我们看看研发总裁眼中的数据科学家是什么样的吧。
点击播放采访视频,建议wifi下播放。
以下是采访的文字整理部分
阎志涛 TalkingData,研发副总裁
大家好,我叫阎志涛,是TalkingData的研发副总裁。TalkingData于2011年成立,我是2012年加入的,到现在已经过了六年的时间。
Q1: 请介绍下您目前从事的数据科学相关的工作内容。
我们公司是既有数据也有业务,关于数据科学相关工作,首先是数据本身。这部分包含了数据治理、数据准备,以及把数据应用到不同的业务场景里。比方说将数据建模提供给不同的客户,以及通过我们的线上平台,给企业客户提供从数据到模型的能力。另外我们也在构建一个开放的平台,赋能给其他数据科学家,利用我们的数据和平台让他们建模。
如今对于国内企业而言,数据科学家是现在稀缺的职业。因此我们公司在教育方面也做了些投入,比如TDU腾云大学,而且还跟一些国外高校合作了“梧桐计划”,让优秀院校的毕业生能够在我们这边接受培训,用我们的数据结合业务场景进行实践。
对于数据科学而言,算法方面如果有较好的数学基础,掌握起来并不是特别难。但如果想落地,一定需要场景和数据。这是很多大学现在所欠缺的,没有数据也没有场景,只能拿像Kaggle里的一些开源数据集去做尝试。我们这里有在生产中可以用的数据,有具体的问题让他们去解决问题,去真正去锻炼自己的能力。
从我自己目前来讲,我现在侧重几个方面。一个就是数据科学赋能,因为我们在打造我们自己的数据科学平台。这个平台实际上是一个开放的平台,我们希望把自己的数据做一些处理,然后把它变成能让大家用来建模的数据集。结合业务场景,让不同公司的数据科学家能够支持他们的业务,这是我们想做的事情。
这当中涉及到许多工作,我们需要做很多数据工程的工作,比方说清洗。然后平台构建方面也需要很多数据整理工作。
我们现在做一个很有意思事情。关于数据,现在都在讲GDPR,即数据隐私,如何做到数据脱敏。我们现在做的叫embedding,把我们的数据脱敏,变成机器能够理解,但人不能理解的内容。
Q2:请分享下您工作中所做的具体案例。
众所周知,如今大数据或者数据应用的典型场景是广告或者营销方面。这里有一个非常常见的算法,叫look alike,就是找相似人群。
我们大约从14年开始就在尝试用Look alike,利用我们的数据帮助一些广告主,或广告的需求方平台,提供更好的营销效果。我们在不同的场景里都做过使用,而且都取得不错的效果。目前已经将代码部署到我们的数据智能市场上,已经形成了标准化服务。也就是,用户将自己的样本种子数据传上来,利用我们的数据,将其在种子人群放大,从而找到相似的人群进行精准营销和投放,这是一个比较具体的案例。
Q3:您觉得当下企业需要的数据科学家应该具备哪些技能?
首先,对于数据科学家,硬技能是基础。
第一,较好的数据工程基础能力。因为现在的数据科学家不像原来的数据分析师,并不是有人帮你清洗数据,帮你去做各种数据支持,你只需要做简单的算法模型就行了。
第二,数据整理和数据工程的能力。现在大数据的场景里,很多数据一开始并不那么干净,你要能自己去整理这些数据。
第三,对数据的理解能力。要做工程的话,如果不理解数据是很难的。虽然现在说深度学习可以不做特征工程,但是对于大部分业务场景,对数据进行理解,然后去做特征仍然是很关键的。
第四,数据科学能力,熟练掌握各种算法。这也是数据科学家区别于数据工程师的关键能力。算法对于数据科学家来说,是你的安身立命的工具,是用来解决问题的重要工具。你必须了解在什么场景下,面向什么样的数据,采用什么算法,去解决什么样的业务问题,这是核心技能。
第五,对业务的理解能力。因为所有的数据科学它不是空中楼阁,数据科学家并不是只做科学,而是需要解决具体的业务问题。这时掌握业务领域知识,对业务理解就变得非常的关键。
第六,沟通能力。这个软技能对数据科学家也是非常关键的。因为数据科学家不是独立工作,你要面向业务去解决问题。数据科学家跟工程师不太一样,工程师的问题一般是确定性的,有时只要问题定义清楚就能去做了;但是科学家需要很多次迭代,这样你跟业务团队、跟不同的人沟通就变得非常关键。
第七,项目管理和时间管理都很关键。数据科学工作经常需要多次迭代。如何管理整个不同的资源,如何控制时间,一步步=接近到你的目标也是至关重要的。
硬技能和软技能一样,对于数据科学家确实都是非常重要的,所以说这是一个非常综合的职业。
Q3:您觉得数据科学家最核心的能力是什么?
对数学科学家而言,数据科学是核心能力。
这里可以去其他的几个职业进行区分。数据工程师需要数据科学能力,但工程能力就更关键,而分析师业务理解更关键。数据科学家的核心素质,一定是算法等相关能力。
一定要紧跟时代的发展。目前,虽然人工智能很热,但整个数据科学还是在爬坡阶段,各种新的算法层出不穷。我觉得在掌握常见基础算法的情况下,一定要多去看国外的先进文献和论文,去了解更新的算法。因为当中有很多算法,并不是大家能在大学里学到的。
Q4:请您给正在职场打拼的数据分析师、数据工程师们一些职业发展建议!
实际上我是工程师出身的,这两个角色确实不太相同。对于数据工程师来讲,想转成数据科学家需要思维方式的转变。
工程师解决的问题经常是具象的、确定性的,工程师一般是根据确定性的问题,找到解决方案。解决方案出来后,它就能出现确定性的结果。
但是对于数据科学家而言,面向的结果是不确定性的。你要要做好思想准备,在工作中逐步尝试,接近更完美更好的效果。
在有思想准备之后,你还需要之前所提的硬技能。数据工程师的强项是工程能力,写代码的能力。但数据科学需要掌握很多算法,可以通过培训、线上课程等资料补齐这些知识。大学里学过的概率论、统计、线性代数等知识也需要复习。然后还需要再实际动手。面向问题找到对应问题的数据,去动手一步一步的梳理。
以上是我的一些建议和想法。
Q5:您对CDA LEVEL 3 数据科学家人才标准有何建议和期待?
就国内目前来说,数据科学家人才是比较缺乏的。CDA LEVEL 3的课程设置很好,能够让更多的人加入到数据科学队伍里来,为市场输送很多优秀的数据分析人才,从而进一步强大数据科学团队,这是非常有价值的。