业界深访 | 研发总裁眼中的数据科学家

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

在大数据和机器学习的时代,有一种职业脱颖而出——数据科学家。数据科学家在近年来备受追捧,也有越来越多的人想投身入数据科学领域。

最近,CDA 采访了几位来自不同行业的数据科学团队负责人,聊聊他们眼中的数据科学家是什么样的,以及对于初入数据科学行业的人群有些什么建议。

今天请到的是来自TalkingData的研发副总裁——阎志涛,让我们看看研发总裁眼中的数据科学家是什么样的吧。

点击播放采访视频,建议wifi下播放。

de8fefc4c0b380e988149d7e4fd25fedcf434ab6

以下是采访的文字整理部分

阎志涛 TalkingData,研发副总裁

b827975f9565b4d362bed1815918e2fa60d28b71

大家好,我叫阎志涛,是TalkingData的研发副总裁。TalkingData于2011年成立,我是2012年加入的,到现在已经过了六年的时间。

Q1: 请介绍下您目前从事的数据科学相关的工作内容。

我们公司是既有数据也有业务,关于数据科学相关工作,首先是数据本身。这部分包含了数据治理、数据准备,以及把数据应用到不同的业务场景里。比方说将数据建模提供给不同的客户,以及通过我们的线上平台,给企业客户提供从数据到模型的能力。另外我们也在构建一个开放的平台,赋能给其他数据科学家,利用我们的数据和平台让他们建模。

如今对于国内企业而言,数据科学家是现在稀缺的职业。因此我们公司在教育方面也做了些投入,比如TDU腾云大学,而且还跟一些国外高校合作了“梧桐计划”,让优秀院校的毕业生能够在我们这边接受培训,用我们的数据结合业务场景进行实践。

对于数据科学而言,算法方面如果有较好的数学基础,掌握起来并不是特别难。但如果想落地,一定需要场景和数据。这是很多大学现在所欠缺的,没有数据也没有场景,只能拿像Kaggle里的一些开源数据集去做尝试。我们这里有在生产中可以用的数据,有具体的问题让他们去解决问题,去真正去锻炼自己的能力。

从我自己目前来讲,我现在侧重几个方面。一个就是数据科学赋能,因为我们在打造我们自己的数据科学平台。这个平台实际上是一个开放的平台,我们希望把自己的数据做一些处理,然后把它变成能让大家用来建模的数据集。结合业务场景,让不同公司的数据科学家能够支持他们的业务,这是我们想做的事情。

这当中涉及到许多工作,我们需要做很多数据工程的工作,比方说清洗。然后平台构建方面也需要很多数据整理工作。

我们现在做一个很有意思事情。关于数据,现在都在讲GDPR,即数据隐私,如何做到数据脱敏。我们现在做的叫embedding,把我们的数据脱敏,变成机器能够理解,但人不能理解的内容。

Q2:请分享下您工作中所做的具体案例。

众所周知,如今大数据或者数据应用的典型场景是广告或者营销方面。这里有一个非常常见的算法,叫look alike,就是找相似人群。

我们大约从14年开始就在尝试用Look alike,利用我们的数据帮助一些广告主,或广告的需求方平台,提供更好的营销效果。我们在不同的场景里都做过使用,而且都取得不错的效果。目前已经将代码部署到我们的数据智能市场上,已经形成了标准化服务。也就是,用户将自己的样本种子数据传上来,利用我们的数据,将其在种子人群放大,从而找到相似的人群进行精准营销和投放,这是一个比较具体的案例。

Q3:您觉得当下企业需要的数据科学家应该具备哪些技能?

首先,对于数据科学家,硬技能是基础。

第一,较好的数据工程基础能力。因为现在的数据科学家不像原来的数据分析师,并不是有人帮你清洗数据,帮你去做各种数据支持,你只需要做简单的算法模型就行了。

第二,数据整理和数据工程的能力。现在大数据的场景里,很多数据一开始并不那么干净,你要能自己去整理这些数据。

第三,对数据的理解能力。要做工程的话,如果不理解数据是很难的。虽然现在说深度学习可以不做特征工程,但是对于大部分业务场景,对数据进行理解,然后去做特征仍然是很关键的。

第四,数据科学能力,熟练掌握各种算法。这也是数据科学家区别于数据工程师的关键能力。算法对于数据科学家来说,是你的安身立命的工具,是用来解决问题的重要工具。你必须了解在什么场景下,面向什么样的数据,采用什么算法,去解决什么样的业务问题,这是核心技能。

第五,对业务的理解能力。因为所有的数据科学它不是空中楼阁,数据科学家并不是只做科学,而是需要解决具体的业务问题。这时掌握业务领域知识,对业务理解就变得非常的关键。

第六,沟通能力。这个软技能对数据科学家也是非常关键的。因为数据科学家不是独立工作,你要面向业务去解决问题。数据科学家跟工程师不太一样,工程师的问题一般是确定性的,有时只要问题定义清楚就能去做了;但是科学家需要很多次迭代,这样你跟业务团队、跟不同的人沟通就变得非常关键。

第七,项目管理和时间管理都很关键。数据科学工作经常需要多次迭代。如何管理整个不同的资源,如何控制时间,一步步=接近到你的目标也是至关重要的。

硬技能和软技能一样,对于数据科学家确实都是非常重要的,所以说这是一个非常综合的职业。

Q3:您觉得数据科学家最核心的能力是什么?

对数学科学家而言,数据科学是核心能力。

这里可以去其他的几个职业进行区分。数据工程师需要数据科学能力,但工程能力就更关键,而分析师业务理解更关键。数据科学家的核心素质,一定是算法等相关能力。

一定要紧跟时代的发展。目前,虽然人工智能很热,但整个数据科学还是在爬坡阶段,各种新的算法层出不穷。我觉得在掌握常见基础算法的情况下,一定要多去看国外的先进文献和论文,去了解更新的算法。因为当中有很多算法,并不是大家能在大学里学到的。

Q4:请您给正在职场打拼的数据分析师、数据工程师们一些职业发展建议!

实际上我是工程师出身的,这两个角色确实不太相同。对于数据工程师来讲,想转成数据科学家需要思维方式的转变。

工程师解决的问题经常是具象的、确定性的,工程师一般是根据确定性的问题,找到解决方案。解决方案出来后,它就能出现确定性的结果。

但是对于数据科学家而言,面向的结果是不确定性的。你要要做好思想准备,在工作中逐步尝试,接近更完美更好的效果。

在有思想准备之后,你还需要之前所提的硬技能。数据工程师的强项是工程能力,写代码的能力。但数据科学需要掌握很多算法,可以通过培训、线上课程等资料补齐这些知识。大学里学过的概率论、统计、线性代数等知识也需要复习。然后还需要再实际动手。面向问题找到对应问题的数据,去动手一步一步的梳理。

以上是我的一些建议和想法。

Q5:您对CDA LEVEL 3 数据科学家人才标准有何建议和期待?

就国内目前来说,数据科学家人才是比较缺乏的。CDA LEVEL 3的课程设置很好,能够让更多的人加入到数据科学队伍里来,为市场输送很多优秀的数据分析人才,从而进一步强大数据科学团队,这是非常有价值的。


原文发布时间为:2018-10-25
本文来自云栖社区合作伙伴“ CDA数据分析师”,了解相关信息可以关注“ CDA数据分析师”。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
人工智能 供应链 搜索推荐
数智实践丨走进名企,解密标杆企业领航之道
编者按: 产业互联网是指传统产业借力大数据、云计算、智能终端以及网络优势,提升内部效率和对外服务能力,是传统产业通过“互联网+”实现转型升级的重要路径之一。
380 0
|
物联网 5G
看见新力量第四期
由阿里云创新中心出品的《看见新力量》栏目,在过去一年,不断地记录正在发生的创业故事
142 0
看见新力量第四期
|
机器学习/深度学习 人工智能 自然语言处理
阿里巴巴高级算法专家威视:组建技术团队的一些思考
本文是阿里巴巴高级算法专家威视从2019年1月底接手CRO线NLP算法团队以来,在团队组建、能力建设、以及管理上的一些思考和实践。
3596 16
阿里巴巴高级算法专家威视:组建技术团队的一些思考
|
设计模式 自然语言处理 运维
阿里研究员:软件测试中的18个难题
对于软件测试来说,怎么样才算测够了?如何评价测试的有效性?那么多测试用例,以后怎么删?在软件测试中会遇到非常多的问题,阿里研究员郑子颖分享了18个他总结出的难题以及相关看法,希望对同学们有所启发。
3872 0
阿里研究员:软件测试中的18个难题
|
机器学习/深度学习 供应链 算法
近10年数据智能团队建设,联想总结了由内而外的发展经验 | 专访联想集团副总裁田日辉
近10年数据智能团队建设,联想总结了由内而外的发展经验 | 专访联想集团副总裁田日辉
499 0
|
人工智能 大数据 区块链
合作阿里两周年 澳门特区五大领域智能化成果初现
19日,记者获得消息称,澳门智能城市项目第一阶段已经成功验收,第二阶段在稳步推进中。自2017年8月和阿里巴巴达成智能城市战略合作以来,澳门特别行政区在交通、医疗、旅游、政务等领域广泛应用云计算以及数字金融技术。
1286 0
合作阿里两周年 澳门特区五大领域智能化成果初现
|
机器学习/深度学习 人工智能 分布式计算
【云周刊】第128期:支撑千亿营收背后秘密——首届阿里巴巴研发效能嘉年华
如何保护企业代码资产,释放程序员“债务”压力?怎样向“老板拍脑袋提需求”和“PD歪歪”说NO?6月29日,首届阿里巴巴研发效能嘉年华来啦!语音识别真的比肩人类了?听听阿里iDST初敏怎么说...更多精彩技术资讯,尽在云周刊!
14091 0