年薪百万的机器学习专家,为什么不产生价值?

简介:
本文来自AI新媒体量子位(QbitAI)

「范式大学系列课程」第 3 篇文章:

年薪百万的机器学习专家,为什么不产生价值?

Part 1

一个朋友的企业,他们招聘了 2 名机器学习方向的数据科学家,加起来年薪百万。

但一段时间的蜜月期后,他们发现机器学习专家没有给公司带来实际价值。高管们不知道他们具体做了什么,业务人员每周都给他们提出预测需求,却很少能在短时间得到回应。

不到一年,公司和机器学习专家们就不欢而散了。

Part 2

巧合的是,从他们公司离职的机器学习专家是我的朋友。

当我问他这个问题时,他说自己每天都忙得不可开交,却得不到公司其他人的理解。他和我描述了自己的工作过程。

他花了很多时间搭建了机器学习需要的计算环境。

他花了很多时间做建模前的数据清洗和处理。

他花了很多时间做模型选择和参数调整,以得到更好的结果。

他花了很多时间做实时预测的功能,为了达到毫秒级的延迟花费了大量心血。

……

实际上,要完成一个机器学习的模型要做很多事情。团队人数本来就少,事情又多,他的兴趣只能集中在模型本身上了。

至于这些模型对应的业务问题,例如怎么定义问题,确定哪个指标?虽然也重要,但他觉得这些主要是业务人员去解决的。

(估计业务人员也觉得,这是属于机器学习专家解决的事情)

Part 3

实际上,这个问题不是个例,大部分公司在引入机器学习专家后,都会面临这样的疑问。

来自 MIT 的机器学习研究员 Kalyan Veeramachaneni 曾经做过一次调查,在一个 150 个机器学习爱好者的小组中,他询问说:“你们有多少人建立过机器学习的模型?”大约有 1/3 的人举手。而当他进一步问:“有多少人使用这个模型产生价值并衡量它?”结果没有一个人举手。

换句话说,机器学习专家们把 90% 的时间都放在了数据准备、处理、特征工程、建模、调参上,而背后的业务问题和商业问题, 很多时候没有纳入严格的考虑。

但是要让数据产生真正的价值,就要把数据和商业价值联系起来,这至少要花费 50% 以上的精力。

Part 4

相比之下,更为理想的局面是建立机器学习工程和商业价值之间的平衡。一般来说有 5 个原则:

1.从最简单的模型开始

逻辑回归或者那些基于随机森林、决策树的模型,就足以解决大部分的问题。所以你的重点,应该放在缩短数据采集和模型建立的时间。

2.探索更多问题

相比于通过一个难以置信的模型探索一个业务问题,你应该探索数十个问题,然后为每个问题都创造一个相对简单的预测模型,并评估模型背后的商业价值。

3.用全部的数据和特征训练模型

过去机器学习的能力不够,很多时候是依靠人力筛选出样本数据和特征进行模型训练。但随着计算资源越来越便宜,人力成本越来额越高,你应该用全部的数据和特征训练模型,以得到更好的效果。

4.业务驱动模型

让机器学习专家和业务人员有更多的配合。实际上,很多想法都来自于业务部门的设想,机器学习专家和他们一起探索出对公司有价值的解决方案。

5.专注于自动化

为了更快地获得第一个模型,缩短探索问题的速度,公司要自动执行通常由手动完成的任务。我们发现在不同的数据问题中,背后都应用了类似的数据处理技术,无论是在数据清洗、准备阶段,还是在数据建模阶段,亦或是在模型上线阶段。

Part 5

这 5 个原则说的是,如果说机器学习是一场战役,过去强调的是战士的能力和经验,现在则更为强调军火的选择。

就像在伊拉克战争中,美国部队强调的是每平方公里的弹药投放量,最终投放了 60 亿颗弹药。虽然是一个不太恰当的比喻,但是机器学习未来的趋势就是大规模机器学习平台的出现,通过大规模计算解决具体的业务问题。大规模机器学习平台,就是企业未来最重要的军火。

所以对于机器学习专家来说,他也许不能一个人就把事情做完,但是给他工具就可以了。

Part 6

在我的介绍下,那位机器学习专家又回到了那家公司,1 个人,1 个月,完成了过去 1 年都没完成的工作。

参考资料:

Why You’re Not Getting Value from Your Data Science

http://link.zhihu.com/?target=https%3A//hbr.org/2016/12/why-youre-not-getting-value-from-your-data-science

Data has no value if it lacks a purpose

http://link.zhihu.com/?target=https%3A//inform.tmforum.org/sponsored-feature/2017/04/data-no-value-lacks-purpose/

The Missing Link in Why You’re Not Getting Value From Your Data Science

http://link.zhihu.com/?target=http%3A//blog.predikto.com/2016/12/28/the-missing-link-in-why-youre-not-getting-value-from-your-data-science/

「范式大学」由第四范式发起,致力于成为“数据科学家”的黄埔军校。「范式大学系列课程」会和大家推荐戴文渊、杨强、陈雨强等机器学习领域顶尖从业人士的最新分享,以及由第四范式产品团队推荐和整理的机器学习材料。

原文发布时间:2017-04-19
相关文章
|
4月前
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、
|
机器学习/深度学习 算法 数据挖掘
数据驱动!精细化运营!用机器学习做客户生命周期与价值预估!⛵
如何预测客户价值,计算特定时间段内能带来的价值,是互联网公司在面临海量用户时急需解决的运营命题。本文就来讲解『机器学习+RFM模型』的精细化运营解决方案。
974 2
数据驱动!精细化运营!用机器学习做客户生命周期与价值预估!⛵
|
机器学习/深度学习 数据采集 存储
【机器学习项目实战10例】(六):基于聚类算法完成航空公司客户价值分析任务
【机器学习项目实战10例】(六):基于聚类算法完成航空公司客户价值分析任务
502 0
【机器学习项目实战10例】(六):基于聚类算法完成航空公司客户价值分析任务
|
机器学习/深度学习 人工智能 TensorFlow
AI开发者大会之AI学习与进阶实践:2020年7月3日《如何转型搞AI?》、《基于AI行业价值的AI学习与进阶路径》、《自动机器学习与前沿AI开源项目》、《使用TensorFlow实现经典模型》
AI开发者大会之AI学习与进阶实践:2020年7月3日《如何转型搞AI?》、《基于AI行业价值的AI学习与进阶路径》、《自动机器学习与前沿AI开源项目》、《使用TensorFlow实现经典模型》
AI开发者大会之AI学习与进阶实践:2020年7月3日《如何转型搞AI?》、《基于AI行业价值的AI学习与进阶路径》、《自动机器学习与前沿AI开源项目》、《使用TensorFlow实现经典模型》
|
机器学习/深度学习 开发者 异构计算
体验机器学习PAI-DSW动手实验室,赢取价值20000大礼包及定制T恤衫
动手体验数据科学,成为PAI-DSW探索者!快来体验机器学习PAI-DSW动手实验室,测一测你的相亲战斗力指数,还能赢取价值20000大礼包及定制T恤衫!
4507 0
体验机器学习PAI-DSW动手实验室,赢取价值20000大礼包及定制T恤衫
|
机器学习/深度学习 传感器 人工智能
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
在 Google I/O 首日的 Keynote 中,Google 公布了一系列新的硬件、应用和基础研究。自去年提出 AI First 战略,今年的大会上 Google 同样安排了不少与机器学习开发相关的内容,比如《教程 | 如何使用谷歌 Mobile Vision API 开发手机》。
114 0
Google I/O 李飞飞等四领域女性专家,谈机器学习的过去、现在和未来
|
机器学习/深度学习 人工智能
理解五个基本概念,让你更像机器学习专家
这篇文章主要讲述了机器学习的相关内容,阐述了机器学习的主要意义和形成过程。区别了机器学习与AI、深度学习、神经网络等专业词汇。
1166 0
下一篇
DataWorks