行业 | 我的数据科学成果为什么无法商业化?

简介:

在数据科学的实践应用中,有些工作成果可以获得数十亿级的商业回报,而绝大多数的工作成果却并没有达到预期的效果。本文作者是Nick Elprin,Domino Data Lab公司的创始人兼CEO,拥有哈佛大学计算机硕士学位。他在文中探讨了数据科学工作成果不尽如人意的四个可能原因。

当前,许多公司都面临着这样的困境:把数据科学的工作成果真正转化为商业价值。

据一项涉及250位数据科学团队主管和员工们的问卷调查显示:60% 的公司计划在2018年把他们的数据科学团队扩大一倍,90% 的公司相信数据科学会带来商业创新。但是,少于9% 的公司会量化数据模型带来的商业价值,仅仅11%的公司能把至少50个预测模型投入使用。

问卷链接:

https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/

那么造成这种困境的根源是什么?一般来说,运用数据科学的公司可以分为两种:一种是把数据科学仅看作是一种技术实践的公司;另一种是把数据科学作为一个重要部分,进一步渗透到商业实践的大环境中的公司。在进行决策制定过程中,那些能够熟练地运用技术和管理实践,并且把算法驱动的决策作为业务核心的公司,往往能获得最大的商业回报。这些公司才能够被称为 “模型驱动商业价值”型公司,比如亚马逊、Netflix、Stitch Fix、特斯拉等。

d07facd10e1abd7ae54eda3321dbb36b45d6f04b

当然,说起来容易做起来难。让我们来看看那些投资数据科学以求商业回报的公司们正在面对的四大挑战

团队内各自为政1+1<2

聘请数据科学家并不能保证你的公司能从中获益。对于绝大多数公司来说,根据边际效益递减规律,在已经有一个数据科学家的团队里,再额外聘用一个数据科学家,并不会有多一倍的产出。然而,少数拥有表现突出的数据科学团队的公司,会出现增加数据科学家,就能指数般提高产出的效果。

这里还有一个老生常谈的问题,那就是数据科学家们都各自为政,在独立的工作中,他们经常做重复的工作。因为他们看不到别人已经完成了什么工作,所以也没法通过继承前人的工作成果,来让自己的工作变得轻松高效。

举个例子,在一家知名保险公司里,几十名数据科学家无组织、无合作地攻克同一个商业问题,这让公司在数据科学方面的投资不值,也失去了更多本来可以用这些投资来发现的新机会。

换句话来说,一堆单单做模型的人,与一个有机结合的数据团队是有本质区别的。那些有机组合在一起的团队成员们能够熟练运用知识、技能、经验,用更短的时间,创造更好的模型,

模型部署与评估的割裂

运作良好的数据科学团队,在工作中会有持续迭代的周期(从研究到产出的循环迭代),以及对模型效果的衡量。但是,模型研究和模型部署,这两个过程经常被完全割裂。并且,当一个模型被使用后,也没有与之对应的商业效果的分析。这会导致模型没法根据商业效果迭代更新,给公司造成损失。有一家主流财务公司声称,他们“让一个模型产生效用的时间,比建造新总部大楼的时间都要长”.

工具与技术与不匹配

尽管IT部门在过去十几年的时间里,构建了用来储存和处理数据的大数据基础设施,但是这些基础设施本身并不能完全保证数据科学的成功实践。数据科学家会在一个月内使用多达3-5种不同的工具包,并时刻追赶最前沿的技术。仅在2017年,基于流行的开源程序语言Python 的软件包,就多达36万5千次更新!

另外,数据科学家的工作需要使用弹性计算平台(云计算平台)来进行具体操作实验,譬如进行深度学习就需要配备GPU的高性能计算机。如果团队不能使用弹性计算和最前沿的工具,那么团队的效率会大大下降,研究进度会拖后,最终影响整个模型的开发进程。更糟糕的是,一些大公司(比如一家全球性的银行)的新的Python数据包审批速度太慢,导致数据科学家们最终悄悄地用私人电脑来工作。这种在没有IT部门明确审批的情况下,使用新工具的现象被称为“影子IT (shadow IT)”。

模型监管缺失

生产环境中的模型如果缺乏有效的管理和监控,最终可能会产生弊大于利的后果。如果你经常监管这种在使用的模型,那么你很有可能已经意识到了这一问题。一个没有严密监控或者被密切控制的模型可能对公司的业务产生很严重的后果,譬如公司规章被无视,营业收入受损失,品牌声誉被破坏。

举个例子,一家叫做 “Knight Capital Group”的公司,在一次模型更新失误之后,在45分钟内共损失了4.4亿美金。这虽然是一个很极端的情况,但是说明了公司必须持续评估和监控他们的模型,防止模型的误用,以及模型性能的退化。

案例链接:

https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/

如何克服这四大挑战决定了一家公司未来5到10年发展。如果你认为自己的公司在数据科学军备竞赛中落后了,不用过分担心,并不只有你的公司是这样:根据调查显示 46% 的公司被归入“落后”这一档,40%的公司被认为“有潜力”,只有14% 的公司在管理数据科学中显示出了他们的先进性。

所幸,为时未晚。为了评估和使用数据科学带来商业价值,公司必须构建一套围绕员工、技术、工作流程的连续有效的框架。那些把时间和精力放在这个框架上,并且把数据科学作为核心竞争力的公司,能够最终收获商业回报。譬如,Netflix把模型结合到每一个业务环节中。据估计,仅个性化推荐模型就让公司的价值上升了十亿美金

Netflix案例链接:

http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6

显而易见的是,应用数据科学产生成效并不容易。它必须克服一些明显的障碍。他们需要搞清楚怎么样开发和部署具有很大影响力的模型,并且真正地将数据科学与商业结合。最终能够克服这些困难的公司,才能够获得长久的竞争优势。


原文发布时间为:2018-06-23

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。

相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
大数据与机器学习:数字时代的强大动力
在当今数字化时代,数据已经成为了一项宝贵的资源,而大数据和机器学习则是将其转化为实际价值的关键工具。本文将探讨大数据与机器学习的关系,以及它们如何共同推动技术、企业和社会的发展。
|
7月前
|
人工智能 算法 安全
开源项目如何推进人工智能
人工智能(AI)是过去几年中发展最快的技术之一。基于人工智能的产品,如ChatGPT,在不到两个月的时间里积累了超过100亿用户,取得了破纪录的成功。开发基于人工智能的产品涉及使用多种软件工具,其中一些是开源的。
64 0
|
6月前
|
人工智能 自然语言处理 算法
开源与人工智能:现状与展望
开源与人工智能:现状与展望
88 0
|
机器学习/深度学习 人工智能 安全
数据科学和人工智能如何推动智慧城市目标
数据科学和人工智能(DSAI)正在改变数字领域。且随着DSAI能力变得越来越先进,组织需要重新思考其运营,并为自己配备相关的数字敏锐度。
102 0
数据科学和人工智能如何推动智慧城市目标
|
人工智能 算法 数据挖掘
零售行业商业智能和数据科学的发展趋势
零售行业的组织需要关注商业智能和数据科学的发展趋势,从中可以获取更多信息。
|
人工智能 算法 计算机视觉
一线专家谈2020年人工智能落地趋势
转眼间,2019年只剩下不到1个月了。人工智能的热度依旧,只是在资本市场,看空的投资人也越来越多了。从当年大数据的发展趋势看,这种情况反而对产业发展是有利的。因为这意味着,进入赛道的野蛮竞争玩家会越来越少。
900 0
一线专家谈2020年人工智能落地趋势
|
大数据 存储 调度
阿里巴巴大数据技术关键进展及展望
2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并列举了几个典型案例。
11874 0
阿里巴巴大数据技术关键进展及展望
|
大数据 Linux Apache
大数据从业者应该知道的开源工具(全)
前言 想要成为大数据工程师这些开源工具你要有所了解 一、Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号。
1068 0
|
机器学习/深度学习 人工智能 大数据