机器学习在商业领域大有作为,但还需要跨过数据和政策的难关

简介: 基于数据分析的机器学习(ML)正在重写企业处理数据的规则。机器学习和分析的研究已经在数据科学家的帮助下将大量数据形式转化成分析规则。现在,机器学习已经进入商业世界。

基于数据分析的机器学习(ML)正在重写企业处理数据的规则。机器学习和分析的研究已经在数据科学家的帮助下将大量数据形式转化成分析规则。现在,机器学习已经进入商业世界。但是,大多数公司并没有真正了解机器学习如何给他们的商业方式带来变化——或者如何改变组织在这个过程中的形态。公司希望通过机器学习进行流程自动化或完成数据驱动的任务来提高人的能力。而且,通过机器学习,企业也有可能变成供应商——从他们自己庞大的数据存储库中吸取经验教训,并将其授权给软件和服务提供商。

但是,实现这一目标将取决于未来5年机器学习能力的发展,以及这一进化对今天的长期招聘策略的影响。在无人监督的机器学习中,系统得到了大量的数据集,并且希望在没有人类的帮助下弄清楚自己需要寻找什么。

宝洁公司商业智能和分析服务总监 David Dittman 解释说,自己与其他大型美国公司面临的分析难题是“他们正在被‘机器学习和分析’技术所吸引,而不了解他们必须‘为它’建立基础,因为很艰难,很昂贵,而且需要远见。“ 相反, Dittman 说,公司错误地认为机器学习能够满足他们的愿景:“我不能让人工智能告诉我答案吗?”问题在于“人工智能”并没有真正发挥他们想要的作用。

机器学习目前分为两大类:监督和无监督。如果没有坚实的数据基础,这两种方式都不可行。

打破训练

观点 | 机器学习在商业领域大有作为,但还需要跨过数据和政策的难关

Yisong Yue是加州理工学院计算和数学的助理教授,他认为无人监督的机器学习在放射影像中诊断癌症等领域具有巨大的应用前景)

有监督的机器学习要求人类创建训练数据集,并验证训练的结果。加州理工学院的计算机和数学助理教授Yisong Yue解释说,语音识别是这方面的一个主要例子。“语音识别是在高度监督的方式下进行的,”Yue说。“你要从庞大的数据开始,先让人们说出某些特定的句子。”

但 Yue 说,收集并将足够的数据进行分类以此来监督训练是很有挑战性的。“想象一下,用各种各样的方式说出这些句子是多么的昂贵。数据科学家们需要对这些东西进行注释,这对于你想要解决的每一个任务来说都是无法扩展的。有监督的机器学习有一个基本的限制。”

无监督的机器学习减少了这种相互作用的影响。数据科学家选择一个大概的数据集,并且告诉软件找到其中的模式,不需要人首先弄明白软件需要寻找什么。由于需要的人工任务非常少,所以没有监督的机器学习(特别是在人工工作负载方面)的可伸缩性要高得多。但是,“无监督”一词可能会产生误导,其实数据科学家还是需要选择数据来进行检查。

Forrester Research 副总裁兼高级分析和机器学习首席分析师 Mike Gualtieri 说:“无人监督的机器学习软件被要求发现可能有用的数据集群,而人类则分析这些数据,并决定下一步做什么。”人们仍然需要对软件创建的数据分组进行分析。

但无人监督的机器学习的收益可能会更广泛。例如, Yue 说,无监督学习可能会在诸如癌症诊断等医疗任务中得到应用。他解释说,标准的诊断工作包括进行活体检查并将其送到实验室。问题在于,活组织检查本身就是人力密集型的分析工作 ,耗时且昂贵。当医生和患者需要立即知道是否是癌症时,等待活检结果可能会有医疗风险。今天,一位放射科医生通常会观察组织,他解释说,“放射科医师会做出一个预测——包含癌变组织的可能性。”

“有了足够大的训练数据,这可能是一种监督机器学习的应用,”Yue说。“假设我们取了这个数据表——组织的图像和活检结果——然后进行了监督的ML分析。“这将是一种劳动密集型的工作,但它可以检测到活检呈阳性的图像的相似性。

但是,Yue问道,如果把这个过程当做一个没有监督的学习努力,又该怎么办呢?

“假设我们有一个图像数据集,但我们没有活检结果,我们可以用它来确定我们可以用集群来预测什么。”假设样本数为1,000。软件会对图像进行分组,并寻找所有的相似点和不同点,这是基本的模式识别。“假设它找到了10个这样的簇,假设我只能承受10次活组织检查。”我们可以选择从每一个集群中测试一个,”Yue说。“这只是一系列步骤中的第一步,当然,这是对多种癌症的研究。”

导师与决策者

雷锋网了解到,无人监督的学习仍然需要人为其发现的数据集群或模式进行评价,它目前更适合通过突出显示可能感兴趣的数据模式来提高人类的表现。但是,有些地方可能很快就会由数据的质量和数量来改变。

 Dittman 说:“我认为,现在人们正在大步跨入自动化,但是人们应该把注意力集中在扩大现有的决策过程上,”“5年后,我们将拥有合适的数据资产,然后你将需要更多的自动化和更少的扩充。”但现在还不是时候。今天,机器学习缺乏可用的数据。它不够细分,宽度上也不够。”

即使机器学习的数据分析变得更加复杂,但我们还不清楚它会怎么改变公司 IT 组织的架构。 Forrester 的 Gualtieri 预计,从现在起五年后,数据科学家的需求就会减少,这种情况就和网页开发人员类似。1995年对网页的Web开发人员的需求远远超过2000年,因为许多网页功能都是自动化并作为模块化脚本出售。他表示,机器学习也可能出现类似的转变,因为软件和服务提供商开始向商业机器学习平台提供应用程序编程接口。

 据雷锋网了解,Gualtieri 预计,企业的“构建或购买”模式将会发生一个简单的变化。他解释说:“今天,你将会做出一个决定,雇佣更多的数据科学家。”随着这些api进入市场,它将转向“购买”,而不是“构建”。他补充说,“我们现在看到了这种情况的开始。”其中有几个例子是“Clarifai”,它是一家位于纽约的初创公司,可以通过视频搜索特定的时刻,比如观看数千个婚礼视频,学习交换戒指的仪式,或者“你可以亲吻新娘”,从图像中确定某人的情绪。

 Dittman 同意 Gualtieri 的观点,公司可能会创建许多专门的脚本来进行机器学习任务的自动化。但他不同意这将导致五年内计算机科学工作的减少。

 Dittman 解释说:“如果你看一下实践数据科学家的数量,那将会大幅增加,但它将会比技术的数字化要慢得多,因为机器学习会进入越来越多的空白领域。“考虑开放源代码趋势,数据科学家工具从代码生成到代码重用,从而开始变得更加容易和易用。

加州理工学院的 Yue 认为,数据科学家的需求将继续上升,因为机器学习的成功将会有更多的机器学习尝试。随着技术的进步,他解释说,越来越多的企业单位将能够利用机器学习,这意味着需要更多的数据科学家来编写这些程序。

从消费者到提供者

推动数据科学家持续需求的部分原因是对数据的渴求,使其更有效。 Gualtieri 看到了一些企业——大约5年之后,也将扮演供应商的角色。他说:“波音可能会成为特定领域机器学习的供应商,并将这些模块卖给那些可能成为客户的供应商。”

宝洁公司的 Dittman 认为,分析数据的两端都是数据,而代码则是高销售的,这可能是企业的一个新的主要收入来源。他解释说:“公司将开始从数据中获利。”“数据行业将会爆炸。数据绝对是爆炸式增长,但缺乏数据策略。获得业务案例所需的正确数据,这往往是一个挑战。”

但 Yue 有不同的顾虑。他说:“五年后,机器学习自然会与法律问题相冲突,我们对歧视,受保护的阶级有很严格的法律。“如果你使用数据算法来决定向谁贷款,你怎么知道这不是歧视性的?这是政策制定者的一个问题。”

 Yue 提供了一个软件的例子,该软件发现了消费者贷款拖欠和那些白人消费者之间的相关性。该软件可以扫描每个客户的眼睛颜色,并使用这些信息来决定是否批准贷款。“如果一个人做出了这个决定,就会被认为是歧视性的,” Yue 说。

这个法律问题说明了数据分析师在无监督机器学习中的核心作用。该软件的工作是找到链接,但它表面上是人来决定如何处理这些链接。不管怎样,人力资源部门需要在相当长的一段时间内招募更多的数据科学家。




本文作者:李雨晨
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
7天前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
15 2
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
29天前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
37 3
|
30天前
|
机器学习/深度学习 算法 Python
“探秘机器学习的幕后英雄:梯度下降——如何在数据的海洋中寻找那枚失落的钥匙?”
【10月更文挑战第11天】梯度下降是机器学习和深度学习中的核心优化算法,用于最小化损失函数,找到最优参数。通过计算损失函数的梯度,算法沿着负梯度方向更新参数,逐步逼近最小值。常见的变种包括批量梯度下降、随机梯度下降和小批量梯度下降,各有优缺点。示例代码展示了如何用Python和NumPy实现简单的线性回归模型训练。掌握梯度下降有助于深入理解模型优化机制。
27 2
|
2月前
|
机器学习/深度学习 数据采集 监控
探索机器学习:从数据到决策
【9月更文挑战第18天】在这篇文章中,我们将一起踏上一段激动人心的旅程,穿越机器学习的世界。我们将探讨如何通过收集和处理数据,利用算法的力量来预测未来的趋势,并做出更加明智的决策。无论你是初学者还是有经验的开发者,这篇文章都将为你提供新的视角和思考方式。
|
1月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
31 0
|
2月前
|
机器学习/深度学习 数据采集 算法
利用未标记数据的半监督学习在模型训练中的效果评估
本文将介绍三种适用于不同类型数据和任务的半监督学习方法。我们还将在一个实际数据集上评估这些方法的性能,并与仅使用标记数据的基准进行比较。
202 8
|
1月前
|
机器学习/深度学习 算法 数据建模
【机器学习】类别不平衡数据的处理
【机器学习】类别不平衡数据的处理
|
3月前
|
监控 数据安全/隐私保护 异构计算
借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
【8月更文挑战第8天】借助PAI-EAS一键部署ChatGLM,并应用LangChain集成外部数据
91 1
|
3月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
90 2

热门文章

最新文章