机器学习时代的到来,企业该如何驾驭

简介: 随着机器学习受到的关注和应用越来越多,作为一个想成为机器学习的公司,该如何做呢?本文从不同的方面详细介绍了一个机器学习公司应当做哪些准备。

为了成为一个机器学习公司,你需要工具和流程去克服数据、工程和模型方面的挑战。

在过去的这些年,为了构建基础设施,数据社区专注于聚集和收集数据,并使用数据来改进决策。我们现在可以看到,对先进的分析和机器学习的兴趣在许多行业的垂直方领域上激增。

在这篇文章中,分享了我去年9月在纽约Strata Data 公司发布的一篇演讲中的幻灯片和笔记,为大家提供一些对增公司机器学习能力的建议。这些信息来自于在许多不同的问题领域中,应用机器学习的前沿的实践者、研究人员和企业家的对话。

 

 

a1515eb51ed5c862b8cba22fc6c0ab6f6dcf83be

其他技术或方法一样,一个成功的机器学习项目从确定正确的用例开始。例如,机器学习推荐和减少客户流失的应用有很多,但对于应用程序来说,一个有用的分类有如下几点:

1.提高决策的应用程序

2.改进商业运营的应用程序

3.产生收入的应用程序

4.可以帮助预测或防止欺诈或风险的应用程序

7023dbc391dbfa3e8a2a05f2c2fde01e8d0f2a84 

 

为了成为一个“机器学习公司”,当你开始构建模型时,首先你要熟悉你将要面对的关键障碍是什么。如果你咨询主要的从业者,通常会有三件事:

1.数据:现在大多数应用都依赖于监督学习,所以一切都从质量良好的标记(训练)数据集开始。

2.工程:你如何使用一个原型并生产它?在部署到生产环境之后,如何监视模型?

3.模型:虽然现代的机器学习库使更容易将模型与的数据匹配,但仍然存在些挑战

在这篇文章的剩余部分,我将讲解如何面对这些挑战。

 

47504e7d569fe2fd6791a1e630aba526407620e5 

 

在构建用于训练机器学习模型的标记数据集时,使用已访问的数据非常重要。随着新的数据源不断地出现在网络上,对大多数公司来说,数据集成是一项正在进行的工作——你目前对数据基础设施的投资甚至可以让你获得足够的数据来启动。还可以使用公开的(开放的)数据或可以从第三方提供商购买的数据来丰富现有的数据集。

a62c537f87364fa820ddb89d533d394489004806 

 

好消息是机器学习社区意识到训练数据是一个主要的瓶颈。所以研究人员一直致力于那些让你从较少的训练数据(弱监督)开始或者允许将一个问题中得到的知识用于另一个环境(转移学习)的研究。

475256acbd8017620c50c44e459f8cb2832b95f7 

随着数据越来越重要,有一些初创公司和公司在探索数据交换。数据交换使组织可以在保护隐私和机密的同时共享一些数据。同时,也有一些类似的研究,致力于开发安全的机器学习算法。在消费者金融领域存在应用欺诈检测,例如,如果隐私和安全能够得到保证,那么在机密数据上共享学习可能是有价值的。

d0805595a65c40f326bb4c89b3fcdcdf05e3433e 

今年早些时候,我们观察到,公司开始在构建机器学习模型和监控他们的行为方面创造了一个新的角色。但是机器学习工程师的新角色真的是必要的吗?

666cb14ffba69fc9af7e814e0e3ca1c1313801d7 

对于越来越多的公司来说,答案是:是的,这样的专家很需要。如果创建了一个需要知道的关于生产和监控模型的清单,那么将得到一组广泛的工具和技术。

1680f1c317210328a485089dc89f63e83f7fb556 

机器学习的研究正在飞速发展。公平地说,大多数公司都无法跟上研究人员发布的所有新技术和新工具。想象以下的实验:在接下来的五年里,进展会停滞不前(非常不可能,自我幽默一下)。我认为,有足够的工具可以让公司在很长一段时间里保持忙碌。

d27a3f366db8c213f46e45739c5e2b61702456c0 

 

学习,一种已经成功应用于计算机视觉和语言问题的技术。大多数公司仍处于将深度学习应用于熟悉的数据类型(文本、时间序列、结构化数据)或使用它来替换现有模型(包括它们当前推荐系统)的早期阶段。我希望在接下来的几年里能看到许多有趣的,涉及到深层神经网络(DNN)的案例研究,。

464f994b1e6fec76c68c1395bc5df73ced7a19dd 

随着关于深度学习的所有激动人心的一面,我们有时会忘记有很多有趣的,不依赖于神经网络的新数据应用。

随着模型被推向先进设备,我对最近在协作学习方面的工作感到兴奋。展望人工智能,在线学习和持续学习的工具将是必不可少的。

 

f06bfb3ed1ddf00f8751a4b325212f138d8bee41 

数据社区开始认识到,除了优化定量或业务指标之外,还需要更多的模型。模型是否强大到能抵御对抗性攻击?在某些应用程序模型中必须是可解释和可理解的。

公平:你了解你的训练数据的分布情况吗?如果你不了解,请注意过去的忽视可能会导致未来的忽视。

透明度:随着机器学习变得越来越流行,用户对那些被最优化的计量机构的了解和发言权越来越感兴趣。 

 

尽管近年来这一领域取得了很大进展,但研究人员和理论家们仍不清楚这一点。我们仍然处在一个“试错”的时代。深度学习可能减少了对人工特征工程的需求,但是仍然有很多决策倾向于建立一个DNN(包括网络架构和许多超参数的选择)。

 

a017e22a3bc7f6abfcf2af71a22e9a8bb9b14c90 

 

我们可以把模型构建看作是探索机器学习算法的空间。企业需要能够以一种有原则和高效的方式进行探索。这意味着维护可重复的管道,从实验中节省元数据,协作工具,并利用最近的研究成果。

50146922e1ad538d903425ffcf481777f2b7137b 

 

那么,公司在做什么来让这种探索成为可能呢?大多数机器学习都需要标记(训练)数据,因此任何平台都从输入数据存储系统的强大数据管道开始,数据科学家和机器学习工程师可以访问这个数据存储系统。对于所有公司来说,数据集成是一项重要的、持续的练习。

 

公司还允许数据科学家共享特征和生成这些特征的数据管道。让你了解特性的相对重要性:让公司告诉你他们使用的是什么算法通常会容易得多;而要让他们描述什么对他们的模型是最重要的,则困难得多。

 

领先的公司让他们的数据科学家使用几个机器学习库。强迫你的数据科学家使用一两个“开发中的”库是很疯狂的。他们需要能够进行实验,这可能意味着让他们使用各种各样的库。

 

有些公司为生产机器学习模型提供工具,并在部署后监控它们。公司还在使用开源技术构建自己的部署和监控工具。如果正在寻找一个用于模型部署和监控的开源工具,Clipper是加州大学伯克利分校的崛起实验室的一个新项目,它现在可以让轻松地部署使用几个流行的机器学习库编写的模型。更重要的是,Clipper团队很快就添加了模型监控。(几家公司将在2018年3月的Strata Data San Jose,描述他们如何实现模型部署和监控)。

 

要成为一个“机器学习公司”,你需要工具和流程来克服数据、工程和模型方面的挑战。公司刚刚开始在他们的产品中使用和部署机器学习。工具仍在不断完善,最佳实践才刚刚开始出现。

 

 

作者介绍:Ben Lorica O'Reilly Media的首席数据科学家,同时也是Strata Data 会议和O'Reilly Artificial Intelligence 会议的项目负责人。

f26244e57a1ff03663564385729fef0668d78ecd 

 

原文网址:

https://www.oreilly.com/ideas/how-companies-can-navigate-the-age-of-machine-learning

 

相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习新纪元:用Scikit-learn驾驭Python,精准模型选择全攻略!
在数据爆炸时代,机器学习成为挖掘数据价值的关键技术,而Scikit-learn作为Python中最受欢迎的机器学习库之一,凭借其丰富的算法集、简洁的API和高效性能,引领着机器学习的新纪元。本文通过一个实际案例——识别垃圾邮件,展示了如何使用Scikit-learn进行精准模型选择。从数据预处理、模型训练到交叉验证和性能比较,最后选择最优模型进行部署,详细介绍了每一步的操作方法。通过这个过程,我们不仅可以看到如何利用Scikit-learn的强大功能,还能了解到模型选择与优化的重要性。希望本文能为你的机器学习之旅提供有价值的参考。
52 0
|
4月前
|
机器学习/深度学习 自然语言处理 数据挖掘
机器学习不再是梦!PyTorch助你轻松驾驭复杂数据分析场景
【7月更文挑战第31天】机器学习已深深嵌入日常生活,从智能推荐到自动驾驶皆为其应用。PyTorch作为一个开源库,凭借简洁API、动态计算图及GPU加速能力,降低了学习门槛并提高了开发效率。通过一个使用PyTorch构建简单CNN识别MNIST手写数字的例子,展现了如何快速搭建神经网络。随着技能提升,开发者能运用PyTorch及其丰富的生态系统(如torchvision、torchtext和torchaudio)应对复杂场景,如自然语言处理和强化学习。掌握PyTorch,意味着掌握了数据时代的关键技能。
36 1
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
机器学习新纪元:用Scikit-learn驾驭Python,精准模型选择全攻略!
【7月更文挑战第25天】在数据驱动的世界中, Scikit-learn作为顶级Python机器学习库,助力挖掘数据价值。本文以垃圾邮件识别为例,展示了其高效模型选择流程:从文本预处理至模型优化。使用TfidfVectorizer转换邮件文本,并通过Pipeline集成MultinomialNB分类器。通过GridSearchCV进行参数调优与交叉验证,评估不同模型(如随机森林)的表现,最终选定最佳模型。Scikit-learn简化了这一复杂过程,使其成为现代数据科学的必备工具。
58 2
|
4月前
|
机器学习/深度学习 数据采集 人工智能
ERP系统中的人工智能与机器学习应用:提升企业智能化管理
【7月更文挑战第29天】 ERP系统中的人工智能与机器学习应用:提升企业智能化管理
565 0
|
6月前
|
机器学习/深度学习 Cloud Native 持续交付
构建高效机器学习模型的策略与实践构建未来:云原生技术在企业数字化转型中的关键作用
【4月更文挑战第30天】 在机器学习领域,构建一个高效的模型不仅需要深厚的理论基础,还需结合先进的技术手段和策略。本文将探讨一系列提升模型性能的方法,包括数据预处理、特征选择、模型调参以及集成学习等。通过具体案例分析,揭示这些方法如何在实际问题中得以应用,并讨论它们对模型性能的影响。文中还将涉及最新的研究进展,为读者提供前瞻性的指导意义。 【4月更文挑战第30天】随着企业加速其数字化转型之旅,云原生技术已成为推动创新和灵活性的核心。本文深入探讨了云原生架构的原则,包括微服务、容器化、持续集成/持续部署(CI/CD)、以及声明式APIs。分析了这些技术如何共同促进可伸缩性、敏捷性和容错性,同时
|
对象存储 机器学习/深度学习 存储
大语言模型一键转存到OSS并挂载PAI实现企业知识库
本文介绍如何实现一键转载主流的大语言模型到自己的对象存储OSS空间中,然后再挂载到PAI-DSW实现多种模型切换测试知识库的效果。
大语言模型一键转存到OSS并挂载PAI实现企业知识库
|
机器学习/深度学习 人工智能 监控
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读
AI:Algorithmia《2020 state of enterprise machine learning—2020年企业机器学习状况》翻译与解读
|
文件存储 数据库 存储
大语言模型转存至NAS并挂载到PAI-DSW构建企业专属知识库
介绍如何将模型库的大语言模型转载到文件存储NAS,并挂载到PAI-DSW,利用Langchain构建可更换大语言模型的企业专属知识库。
|
机器学习/深度学习 SQL 人工智能
AI:Algorithmia《2021 enterprise trends in machine learning 2021年机器学习的企业趋势》翻译与解读
AI:Algorithmia《2021 enterprise trends in machine learning 2021年机器学习的企业趋势》翻译与解读
AI:Algorithmia《2021 enterprise trends in machine learning 2021年机器学习的企业趋势》翻译与解读
|
机器学习/深度学习 人工智能 运维
最新活动!机器学习PAI:企业AI加速计划(第一期)
最新活动,企业AI加速计划开启!两大权益等您来领: 1)参加PAI-DSW闭门直播课; 2)价值500元的PAI-DSW产品代金券

热门文章

最新文章