机器学习应用行业浮躁、产品差?身为工程师的你是否想转行

简介: 十几个小时前,一位机器学习工程师在 reddit 上发帖求助:ML 领域浮躁、门槛低、产品差,无法专心做东西,该不该换个领域?帖子一经发布,立刻引起了大量讨论。

微信图片_20211130114110.jpg


该工程师如此描述他的问题:


在目前机器学习和深度学习炒作的背景下,大家对从事机器学习方面的工作(业界或学界)有何建议?


我在一家大型非技术公司做应用研究工程师。但最近几年 ML 在我心中逐渐失去了光芒——围绕着它的炒作给这个领域带来了大量噪音,对于真正关心科学的人来说这种状况太糟了。


我认为自己严谨应用机器学习的努力被浪费了,这让我的竞争力也变弱:管理层想要「深度学习」解决方案,当有人读了一篇博客、抛出一些不完备的训练数据和 Keras model.fit() 后,就声称问题解决了,可他们竟然很满意。我认为在这样的环境中我没法做机器学习,并且我们很难对抗深度学习「廉价、简单」这样的炒作(讽刺的是,简单的随机森林更简单而且效果也很好,但那不「性感」。我就曾遇到过明明用其它方法更简单有效,但非要用神经网络的情况)。我热爱机器学习,也希望看到大家都学习机器学习,但是低门槛导致将不好的模型卖给外行人的行为增加。


你们享受自己的机器学习生涯吗?我在考虑转行回到软件工程行业,或者换一家公司。可能我太暴躁或太追求完美了吧……有人有类似的想法吗?


(背景:计算机科学硕士学位,研究重点:机器学习。毕业后从事应用研究职位,软件工程和机器学习的工作内容各占一半。我不是特别优秀,但是我所在的公司没有 AI/ML 专家,因此我被当作这方面的专家。)


reddit 网友纷纷回应。


有很多人赞同帖主的看法:


@gerry_mandering_50


「管理层想要「深度学习」解决方案,当有人读了一篇博客、抛出一些不完备的训练数据和 Keras model.fit() 后,就声称问题解决了,可他们竟然很满意。」


这部分说得太对了。我经常看到有博主整个复制网上的教程代码,只有少量原创文字,而且不写出处(通常是生产软件的技术公司将这些原创教程发在软件网站上,这些教程常常过分简单化)。这些博主认为自己是数据科学和机器学习领域的专家,好像这些代码是自己写的似的。


管理层无法分辨,在他们看来所有事情似乎都很简单而且已经得到解决,那么为什么我们不可以这么做呢?因为这就是生产软件的科技公司设计教程的目的啊……


@thetall0ne1


网友 thetall0ne1 表示,「我在一家技术公司使用、售卖机器学习应用好多年了,有时也会感到厌倦。不过,我倒支持使用深度学习模型解决问题。因为我发现结果很好。上周,我测试了一个 logo 检测器,这是一个简单的计算机视觉掩码,非常好用。看一下 Gartner 的机器学习技术成熟度曲线,你就会发现到达稳定期就好了。」


而有网友针对技术成熟度曲线回应说,「我确信我们还没到达幻灭期。我认识的很多人(一些连计算机都不怎么会用)都开始讨论机器学习了。」


也有网友持反对意见,从企业和职业发展的角度展开了论述:


@Scortius


我的看法完全不同。


帖主在非技术公司工作,他们支付给你的是固定薪水。发工资的钱来自于售卖的产品。作为员工,你有责任为公司提供价值。除非你在研究机构工作,那你的主要工作将是通过提供增加利润的方式来挣工资。


「用正确的方式」做事是很重要,但我也在琢磨,一个未受培训的员工如何能进入公司,还仅使用 model.fit() 就为公司提供了更多价值。


你没有了解如何用正常的方法获取工资,公司只是想要投资有所回报。我的研究所也有你这样的人,大家都不愿意跟他们合作,因为工作最终要求的还是简单且富有成效的结果啊。你需要将对公司的回报展现出来,进而获取更多时间和自由度去更深入地解决问题。你不在技术公司工作的话,尤其应该如此。


如果你想有更多时间探索如何使用现代方法或更正式的方法,你要么通过按照我建议的方式提供价值进而获得这种自由,要么利用你在这家公司的经验去支持探索性或深入研究的公司或研究机构工作。工作就在那里,但是即使是在那些工作岗位上,你也必须展现出价值,才能挣得深入研究的权利。


在帖子中,很多网友对这波 AI 浪潮炒作进行了讨论,其中多次提到了 Gartner 技术成熟度曲线。


事实上,自 2015 年以来,机器学习/深度学习就一直处于巅峰状态,那一年也被标记为距离生产力高峰 2 - 5 年。


如果你看过 Gartner 2015 年技术成熟度曲线,准备等兴奋「不可避免地」消退时进入机器学习,那你今天可能还需要等待——再多等三年。


或许这个「永久巅峰」显示了技术成熟度曲线的局限性。但是这也表明机器学习/深度学习将继续存在处于热潮之中。


更多的证据来自我最近写的一份 HFS 研究报告,其中,根据福布斯发布的全球企业 2000 强(Global 2000),71 % 的数据科学决策者表示机器学习没有被夸大。


以下是四年的完整历史:


2015 Gartner 技术成熟度曲线


机器学习的技术成熟度曲线首次亮相略超过了期望膨胀顶峰期(Peak of Inflated Expectations)。它是否已经走向幻灭期(Trough of Disillusionment)?


微信图片_20211130114150.jpg


2016 Gartner 技术成熟度曲线


机器学习稍微向后移至顶峰,这绝不是走向低潮的迹象。


微信图片_20211130114153.jpg


2017 Gartner 技术成熟度曲线


深度学习到达顶峰,加入机器学习。


微信图片_20211130114155.jpg


2018 Gartner 技术成熟度曲线


微信图片_20211130114158.jpg


机器学习可能下滑了,但深度学习仍然位居顶峰。


深度学习还会面临技术成熟度曲线所暗示的那种强烈的预期修正吗?考虑到整个机器学习的应用状况,这似乎很难。HFS 研究调查中,86 % 的受访者认为这项技术正在对他们的行业产生影响。


其实,关于深度学习炒作的问题,从谷歌 AlphaGo 之后就从未断绝过,如今这种过度炒作对整个领域的影响已经显现出来:无论是学术研究还是在产业应用中。


而仅对工程师或者研究员来说,如何在 AI 泡破破裂时站稳脚跟是不得不考虑的问题。(推荐阅读:当 AI 泡沫破裂时……)微信图片_20211130092842.png


相关文章
|
13天前
|
机器学习/深度学习 人工智能 搜索推荐
【数据挖掘】2022年深信服科技机器学习工程师笔试
总结了深信服科技机器学习工程师笔试中的几道题目及其解答,涉及数据结构、机器学习评估指标和过拟合缓解方法等内容。
27 1
|
5天前
|
机器学习/深度学习 人工智能 大数据
基于联邦学习的数据隐私保护机制在智能模型训练中的应用
【8月更文第15天】随着大数据和人工智能的发展,数据隐私保护成为了亟待解决的问题。传统的集中式机器学习方法需要将数据收集到一个中心服务器进行处理,这不仅增加了数据泄露的风险,还可能触犯相关的法律法规。联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习框架,允许终端设备直接在本地数据上训练模型,并仅将更新后的模型参数发送给中心服务器汇总,从而在不暴露原始数据的情况下实现模型训练。
18 0
|
18天前
|
机器学习/深度学习 存储 人工智能
提升深度学习性能的利器—全面解析PAI-TorchAcc的优化技术与应用场景
在当今深度学习的快速发展中,模型训练和推理的效率变得尤为重要。为了应对计算需求不断增长的挑战,AI加速引擎应运而生。其中,PAI-TorchAcc作为一个新兴的加速引擎,旨在提升PyTorch框架下的计算性能。本文将详细介绍PAI-TorchAcc的基本概念、主要特性,并通过代码实例展示其性能优势。
17693 147
|
13天前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
23 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--代码生成技术
代码生成技术是人工智能与软件工程交叉领域的一项重要技术,它利用机器学习、自然语言处理和其他AI算法自动编写或辅助编写计算机程序代码。这一技术旨在提高编程效率、降低错误率,并帮助非专业开发者快速实现功能。以下是代码生成技术的概述及其典型应用场景。
16 6
|
11天前
|
机器学习/深度学习 算法 自动驾驶
探索机器学习在图像识别中的应用
【7月更文挑战第39天】 随着人工智能技术的飞速发展,机器学习已成为其最为活跃的研究领域之一。特别是在图像识别领域,机器学习技术的应用不仅推动了计算机视觉的进步,也为多个行业的发展提供了新的动力。本文将深入探讨机器学习在图像识别中的关键作用,分析当前流行的算法和模型,并通过实例展示如何利用这些技术解决实际问题。我们还将讨论面临的挑战及未来可能的发展方向,为读者提供一个全面而深刻的技术视角。
35 14
|
1天前
|
机器学习/深度学习 数据采集 人工智能
机器学习在金融领域的应用及其挑战
【8月更文挑战第18天】本文将探讨机器学习技术在金融行业中的运用,以及在实际应用过程中遇到的挑战和问题。我们将从算法选择、数据处理、模型解释性及伦理法规四个方面进行详细讨论,并给出相应的解决建议。
9 1
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇——3D生成技术
在Python中,人工智能(AI)与3D生成技术的结合可以体现在多个方面,比如使用AI算法来优化3D模型的生成、通过机器学习来预测3D模型的属性,或者利用深度学习来生成全新的3D内容。然而,直接通过AI生成完整的3D模型(如从文本描述中生成)仍然是一个活跃的研究领域。 3D生成技术是一种通过计算机程序从二维图像或文本描述自动创建三维模型的过程。这一技术在近年来得到了飞速的发展,不仅为游戏、动画和影视行业带来了革命性的变革,还在虚拟现实、增强现实以及工业设计等多个领域展现出了巨大的应用潜力
7 2
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】python之人工智能应用篇--游戏生成技术
游戏生成技术,特别是生成式人工智能(Generative Artificial Intelligence, 简称Generative AI),正逐步革新游戏开发的多个层面,从内容创作到体验设计。这些技术主要利用机器学习、深度学习以及程序化内容生成(Procedural Content Generation, PCG)来自动创造游戏内的各种元素,显著提高了开发效率、丰富了游戏内容并增强了玩家体验。以下是生成式AI在游戏开发中的几个关键应用场景概述
6 2
|
10天前
|
机器学习/深度学习 数据采集 算法
探索机器学习在金融风控中的应用与挑战
【8月更文挑战第10天】随着金融科技的迅速发展,机器学习技术被广泛应用于金融服务领域,尤其是风险控制。本文深入探讨了机器学习在金融风控中的角色,分析了其在信用评分、欺诈检测等方面的应用,并指出了实施过程中面临的数据质量、模型解释性、法规遵从等挑战。文章旨在为金融机构提供机器学习应用的参考框架和应对策略,以增强风险管理能力。
32 7