现在投身于计算机视觉是否明智?

简介: 2018年被很多人认为是人工智能元年,每个人都在谈论AI,高校创建人工智能学院,人工智能相关的创业公司如同雨后春笋一样,和AI相关的公众号、媒体也呈现喷发式的增长。不管懂或者不懂AI的人都在追捧AI,而计算机视觉(Computer Vision)作为人工智能里应用场景相对较为丰富的领域,更是令人趋之若鹜。很多非本方向的学生、工作人员都放弃了原本熟悉的行业转身投入到计算机视觉领域。这样做到底是否值得?计算机视觉前景到底如何?计算机视觉目前还面临哪些问题,本文谈一下个人看法,如有不同意见,欢迎讨论。

CV现状

10.jpg


CV方向现状:人才短缺,工程师过剩

目前在商业中有所应用,而且能够创收的只有搜索推荐和计算机视觉,因此,这两个方向的人力缺口很大,尤其是计算机视觉。前两年校招时可以看到,互联网、IT、生物医药、汽车安防等等行业,几乎都会有计算机视觉的岗位。所以,很多其他方向的同学开始纷纷转向,随着大潮流投入计算机视觉这个方向,为什么这么多人投入计算机视觉方向?我认为有以下几个原因:

  • 入门容易
  • 模型成熟
  • 人才缺口大
  • 热度高,名气大

其他的暂且不说,就着重的说一下入门容易和模型成熟这两点。

目前入门CV的常用套路就是:

  1. 看吴恩达《机器学习》《深度学习》课程,学一点机器学习的知识。
  2. 读几篇CV模型的文章,了解一下经典的Alexnet、R-CNN系列、YOLO等。
  3. 在github上找几个tensorflow、pytorch实现上述模型的开源代码。
  4. 下载VOC、ImageNet、COCO、kaggle等数据集。
  5. 按照开源代码中的Readme准备一下数据集,跑一下结果。

学了两个月、跑了几次结果后就认为已经入行CV了,其实就忽略了两个问题:

计算机视觉属于图像处理的范畴,而很多人却把它当成机器学习来看待

试问一下,有多少CV的从业者从头至尾深入的学习了图像处理方面的知识?现在有了深度学习,不需要人为提取特征了,所以很多人不再关注图像底层的信息,而是直接越过这个根基去搭建模型,我觉得这是一个误区。不同领域的图像,例如OCT、MR、遥感、自然图像等等,有着巨大的特征差异,对这些特征差异性都不了解,怎么在搭建模型之后对精度进行提升和改进呢?怎么在原来模型的基础上做一些改变呢?

因此,我认为好好学习一下图像预处理、后处理的知识对CV有着至关重要的作用,例如图像去噪、分割、增强、增广等等,但是很多人都欠缺这一块的知识。

计算机视觉的提升不在于搭建模型,而在于不断调优、改进过程中积累的经验

看过吴恩达课程的人,有的应该记得他在课里面说过"深度学习是一个基于经验的领域",我们该怎么针对不同领域的图像设置不同的参数?其中包括卷积核大小、网络架构、初始权重等等,不可能拿到一个模型,既适合医学图像,又适合人脸识别,这其中就需要n次从70%的精度调到95%以上中积累出经验,而很多CV从业者觉得搭建出模型就告一段落,反反复复用不同的方式去搭建模型,显示tensorflow搭建完用pytorch搭,pytorch完事后用mxnet再来一遍,Python搭完用c/c++搭,但是至始至终没再精度和经验方面做出前进。

此外,CV方向目前阶段依然存在着制约这项技术创造更多商业价值的弊端,虽然每年顶会、期刊上面关于CV的文章依然很多,但是绝大多数都是拼拼凑凑,很多模块和思想并不新颖,在关键问题方面并没有太大起色。

以CV为例说一下几项弊端:

无法做因果推理

图灵奖得主、贝叶斯网络之父Judea Pearl在arXiv上传了论文Theoretical Impediments to Machine Learning With Seven Sparks from the Causal Revolution,论述当前机器学习理论局限,并给出来自因果推理的7大启发。Judea Pearl指出,当前的机器学习系统几乎完全以统计学或无模型的方式运行,这对它的性能造成严重的理论限制,不能作为强AI的基础。他认为突破口在于“因果革命”,借鉴结构性因果推理模型,能对自动化推理做出独特贡献。

https://arxiv.org/abs/1801.04016

11.jpg


模型可解释性差

为什么深度学习效果好?学习率、权重衰减、卷积核尺寸这些超参数设置在多大合适?目前是没有合理的数学模型解释的。就是说,你沿着某个方向去调参,效果好坏是未知的。所以,现在深度学习还是一个经验积累占主导的方向。所以,吴恩达的课程《深度学习工程师》主要以“策略”为主,遇到什么样的情况该用什么“策略”解决,偏差、方差用什么“策略”均衡等等。

数据限制

人工智能的在某些领域的成功主要得益于数据的收集和算力提升。

计算机视觉50%,甚至60%、70%的时间都用在数据方面,

  • 数据准备
  • 数据增广
  • 数据去噪
  • 数据标注
  • ......

12.jpg


https://jamanetwork.com/journals/jama/fullarticle/2588763

尤其是数据准备过程,非常费劲,尤其是涉及到隐私的数据,记得之前做过一个医学图像识别的项目,前期一直想方设法和不同医院合作获取数据,等待了几个月才获得几十副图像,这对于传统目标识别也不够用啊!最后没办法,就在网上拼拼凑凑找了一些公开和付费的数据集,刚把环境配置好、模型跑通,这时Google在JAMA上发了一篇文章,和我们的方向一模一样,一下子给堵死了。看了那篇文章,Google在数据准备方面花费了8年时间,在不同国家同步进行采集,这对于一个小公司来说是望尘莫及的。

实用性差

目前人工智能很多技术都处于定制化阶段,远远达不到通用化程度。国内某些创业公司频频在CVPR、COCO等顶会、挑战赛露脸,看着实验对比数据精度方面的确非常不错。但是,真正应用时却不同了,效果非常局限。

首先,二维与三维的区别。拿计算机视觉来说,现实世界是三维空间,无论是人脸还是医学MR图像,而目前图像识别还仅限于二维空间,这在精度、安全性、空间信息等方面会做大量的妥协,所以,这就限制了它在一些要求严苛的应用场景的推广,比如医学诊断。

其次,动作与状态的区别。到实际应用中,仅仅识别出来这个人是谁、这个物体是什么是远远不够的。比如,做一个路面遗留物体的识别,这对于反恐这些场景有一些应用。目前目标识别算法能够识别出处于某种状态的一个物体,但是“遗留”是一个包含上下文信息的连续动作,这就需要其他的辅助算法,比如光流、视频分析等。

核心假设有问题

现有机器学习算法的核心假设是实例彼此独立,但是现实状态空间内,每个实例都与周围其他的实例存在一定的关联,含有一些复杂的连接信息,但是目前机器学习受限于它的核心假设,忽略了数据之间的依赖关系。

所以,我认为受限于因果推理、模型解释性、数据集、实用性、核心假设等方面的限制,CV看似繁荣也仅限于表面繁荣。机器学习这几年的确取得了显著的成果,但是这些成果主要应该归功于计算资源的快速发展(如GPU)和大量数据的收集。

理想很丰满

理想状态下人工智能的确很有价值,能取代很多人力劳动。但是“理想很丰满,现实却很骨感”,目前并没有想象的那么美好,比如在工业制造领域,AI的作用甚至可以忽略不计。人工智能之所以如此火热,无外乎是因为和利益挂钩了,学术上容易发文章、创业公司可以利用信息差骗取投资、大公司可以拿来做噱头捆绑销售。

因此,当进入企业之后会发现,纯CV算法工程师岗位并不多,而且早已达到饱和的状态,很多所谓的 AI工程师岗,日常工作中业务内容占的比重要远对于AI内容,有一些公司的AI工程师岗甚至让人怀疑“这和AI有什么关系?”

高端布局技术达不到,低端布局创造价值有限,作为商业公司,利润才是最终目标,谁也不会花大量资金去养一批仅仅会"调参""搭建模型"的算法工程师,就算是公司创始人有追求,那也得看投资者愿不愿意投资这种追求。

当然,开头提到了,虽然工程师过剩,但是人才是短缺的。如果真的对CV方向充满着浓厚兴趣,抛开经济和利益的因素,我是支持的。但是,如果仅是顺应趋势、赶上热潮,我认为不适合入门CV。因为,最大的泡沫期和红利期已经过去了。

结语

当然,虽然计算机视觉目前依然存在着很多弊端,制约着它在工业、医学等重要领域发挥更大的价值,但是已经在交通事件检测、车站检票、手机解锁、美颜相机等领域已经开始创造一些价值,或者做一些辅助决策。所以,它是有岗位空缺的,但是随着这两年媒体、投资机构的炒作,使得很多不明真相的人投入到这个领域,使得这个领域在出现大批量的从业人员,但是其中真正符合计算机视觉研发人员、能够利用计算机视觉知识针对特定场景提出解决方案,并开发出相应算法的人员却寥寥无几。就如同文章开头所说的那样"人才短缺,工程师过剩"。

因此,我对投身于计算机视觉领域的看法是:如果仅仅是抱着赶上AI的热潮,为了获取就业机会或者可观的薪资收入,我认为不适合。

相关文章
|
4月前
|
机器学习/深度学习 传感器 人工智能
探索深度学习在图像识别中的应用及其挑战
在人工智能的众多领域中,深度学习技术以其强大的数据处理和学习能力在图像识别任务上取得了显著成就。通过构建复杂的神经网络模型,深度学习能够自动提取高维数据中的关键特征,极大地提高了识别的准确性。然而,技术的迅速发展也带来了新的挑战,如模型的泛化能力、计算资源的需求以及对抗样本的防御等。本文将深入分析深度学习在图像识别领域的应用现状,探讨其面临的主要技术难题及未来发展趋势。
|
20天前
|
机器学习/深度学习 人工智能 算法
深度学习在计算机视觉中的突破与未来趋势###
【10月更文挑战第21天】 近年来,深度学习技术极大地推动了计算机视觉领域的发展。本文将探讨深度学习在图像识别、目标检测和图像生成等方面的最新进展,分析其背后的关键技术和算法,并展望未来的发展趋势和应用前景。通过这些探讨,希望能够为相关领域的研究者和从业者提供有价值的参考。 ###
39 4
|
18天前
|
机器学习/深度学习 PyTorch TensorFlow
深度学习在图像识别中的革命性应用
本文探讨了深度学习技术在图像识别领域中的应用,重点分析了卷积神经网络(CNN)的工作原理及其对图像处理的影响。通过对比传统图像识别方法和深度学习方法,展示了深度学习如何显著提高了图像识别的准确率和效率。文章还简要介绍了一些著名的深度学习框架,如TensorFlow和PyTorch,并讨论了它们在实际应用中的优势。
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在图像识别中的应用与挑战
【10月更文挑战第20天】 随着人工智能技术的不断发展,深度学习已经在许多领域展现出强大的应用潜力。本文将探讨深度学习在图像识别领域的应用,以及面临的挑战和可能的解决方案。通过分析现有的研究成果和技术趋势,我们可以更好地理解深度学习在图像识别中的潜力和局限性,为未来的研究和应用提供参考。
45 7
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习与计算机视觉的结合:技术趋势与应用
深度学习与计算机视觉的结合:技术趋势与应用
157 9
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
深度学习在图像识别中的应用与挑战深度学习在图像识别中的应用与挑战
【8月更文挑战第30天】本文深入探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过具体案例,揭示了深度学习如何革新图像处理和分析的方式,同时指出了数据偏差、模型泛化能力等关键问题,为未来研究提供了方向。
|
5月前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用
【5月更文挑战第50天】 随着人工智能技术的迅猛发展,深度学习已成为推动多个领域进步的关键力量。特别是在图像识别领域,深度学习模型如卷积神经网络(CNN)已表现出超越传统算法的性能。本文将探讨深度学习技术在自动驾驶系统中图像识别的实际应用,分析其在提高道路安全性和车辆自主性方面的潜力,并讨论面临的主要挑战及未来的发展方向。
|
5月前
|
机器学习/深度学习 人工智能 监控
深度学习在图像识别中的应用与挑战
【6月更文挑战第25天】 本文深入探讨了深度学习技术,尤其是卷积神经网络(CNN)在图像识别领域的应用及其面临的挑战。通过分析深度学习模型在处理复杂图像数据时的强大能力,以及在实际部署中遇到的困难,如过拟合、数据集偏差和计算资源限制,本文旨在为读者提供一个关于如何优化模型性能和克服技术难题的全面视角。
|
5月前
|
机器学习/深度学习 自动驾驶 数据可视化
深度学习在图像识别中的应用及挑战
本文深入探讨了深度学习技术在图像识别领域的应用,并分析了其面临的主要挑战。通过实例分析,揭示了深度学习如何革新了图像处理和模式识别的传统方法,以及在实际应用中遇到的困难和可能的解决方案。
30 0
|
6月前
|
机器学习/深度学习 边缘计算 算法
深度学习在图像识别中的应用及其挑战
【5月更文挑战第19天】 本文旨在探讨深度学习技术在图像识别领域的应用及其面临的主要挑战。通过分析当前流行的卷积神经网络(CNN)架构,并结合最新的研究进展,本文揭示了深度学习如何革新了传统的图像处理流程。同时,文章也指出了数据偏差、模型泛化能力不足以及计算资源消耗等关键问题,并对可能的解决方案进行了简要讨论。
44 4