87%的机器学习项目失败的十大原因

简介: 组织需要经验丰富的真正数据科学家来处理大多数机器学习和人工智能项目,尤其是在定义成功标准、最终部署和模型的持续监控方面。

如今人们总是能听到有关机器学习的新闻,而机器学习技术确实有更多发展潜力。调研机构Gartner公司预测,对于很多组织来说,80%的人工智能项目仍是一种难以获得成功的炼金术。根据VentureBeat公司发布的“Transform2019”研究报告,87%的人工智能项目将永远无法投入生产。


为什么会这样呢?为什么这么多项目失败?


1.没有足够的专业知识


其中一个原因是,机器学习技术对人们来说仍然是新技术。此外,大多数组织仍不熟悉软件工具和所需的硬件。


如今,从事数据分析或软件开发工作并完成了一些数据科学项目的一些人却将自己标榜为数据科学家。


事实上,组织需要经验丰富的真正数据科学家来处理大多数机器学习和人工智能项目,尤其是在定义成功标准、最终部署和模型的持续监控方面。


2.数据科学与传统软件开发之间的脱节


数据科学与传统软件开发之间的脱节是另一个主要因素。传统的软件开发往往更具可预测性和可衡量性。


数据科学研究通过多次迭代和试验而向前发展。有时,由于选择的度量标准不会驱动用户行为,因此整个项目将不得不从部署阶段返回到计划阶段。


传统的基于敏捷的项目交付可能不适用于数据科学项目。对于在常规软件开发项目的每个任务周期结束时一直在努力交付清晰结果的领导者来说,这将造成大规模的混乱。


3.数据量和质量


众所周知,数据集越大,采用人工智能系统进行的预测就越好。除了数据量增加的直接影响之外,随着数据量的增加,还会出现许多新的挑战。


在许多情况下,组织将不得不合并来自多个源的数据。一旦开始这样做,就会意识到它们同步的次数很少,这将导致很多混乱。有时,组织最终将合并不应该合并的数据,这将导致数据点具有相同的名称但含义不同。


错误的数据会带来无法采取行动或无法提供真知灼见的结果,也会导致误导性结果。


4. 标记数据


标记数据的不可用是另一个阻碍机器学习项目的挑战。《麻省理工学院斯隆管理评论》杂志指出,76%的人通过尝试自己标记和注释训练数据来应对这一挑战,而63%的人甚至尝试构建自己的标记和注释自动化技术。


这意味着数据科学家在标记过程中无法充分利用其专业知识。这是有效执行人工智能项目的主要挑战。


这就是许多公司将标记任务外包给其他公司的原因。但是,如果标记任务需要足够的领域知识,则将标记任务外包是一个挑战。如果组织需要保持数据集之间的质量和一致性,则必须投资于标记人员的标准化培训。


如果要标记的数据很复杂,则另一个选择是开发自己的数据标记工具。但是,与机器学习任务本身相比,这通常需要更多的成本。


5.组织孤立无援


数据是机器学习项目中最重要的实体。在大多数组织中,这些数据将以不同的安全约束和不同格式(例如结构化、非结构化、视频文件、音频文件、文本和图像)驻留在不同的位置。


在不同的地方以不同的格式保存这些数据本身就是一个挑战。然而,当组织孤立无援而却没有相互协作时,其挑战就会加倍。


6.缺乏合作


另一个主要挑战是不同团队之间缺乏协作,如数据科学家、数据工程师、数据管理员、商业智能(BI)专家、DevOps和工程。这对于物联网到数据科学的工程方案中的团队尤其重要,因为他们在工作方式和完成项目所使用的技术上有很多不同。


工程团队将实施机器学习模型并将其投入生产。因此,他们之间需要有适当的理解和强有力的协作。


7.技术上不可行的项目


由于机器学习项目的成本往往非常昂贵,因此大多数企业倾向于以雄心勃勃的“登月计划”为目标,这将完全改变组织或产品并带来超额回报或投资。


这样的项目将永远无法完成,并将推动数据科学团队达到极限。最终,企业领导者将对项目失去信心并停止投资。


8.技术团队和业务团队之间的协调问题


很多时候,机器学习项目在业务团队和数据科学团队之间在项目的期望、目标和成功标准上没有明确的一致性。


这些类型的项目将永远停留在研究阶段,因为他们永远不知道自己是否正在取得进展,因为至今还不清楚其目标是什么。


在这里,数据科学团队将主要专注于准确性,而业务团队将对诸如财务收益或业务洞察力之类的指标更感兴趣。最后,业务团队最终不接受数据科学团队的结果。


9.缺乏数据策略


根据《麻省理工学院斯隆管理评论》杂志的调查,员工人数超过10万名的大型组织将有50%可能采用数据策略。而组织在开始机器学习项目之前制定可靠的数据策略至关重要。


组织需要对以下内容有清晰的了解,这是数据策略的一部分:


  • 组织拥有的全部数据是多少?
  • 项目实际需要多少数据?
  • 所需的人员将如何访问这些数据,以及这些人员访问这些数据的容易程度?
  • 如何将来自不同来源的所有这些数据汇总在一起?
  • 如何清理和转换这些数据?


大多数组织一开始没有计划,或者根本没有想到自己没有数据。


10.缺乏领导支持


很多人认为,只需要投入一些资金和技术来解决问题,其结果就会自动出现。


但是他们没有看到组织领导者提供正确的支持来确保成功所需的条件,而组织领导者有时对数据科学家开发的模型没有信心。


这可能是由于组织的领导者对人工智能缺乏了解,以及数据科学家无法向他们传达模型具有业务利益的原因。


最终,组织的领导者需要了解机器学习的工作原理以及人工智能对组织的真正意义。


相关文章
|
7月前
|
机器学习/深度学习 人工智能 前端开发
机器学习PAI常见问题之web ui 项目启动后页面打不开如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
7月前
|
机器学习/深度学习 数据采集 监控
大模型开发:描述一个典型的机器学习项目流程。
机器学习项目涉及问题定义、数据收集、预处理、特征工程、模型选择、训练、评估、优化、部署和监控。每个阶段都是确保模型有效可靠的关键,需要细致操作。
85 0
|
7月前
|
TensorFlow 算法框架/工具 开发工具
使用 TensorFlow 构建机器学习项目:6~10(3)
使用 TensorFlow 构建机器学习项目:6~10(3)
53 0
|
28天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
72 1
|
3月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
109 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
4月前
|
机器学习/深度学习 人工智能 数据处理
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
探测外太空中的系外行星是天文学和天体物理学的重要研究领域。随着望远镜观测技术的进步和大数据的积累,科学家们已经能够观测到大量恒星的光度变化,并尝试从中识别出由行星凌日(行星经过恒星前方时遮挡部分光线)引起的微小亮度变化。然而,由于数据量巨大且信号微弱,传统方法难以高效准确地识别所有行星信号。因此,本项目旨在利用机器学习技术,特别是深度学习,从海量的天文观测数据中自动识别和分类系外行星的信号。这要求设计一套高效的数据处理流程、构建适合的机器学习模型,并实现自动化的预测和验证系统。
74 1
【人工智能】项目实践与案例分析:利用机器学习探测外太空中的系外行星
|
4月前
|
机器学习/深度学习 数据处理 定位技术
构建您的首个机器学习项目:从理论到实践
【8月更文挑战第28天】本文旨在为初学者提供一个简明的指南,通过介绍一个基础的机器学习项目——预测房价——来揭示机器学习的神秘面纱。我们将从数据收集开始,逐步深入到数据处理、模型选择、训练和评估等环节。通过实际操作,你将学会如何利用Python及其强大的科学计算库来实现自己的机器学习模型。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你打开一扇通往机器学习世界的大门。
|
4月前
|
机器学习/深度学习 数据可视化 数据处理
Python vs R:机器学习项目中的实用性与生态系统比较
【8月更文第6天】Python 和 R 是数据科学和机器学习领域中最受欢迎的两种编程语言。两者都有各自的优点和适用场景,选择哪种语言取决于项目的具体需求、团队的技能水平以及个人偏好。本文将从实用性和生态系统两个方面进行比较,并提供代码示例来展示这两种语言在典型机器学习任务中的应用。
97 1
|
5月前
|
机器学习/深度学习 数据处理 Python
机器学习实战:房价预测项目
【7月更文挑战第13天】本文详细介绍了基于机器学习的房价预测项目的实战过程。从数据准备、特征工程、模型构建到结果评估,每一步都至关重要。通过合理的特征选择和模型优化,我们可以构建出性能优异的房价预测模型,为房地产行业的决策提供有力支持。未来,随着机器学习技术的不断发展和应用场景的不断拓展,房价预测模型将更加智能化和精准化。
|
6月前
|
机器学习/深度学习 API 索引
机器学习项目实践-基础知识部分
创建Python隔离环境使用`python -m venv`命令,如`python -m venv ml`来创建名为`ml`的虚拟环境。激活环境通过`.\<Scripts>\activate`(Windows)。然后可以使用`pip`安装库,如`numpy`、`pandas`、`matplotlib`和`jupyter notebook`。在虚拟环境中,`numpy`是用于数组计算的库,支持数学操作和绘图。`pip install`命令后面可添加`-i Simple Index`指定索引源。完成安装后,激活环境并启动`jupyter notebook`进行开发。