预测知识 | 机器学习预测模型局限性

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
简介: 预测知识 | 机器学习预测模型局限性

预测知识 | 机器学习预测模型局限性

@TOC

问题描述

  • 数据基础设施:要构建模型,必须有数据,且有多来源的大数据。这一切都离不开数据基础设施的建设和发展。
  • 错误数据输入:数据质量是任何分析的基石,如果数据的数据质量很差甚至错误,那么得到的结果也将是不可靠或错误的,正所谓garbage in,garbage out!因此,高质量数据来源是人工智能研究的基础。
  • 数据漂移:这指的是用来决策的数据和模型训练的数据存在很大差异。可想而知,这种情况下模型性能势必不佳。数据飘移包括如下几种,1)协变量漂移,指的是预测因素在两个数据集上分布差异很大;2)先验概率漂移,指的是两个数据集上结局发生率不同;3)概念漂移,指的是协变量和结局之间的关系随时间而变化。因此,要使构建的模型好,一定要解决数据漂移问题,这也是为什么研究论文中,需要开展训练集和测试集比较的原因所在(备注:期望结果是,训练集和测试集不存在差异)。
  • 缺乏外部验证:目前研究文献中所构建的预测模型,绝大多数仅做了内部验证,而缺乏有效的外部验证。原因很简单,数据比较难获取罢了。但是外部验证这个东西,也是一个相对宽泛的概念,其包括了同一个队列非同一时段的时间外部验证,也包括不同队列来源的验证。所以,在数据有限时,不妨试试时间外部验证。
  • 有限的泛化能力:泛化能力指的是模型在应用到新数据集时的表现。尽管现在很多文献,包括顶刊发表的模型,其报告的性能很高,但是泛化能力却不得而知。尤其是模型构建时,受限于研究数据,其仅代表了当时背景下的人群特征,一旦泛化到更一般人群时,其模型预测效果可能大打折扣。
  • 模型黑盒问题:当下算力越来越快,模型越来越复杂。在人工智能研究中,你可能很难找到类似线性回归、决策树这种易于理解的小而简的模型了。事实上正是如此,越来越多研究追求大而复杂的模型,旨在提高预测效果。但是,一个不可避免的问题就是,模型可解释性很差。关于如何解决该问题,也衍生出一门学问,即可解释性机器学习。

image.png

未来发展

机器学习作为人工智能领域的重要分支,在未来发展方面有许多潜力和趋势。

  • 深度学习的进一步发展:深度学习已经在图像识别、语音识别、自然语言处理等领域取得了巨大成功。未来,深度学习模型的架构和算法可能会进一步改进,以提高模型的性能和效率。

  • 迁移学习和增强学习的应用扩展:迁移学习和增强学习是机器学习中的重要技术,用于在不同任务和环境中进行知识迁移和决策优化。未来,这些技术可能会在更广泛的应用领域得到应用,例如自动驾驶、智能机器人等。

  • 解释性机器学习和可解释性人工智能:随着机器学习模型的复杂性增加,解释性机器学习和可解释性人工智能变得越来越重要。未来,研究人员可能会更加关注如何解释和理解机器学习模型的决策过程,以及如何提高模型的可解释性和可信度。

  • 自动化机器学习:自动化机器学习旨在简化机器学习的流程,使非专业人士也能够轻松应用机器学习技术。未来,自动化机器学习工具和平台可能会进一步发展,提供更智能、高效的模型选择、特征工程和超参数调优等功能。

  • 联邦学习和隐私保护:联邦学习是一种分布式学习方法,可以在保护数据隐私的同时进行模型训练与更新。随着对数据隐私的关注增加,联邦学习和隐私保护技术可能会在未来得到更广泛的应用。

  • 结合领域知识的机器学习:结合领域知识和机器学习技术可以提高模型的性能和鲁棒性。未来,研究人员可能会更加关注如何将领域知识融入到机器学习模型中,以提高模型的学习能力和泛化能力。

  • 可持续性和公平性的机器学习:可持续性和公平性是未来机器学习发展中的重要议题。研究人员和从业者可能会更加关注如何构建可持续和公平的机器学习模型,避免模型的偏见和歧视。

需要注意的是,以上只是一些可能的未来发展方向,随着科技的不断进步和应用需求的变化,机器学习的发展将是一个不断演化和创新的过程

参考资料

[1] Reference: Development and validation of predictive models for unplanned hospitalization in the Basque Country: analyzing the variability of non-deterministic algorithms

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
实战派教学:掌握Scikit-learn,轻松实现数据分析与机器学习模型优化!
【10月更文挑战第4天】Scikit-learn凭借高效、易用及全面性成为数据科学领域的首选工具,简化了数据预处理、模型训练与评估流程,并提供丰富算法库。本文通过实战教学,详细介绍Scikit-learn的基础入门、数据预处理、模型选择与训练、评估及调优等关键步骤,助你快速掌握并优化数据分析与机器学习模型。从环境搭建到参数调优,每一步都配有示例代码,便于理解和实践。
83 2
|
29天前
|
机器人
1024 云上见 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建 “文旅领域知识问答机器人” 领精美计时器
1024 云上见 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建 “文旅领域知识问答机器人” 领精美计时器
85 3
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
本次教程介绍了如何使用 PAI ×LLaMA Factory 框架,基于全参方法微调 Qwen2-VL 模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
使用PAI+LLaMA Factory 微调 Qwen2-VL 模型,搭建文旅领域知识问答机器人
|
1月前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
【10月更文挑战第6天】如何使用机器学习模型来自动化评估数据质量?
|
8天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
19 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
26 1
|
1月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
53 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
18天前
|
机器学习/深度学习 数据采集 Python
从零到一:手把手教你完成机器学习项目,从数据预处理到模型部署全攻略
【10月更文挑战第25天】本文通过一个预测房价的案例,详细介绍了从数据预处理到模型部署的完整机器学习项目流程。涵盖数据清洗、特征选择与工程、模型训练与调优、以及使用Flask进行模型部署的步骤,帮助读者掌握机器学习的最佳实践。
55 1
|
21天前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?