Azure - 自动化机器学习AutoML使用详解

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
简介: Azure - 自动化机器学习AutoML使用详解

自动化机器学习,简称为AutoML,旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型,且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。


一、AutoML是如何工作的?

在训练阶段,Azure 机器学习启动多个并行管道,分别尝试不同的算法和参数组合。这个服务会不断尝试多种与特征选择相匹配的ML算法,并为每一次迭代产生一个经过评分的模型。当模型的评分更接近优化目标时,该模型便会被认为更“适合”于数据。当满足预定的终止条件时,训练过程便会结束。

要在Azure机器学习中设计并执行一个AutoML训练实验,您可以按照以下步骤进行:

  1. 明确您要解决的ML问题类型:如分类、预测、回归、计算机视觉或NLP。
  2. 决定是选择基于代码的体验还是基于Web的无代码体验:
  • 对于偏好代码的用户,可以利用Azure 机器学习 SDKv2 或 Azure 机器学习 CLIv2。例如,有一个教程指导如何使用AutoML与Python来训练物体检测模型。
  • 对于倾向于少量代码或无代码的用户,可以在Azure 机器学习工作室 (https://ml.azure.com) 通过Web界面来操作。例如,有一个教程介绍如何在Azure机器学习中使用AutoML构建分类模型。
  1. 指明训练数据的来源:Azure 机器学习支持多种数据输入方式。
  2. 配置AutoML的参数,包括决定模型迭代的次数、超参数设定、高级的数据预处理/特征生成策略以及用于评估模型优劣的指标。
  3. 提交您的训练任务。
  4. 分析训练结果。

二、何时考虑AutoML?

当您希望通过Azure机器学习来训练和优化模型,特定于多种目标指标时,AutoML是一个理想的选择。它能够规范化机器学习的开发流程,使不同背景的用户都能够有效地解决各种机器学习问题。

AutoML对于以下目的具有明显优势:

  • 为非编程背景的人员提供机器学习解决方案。
  • 节约开发和训练时间。
  • 整合数据科学的最佳实践。
  • 提供多种解决方案以适应不同场景。
  • 分类:分类是一种监督学习方法,其中模型根据训练数据进行预测,以确定新数据的类别。Azure机器学习提供了专为此类任务设计的特征工程,例如深度神经网络文本特征化工具。分类的目的是基于已有的数据经验,预测新数据的归属类别。例如,手写识别、对象分类等。
  • 回归:与分类相似,回归也是监督学习中的一种常见方法。但不同于分类的是,回归旨在预测一个连续的输出值,而不是类别标签。例如,根据特定的车辆特性预测汽车价格。
  • 时序预测:预测未来趋势和模式是各种业务领域中的关键组件。使用AutoML,您可以获得高质量的时序预测。
  • 计算机视觉:AutoML为计算机视觉任务提供支持,从简单的图像分类到复杂的对象检测和分割都可以应对。您可以利用Azure机器学习的强大功能,如大规模操作、模型部署和集成。
  • 自然语言处理(NLP):AutoML在NLP任务中同样展现出卓越的能力。无论是文本分类还是命名实体识别,通过Azure机器学习的Python SDK,您都可以轻松地实现NLP模型的自动化训练。总之,无论您是ML专家、开发人员,还是来自其他背景的用户,AutoML都可以为您提供有效、高效的机器学习解决方案。

三、AutoML助力训练与集成过程

训练数据 借助自动化机器学习(AutoML),您可以提交训练数据以构建模型,并指定执行的模型验证方式。在训练过程中,AutoML 通过使用验证数据和相应的算法来优化超参数,寻找与训练数据最匹配的模型配置。但由于在优化过程中反复使用相同的验证数据,可能导致模型对此数据产生偏见。为确保最终选择的模型未受此偏见影响,AutoML 允许使用独立的测试数据集进行评估。

特征工程

指的是根据数据领域的知识创造能增强机器学习算法性能的特征。Azure 机器学习提供了一系列缩放和规范化的方法简化这一过程,统称为特征化。在自动机器学习实验中,系统会默认进行特征化,但您也可以根据自己的数据进行调整。此外,还支持其他特征工程技术,如编码和转换。在Azure机器学习工作室或Python SDK中,都可以选择启用或自定义特征化。

集成模型 在自动化机器学习中也得到了支持。系综学习结合多个模型的优点,通常能获得更好的结果。AutoML 利用投票和堆叠的方法来结合模型。此外,Caruana算法用于决定系综中的模型组合,从而确保系综的性能是最优的。

ONNX格式 Azure 机器学习还允许使用AutoML来创建Python模型并将其转换为ONNX格式,这使得模型能在不同的平台和设备上执行。ONNX还提供了C#运行时,所以您可以直接在C#应用程序中使用生成的模型,这避免了网络延迟等潜在问题。

四、实战案例

实战案例可以参考官方案例:https://learn.microsoft.com/zh-cn/azure/machine-learning/tutorial-first-experiment-automated-ml?view=azureml-api-2

列出核心过程:

  1. 先决条件
  2. 创建工作区
  3. 创建自动化机器学习作业
  4. 创建数据集并将其加载为数据资产
  5. 配置作业
  6. 浏览模型
  7. 模型说明
  8. 部署最佳模型
  9. 清理资源
  10. 后续步骤
  • 部分过程图:

五、总结

自动化机器学习也称为自动化 ML 或 AutoML,是将机器学习模型开发过程中耗时的反复性任务自动化的过程。数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。

目录
相关文章
|
12天前
|
机器学习/深度学习 人工智能 测试技术
自动化测试的未来:AI与机器学习的融合之路
【9月更文挑战第15天】在软件测试领域,自动化一直被视为提高效率和精确度的关键。随着人工智能(AI)和机器学习(ML)技术的不断进步,它们已经开始改变自动化测试的面貌。本文将探讨AI和ML如何赋能自动化测试,提升测试用例的智能生成、优化测试流程,并预测未来趋势。我们将通过实际代码示例来揭示这些技术如何被集成到现有的测试框架中,以及开发人员如何利用它们来提高软件质量。
48 15
|
30天前
|
机器学习/深度学习 人工智能 运维
自动化测试的未来:AI与机器学习的融合
【8月更文挑战第29天】随着技术的快速发展,自动化测试正在经历一场革命。本文将探讨AI和机器学习如何改变软件测试领域,提供代码示例,并讨论未来趋势。
|
1月前
|
机器学习/深度学习 存储 Linux
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
|
1月前
|
机器学习/深度学习 Ubuntu Linux
【机器学习 Azure Machine Learning】使用Aure虚拟机搭建Jupyter notebook环境,为Machine Learning做准备(Ubuntu 18.04,Linux)
【机器学习 Azure Machine Learning】使用Aure虚拟机搭建Jupyter notebook环境,为Machine Learning做准备(Ubuntu 18.04,Linux)
|
1月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
55 2
|
1月前
|
机器学习/深度学习 数据采集 测试技术
利用Python实现简单的机器学习模型软件测试的艺术与科学:探索自动化测试框架的奥秘
【8月更文挑战第27天】在本文中,我们将一起探索如何通过Python编程语言创建一个简单的机器学习模型。我们将使用scikit-learn库中的线性回归模型作为示例,并通过一个实际的数据集来训练我们的模型。文章将详细解释每一步的过程,包括数据预处理、模型训练和预测结果的评估。最后,我们会用代码块展示整个过程,确保读者能够跟随步骤实践并理解每个阶段的重要性。
|
1月前
|
API 网络架构 Windows
【Azure Developer】Azure Automation 自动化账号生成的时候怎么生成连接 与证书 (Connection & Certificate)
【Azure Developer】Azure Automation 自动化账号生成的时候怎么生成连接 与证书 (Connection & Certificate)
|
1月前
|
存储 API 网络架构
【Azure 环境】自动化账号生成的时候怎么生成连接与证书
【Azure 环境】自动化账号生成的时候怎么生成连接与证书
|
1月前
|
SQL 机器学习/深度学习 开发工具
【机器学习 Azure Machine Learning】Azure Machine Learning 访问SQL Server 无法写入问题 (使用微软Python AML Core SDK)
【机器学习 Azure Machine Learning】Azure Machine Learning 访问SQL Server 无法写入问题 (使用微软Python AML Core SDK)
|
2天前
|
机器学习/深度学习 人工智能 运维
构建高效运维体系:从自动化到智能化的演进之路
在当今数字化时代,运维作为保障企业IT系统稳定运行的关键环节,正经历着前所未有的变革。本文将探讨如何通过实施自动化和引入智能化技术,构建一个更加高效、可靠的运维体系,以应对日益复杂的业务需求和技术挑战。
9 1