自动化机器学习(AutoML)入门简介

简介: 近期在学习研究一些关于自动化机器学习方面的论文,本文作为该系列的第一篇文章,就AutoML的一些基本概念和现状进行简单分享,权当抱砖引玉。

640.png图片源自《Taking Human out of Learning Applications: A Survey on Automated Machine Learning》2018


在算法行业有这样一句话,大意是说80%的时间用在做数据清洗和特征工程,仅有20%的时间用来做算法建模,其核心是在说明数据和特征所占比重之大。与此同时,越来越多的数据从业者们也希望能够降低机器学习的入门门槛,尤其是降低对特定领域的业务经验要求、算法调参经验等。基于这一背景,AutoML应运而生。


如何理解AutoML呢?从字面意思来看,AutoML即为Auto+ML,是自动化+机器学习两个学科的结合体;从技术角度来说,则是泛指在机器学习各阶段流程中有一个或多个阶段采取自动化而无需人工参与的实现方案。例如在本文开篇引用的AutoML经典图例中:其覆盖了特征工程(Feature Engineering)、模型选择(Model Selection)、算法选择(Algorithm Selection)以及模型评估(Model Evaluation)4个典型阶段,而仅有问题定义、数据准备和模型部署这三部分工作交由人工来实现。


AutoML,与其说是一项技术,不如称之为一种思想:即将一门学科的技术(自动化)引入另一门学科(机器学习)的思想。所以从某种角度来说,AutoML本不是什么新鲜技术,也并见得需要创新性突破可言。那是什么促使其诞生并盛行于当下呢?原因主要有三:


  • 数据从业者的懒惰。俗话说,懒惰是人类进步的源动力,这一点在AutoML这件事上体现的淋漓尽致。因为数据从业者们渴望从繁杂冗长的数据清洗、特征工程以及调参炼丹的无趣过程中解脱出来,自然而然的想法就是希望这一过程能够Auto起来!当然,这一过程也可正面解读为对技术精进的不懈追求……


  • 对降低ML入门门槛的期盼。毫无疑问,以机器学习为代表的AI行业是当下最热门技术之一,也着实在很多场景解决了不少工程化的问题,所以越来越多的数据从业者投身其中。但并不是每名算法工程师或者数据科学家都有充分的业务经验和炼丹技巧,所以更多人是希望能够降低这一入门门槛,简化机器学习建模流程。


  • 足够的数据体量和日益提升的算法算力。客观来讲,没有足够的数据量谈Auto是不切实际的,因为不足以学到足够的知识以实现Auto;而另一方面,AutoML的实现过程其实充满了大量的迭代运算,所以完成单次的AutoML意味着约等于成百上千次的单次ML,其时间成本不得不成为AutoML领域的一个不容忽视的约束条件,而解决这一问题则一般需依赖优秀的算法和充足的算力。


上面介绍了AutoML的产生原因,其实是回答了Why的问题。与Why相对应的一般就是What和How的问题。那么AutoML是What呢?当然,这里不打算用开篇图例中的模块来讲解What的问题,而是用人话来说说AutoML当下的几个热点:


  • 模型选择(Model Selection)以及超参优化(HPO)。这两个阶段可能是AutoML里最早涉及和最为关键的技术,早期的AutoML产品/工具其实也是主攻这两个方向,例如Auto-WEKA和Auto-Sklearn就都是以这两方面的实现为主。其中模型选择其实主要还是枚举为主,即将常用的模型逐一尝试而后选出最好的模型或其组合。而HPO则相当于是加强版的GridSearch,都是解决最优超参数的问题,只是解决的算法不同罢了,其中基于贝叶斯的超参优化是主流。


  • 自动化特征工程(AutoFE)。AutoFE是解决原始特征表达信息不充分或者存在冗余的问题,相应的解决方案就是特征衍生+特征选择,而AutoFE一般是考虑这两个过程的联合实现抑或加一些创新的优化设计。


  • 元学习(Meta Learning)和迁移学习(Transfer Learning)。前面提到的模型选择,虽然多数产品都是对候选模型进行枚举尝试,但也有更为优秀的实现方案,那就是元学习。例如Auto-Sklearn中其实是集成了元学习的功能,在处理新的数据集学习任务时可以借鉴历史任务而会自动选择更为可能得到较好性能的模型,这个过程也称之为warn-start。如果说元学习适用于经典机器学习算法,那么迁移学习其实则主要适用于深度学习技术:通过对历史任务的学习经验对后续类似场景的神经网络架构设计提供一定的先验信息。


  • 神经网络架构搜索(NAS)。同样是针对深度学习的神经网络架构,当没有任何经验可供迁移时,那么如何设计和构建神经网络架构就是一个需要慎重考虑的问题。对此的解决方案即为NAS——neural architecture search!


简单说完Why和What的问题之后,介绍How的问题就不那么简单了。这本身是一个需要持续理解和不断精进的过程,如果现在来说也只能描述的主流产品一级:Auto-WEKA、Hyperopt-Sklearn、Auto-Sklearn、TPOT、H2O、AutoGluon……这份清单其实可以罗列几十种,遍布国内外。


当然,罗列是一回事,讲得清楚用得娴熟则又是另一回事了……


640.png

目录
相关文章
|
4天前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
27 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
1月前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
88 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
22天前
|
机器学习/深度学习 数据采集
机器学习入门——使用Scikit-Learn构建分类器
机器学习入门——使用Scikit-Learn构建分类器
|
1月前
|
机器学习/深度学习 数据采集 监控
如何使用机器学习模型来自动化评估数据质量?
如何使用机器学习模型来自动化评估数据质量?
|
1月前
|
Java 测试技术 Android开发
探索自动化测试的奥秘:从入门到精通
【10月更文挑战第37天】本文将带你进入自动化测试的世界,从基础知识到实战案例,逐步揭示自动化测试的神秘面纱。我们将一起探讨如何利用代码来简化测试过程,提高效率,并确保软件质量。无论你是初学者还是有经验的开发者,这篇文章都能为你提供有价值的见解和技巧。让我们一起踏上这段探索之旅吧!
|
1月前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
58 4
|
1月前
|
运维 负载均衡 Ubuntu
自动化运维的利器:Ansible入门与实践
【10月更文挑战第31天】在当今快速发展的信息技术时代,高效的运维管理成为企业稳定运行的关键。本文将引导读者了解自动化运维工具Ansible的基础概念、安装步骤、基本使用,以及如何通过实际案例掌握其核心功能,从而提升工作效率和系统稳定性。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
38 2
|
25天前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
36 0
|
27天前
|
机器学习/深度学习 算法 Python
机器学习入门:理解并实现K-近邻算法
机器学习入门:理解并实现K-近邻算法
32 0