AutoML技术现状与未来展望

简介: 以下内容是对AutoML技术现状与未来展望讲座的总结。1.机器学习定义《西瓜书》中的直观定义是:利用经验来改善系统的性能。(这里的经验一般是指数据)Mitchell在《Machine Learning》一书中的较为形式化的定义是一个程序通过给它一些数据,它能够提升在某个任务上的某种度量。

以下内容是对AutoML技术现状与未来展望讲座的总结。

1.机器学习定义

  • 《西瓜书》中的直观定义是:利用经验来改善系统的性能。(这里的经验一般是指数据)

  • Mitchell在《Machine Learning》一书中的较为形式化的定义是一个程序通过给它一些数据,它能够提升在某个任务上的某种度量。(如下图示)

img_e7f976b4d64ff499db2dc32a77c3d2ef.png

下图很清楚明了的展示了机器学习所做的事情,不再赘述。


img_d79d89931e1c19f4dbfa56128761e9e4.png

2.AutoML技术回顾

很多时候在某一领域使用机器学习得到了效果很好的模型,但是若要在另一个领域使用该模型则不一定适用,而且通常需要大量的专业知识。正是由于受到这样的限制,所以才有了AutoML技术的发展。

2.1 AutoML研究的主要场景

2.1.1 静态闭环AutoML

a. 介绍

第一个场景是静态闭环AutoML,该场景是目前用的最多的场景。该场景是给定数据和度量标准之后,通过AutoML选择出效果最好的模型。该过程没有任何的人工干预,都是算法自动选择的。

img_e16f0e369f400855e9f16cdb4b9b1c6b.png

下图展示了机器学习的基本流程图,可以看到主要有数据预处理、特征处理、模型训练等过程,并且每个过程都包含多种方法。

img_98e1ce20181c9ce352cd5238c61961d1.png

b. 存在的问题

而AutoML的本质工作是将各个过程的方法进行选择、组合、优化

但是AutoML存在如下问题:

  • 由于我们通常并不知道所优化的参数和预期效果之间是什么样的显示表达,所以 目标函数形式未知
  • 由于可能的组合方式太多,所以 搜索空间巨大
  • 正是由于组合方式太多,而且每一个组合都需要从头做数据预处理,特征处理,模型训练等操作,所以 函数计算代价巨大
img_85ad756e2f81649c709a005e703f6d31.png

c. 解决办法

  • 1.基础搜索方法

该方法其实就是网格搜索,即将各种参数排列成矩阵的形式,然后使用 笛卡尔积(\(A×B = {(x,y)|x∈A∧y∈B}\)) 将所有的组合可能遍历一遍。

img_f39e262dfe766209e642a99e65311cfc.png

该方法有两个缺陷:

  • 随着超参数的规模越来越大,组合的可能性会指数增加,从而导致计算量大大增加。
  • 有的参数重要,但是有的并不重要,但是网格搜索会无差别组合,所以在不重要参数上浪费大量时间和计算资源。所以通常会采用随机搜索的方法来增加搜索效率,并且不会存在指数爆炸,组合爆炸的问题。
img_8064d12d9636f8645d3eaf3be9f38a8d.png
  • 2.基于采样的方法

上面介绍的网格搜索和随机搜索实现起来简单,而且使用比较多,但是它们搜索起来比较盲目。
所以有了基于采样的方法以期望避免搜索盲目。

该方法是基于某种策略去产生一组可能的参数候选组合,然后对候选组合进行评估。评估之后我们可以得到反馈,基于这个反馈我们会进一步优化搜索策略,以此迭代去解决优化问题。

img_03ed9c5be3a61aceb02bc5cc57d8e2db.png

这样的一个优化过程是一个黑盒函数,学术界也叫做“零阶优化”,因为在这一过程中我们只能获取函数值,无法获取到它的导数信息。

具体的实现方法有如下四种:

  • 1) 基于模型的零阶优化
img_e4f71e40b67b31163b80a39f9c8676e0.png

如图示,该方法也是通过采样,评估,反馈等迭代操作来得到优化结果,包含两个重要部件:一是用什么样的模型,而是采用什么样的采样策略。

而常用的优化方法有两种:贝叶斯优化随机坐标收缩

贝叶斯优化是被研究的最多的一种方法之一,而最常见的是采用高斯过程来建模。但是高斯过程在求解的时候需要一个三次方操作,所以当数据点特别多的时候计算效率是非常低下的。所以就有贝叶斯神经网络来解决复杂度问题。

另外,高斯过程要求参数必须是连续空间的,而且还有一些其他的限制,所以需要用到随机森林来解决参数类型受限问题。

对应的参数选择策略标准有:

  • 选择概率提升较大的点
  • 选择提升幅度大的点
  • 通过交叉熵选择
  • GP_UCB(不了解。。。)
img_786632125e00ab4f75a70fec34438fa1.png

贝叶斯模型存在一个致命的错误,那就是它依赖于很强的模型假设(表示我们对函数空间的认知)。

为了解决贝叶斯的缺点,有人提出可以通过分类的方式来解决,即将好的点和坏的点区分开来,而不是对模型进行假设,该方法就是随机坐标收缩(RACOS, RAndomized Coordinate Shrinking)

该方法采用的模型是使用框将好的点选中,坏的点在框外。而框需要满足两个条件:一是尽可能的随机,而是框要尽可能的“瘦”,最瘦就是瘦成一条垂直于坐标轴的直线。

img_265c50657681c8e87e20fe33c2d98785.png
  • 2) 局部搜索

该方法是指从一个点出发,在它的邻域内进行搜索。

最常见的局部搜索方法是 爬山法。即寻找可能性最大的一个方向后,往该方向前进。该方法能够收敛,但是可能会陷在局部最优解或者停在比较平的地方。

为了解决陷在局部最优问题,迭代式局部搜索应运而生。它的思想是在找到局部最优点后,对局部最优点有一些扰动,然后重新开始一轮局部搜索。


img_5c67670be4f735702f0c3c240466688c.png
  • 3) 启发式算法

该类方法相较于前两种缺乏坚实的理论支撑,主要是根据对生物,自然界的观察,去模拟一些生物或者自然现象,从而进行优化。

img_8f9250de0bbb7770e8ab6bc64ec0254e.png
  • 4) 强化学习

该方法是有一种杀鸡用牛刀的感觉,因为强化学习自身的优化就是一个比较大的问题。

img_67d88ac86307dc0e7ceed6973ddabc73.png
  • 3.基于梯度的方法

2.1.2 外部知识辅助AutoML

该场景其实也是静态场景,只不过该场景会从其他任务迁移一些已经做过的知识来作为辅助。

img_08c19942f128094086a29ea835719452.png img_6cc58fea1b95081e0358fdd990fbeb83.png img_cd49b43d00b5c7f44983374e65b96af5.png

2.1.3 动态环境AutoML

上面两种场景都是静态场景,而现实应用中每天的数据都是不断产生的,任务度量也是不断变化的,所以就有了动态环境AutoML。

例如常见的推荐系统,每天有新用户注册,又有老用户离开。并且用户的喜好也不断发生变化,这就是典型的动态场景。


img_704ff90fbb530fbc911939d44a5a1243.png

2.2 AutoML热点研究方向

AutoML热点研究方向主要有两个:效率泛化性

2.2.1 效率

常见的提高效率的方法有如下:

  • 将串行的计算方式改成 同步并行或者 异步串行
  • 提前停止模型训练,避免模型过拟合等现象的产生
  • 使用预训练模型进行热启动
  • 混合优化目标,即将计算代价和损失函数结合起来作为优化目标
img_0795d20bb8cf5efdc07988fb0f47aa54.png

2.2.2 泛化性

还有一个研究热点是训练模型的泛化性。因为机器学习的本质是希望所训练得到的模型能够对多个任务都有效,即在从未见过的样本上也能表现优秀。

  • 评估

以基于采样的优化为例,假设我们通过采样得到了一些数据点,然后进行超参数评估。这个评估是怎么做的呢?

一般我们会从原数据集中选择一部分数据作为验证集,然后查看验证集的效果如何。但是这个验证集是否能代表未来的数据集呢?答案是不确定的。

所以有些工作就需要去研究怎么做更合理的评估。


我们知道AutoML是从众多模型中选择出在某一数据集上表现最好的一个作为最终的输出模型,那么这就意味着其他的模型都浪费掉了。那些模型虽然表现不是最好的,但是可能也不差,而且可能在其他数据集上表现会更好。所以我们可以试着做集成学习,以此来提高泛化性。

img_e2c4871853b73cba29eb9dfc53462b01.png

2.3 从理论角度看AutoML

世上没有免费的午餐。

有很多理论都证明不存在一种通用的算法能解决所有问题。

img_e291c73d3b50ac5f2b6a9d89f98084a6.png

2.4 AutoML应用

视频中主讲人打了下广告,介绍了由第四范式主办的AutoML比赛。

img_0aa9e20565e0c8113e002fdee6908dd9.png

3. AutoML未来展望

  • 算法效率的提升

未来展望一个大方向是算法效率的提升。而算法效率又分为时间复杂度和样本复杂度。

时间复杂度很好理解,它主要是希望能够对全流程进行优化,如下图示,不再赘述。

样本复杂度则是指降低收集样本的成本等。因为收集高质量的有标签的样本是很昂贵而且很困难的,所以可行的办法是才用迁移学习来解决。周志华老师也提出了 学件的概念,即将以往训练的 模型和对该模型的 归约组合成学件,以供后续任务的使用。

img_3b8e68f66b87308004565d1d5beff789.png
  • 算法
img_cd56c1822d3f5efc0ef8a3c518bc7d9c.png
  • AutoML理论
img_7ec6b4b6e6f1db29c531471bf220433b.png


MARSGGBO原创





2018-7-14



目录
相关文章
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
探索AI未来:从理论到实践
【10月更文挑战第9天】探索AI未来:从理论到实践
41 2
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
AI技术在现代生活中的应用:从理论到实践
AI技术在现代生活中的应用:从理论到实践
210 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI技术:从理论到实践
【8月更文挑战第31天】本文将深入浅出地介绍AI技术的基本原理,并通过实例演示如何将理论知识应用于实际编程中。我们将从基础的机器学习模型开始,逐步深入到深度学习和神经网络,最后通过一个具体的代码示例来展示AI技术的实际应用。无论你是AI技术的初学者还是有一定基础的开发者,都能在本文中找到有价值的信息。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
|
7月前
|
机器学习/深度学习 数据采集 人工智能
探索自动化测试的前沿:AI与机器学习的融合之道
本文旨在探讨自动化测试领域如何通过整合人工智能(AI)和机器学习(ML)技术来提升软件测试的效率与准确性。文章首先概述了自动化测试的现状,随后详细分析了AI和ML在测试中的应用及其带来的变革,并通过案例研究展示了实际成效。最后,讨论了实施这些技术的考量因素,为读者提供了深入理解并应用于实践的基础。
78 1
|
7月前
|
机器学习/深度学习 人工智能 搜索推荐
语音识别技术的现状与未来展望
【6月更文挑战第15天】**语音识别技术现状与未来:** 随AI发展,语音识别精度与速度大幅提升,应用广泛,从手机助手到智能家居。深度学习驱动技术进步,跨语言及多模态交互成为新趋势。未来,精度、鲁棒性将增强,深度学习将进一步融合,个性化和情感化交互将提升用户体验。跨领域融合与生态共建将推动技术普及,为各行业带来更多智能解决方案。但同时也需关注技术伦理和社会影响。
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
大模型技术的发展与实践
一、大模型的概念 大型语言模型,也称大语言模型、大模型(Large Language Model,LLM;Large Language Models,LLMs) 。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿(或更多)参数的语言模型,这些参数是在大量文本数据上训练的,例如模型GPT-3,PaLM,LLaMA等,大语言模型的目的是理解和生成自然语言,通过学习大量的文本数据来预测下一个词或生成与给定文本相关的内容。 参数可以被理解为模型学习任务所需要记住的信息,参数的数量通常与模型的复杂性和学习能力直接相关,更多的参数意味着模型可能具有更强的学习
497 0
|
人工智能 自然语言处理 语音技术
AI大模型的现状与发展
AI大模型的现状与发展
174 0
|
人工智能 自然语言处理 算法
开源与人工智能:现状与展望
开源与人工智能:现状与展望
252 0
|
前端开发
2022年度总结,以及2023的全新展望
2022年度总结,以及2023的全新展望
206 1
2022年度总结,以及2023的全新展望