专访乔治亚理工终身教授蓝光辉: 开创随机加速梯度法助力深度学习

简介: 随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,以及用于解决随机凸和非凸优化问题。

蓝光辉教授,博士毕业于乔治亚理工学院,目前任教于乔治亚理工 H. Milton Stewart 工业和系统工程学院,他还担任着《Computational Optimization and Applications》、优化算法顶级期刊《Mathematical Programming》和《SIAM Journal on Optimization》等杂志的副主编,是国际机器学习和深度学习算法方向的顶级专家。蓝光辉教授专注于计算机科学领域的基础研究,他的专注方向包括:随机优化和非线性规划的理论、算法和应用,包括随机梯度下降和加速随机梯度下降,以及用于解决随机凸和非凸优化问题。


近日,机器之心对这名顶尖学者进行了专访,谈及他的科研生涯,「在随机加速梯度法上的开创性进展让 Geoffrey Hinton 获得训练深度学习模型的启发」,以及对于优化算法在业内应用中的展望。


优化算法研究


机器之心:蓝教授能先介绍下您近期做的研究吗?


蓝光辉:我最近主要发布了两项工作。一个是分散式(decentralized)随机优化与机器学习(参见论文:Communication-Efficient Algorithms for Decentralized and Stochastic Optimization)。主要可以用来求解数据分散在网络上,没有办法进行集中处理的机器学习及统计推断问题。我们设计的算法可以最大程度上减少在网络上的通信传输量,同时保证达到与集中式(centralized)处理相近的随机优化或机器学习效果。


另一个工作是多阶段(multistage)随机优化与决策(参见论文:Dynamic Stochastic Approximation for Multi-stage Stochastic Optimization)。主要用来支持在随机环境下的动态决策,如在金融领域里如何确定一段时间内的最优资产配置等等。我们通过设计新的算法来报保证得到多阶段决策的最优解,同时保证需要采集或存储的数据(样本)量最少。


机器之心: 蓝老师有一个深度学习的优化课程讲得非常好,能介绍一下吗?


蓝光辉:我主要是讲一些基础性的结果。很多人对深度学习感兴趣,但可能不太懂算法,我这个课程就是要告诉大家算法的真相,它能解什么样的问题。再就是对深度学习的模型能解到什么地步?理论上来说我们并没有完全理解深度学习,我们应该更深入研究这些没有得到很好理解的地方。


我们把深度学习(也包括机器学习)看作一个随机优化模型,把很多数据看作是某个随机向量的样本,然后根据样本求解一个对未来进行预测的随机优化问题,我们要设计理论上最好的算法去求解随机优化模型。


我的课程主要是围绕着我本人及团队在随机优化及机器学习算法方面的一些研究工作所展开的。我在读博士时候就开始研究并设计了一系列这样的算法。而这之前的一些算法,比如经典的随机梯度法,仅针对一些非常窄(如强凸)的问题,实际应用中也不稳定,所以在我们这些工作之前,绝大部份研究者都认为随机梯度类算法求解随机优化问题并不可靠,从而基本上抛弃了这一类算法。


在读博士期间我做的第一个工作是在导师 Arkadi Nemirovski(现代凸优化理论的奠基人,美国工程院院士)指导下研究鲁棒性随机梯度法(参见论文:Robust Stochastic Approximation for Stochastic Programming)。我们研究的随机映像下降法后来成为机器学习的推动力(driving force)之一。同时,我自己单独研究了一类新的随机加速梯度算法,也就是 Nesterov 加速梯度法的随机版本(参见论文:An Optimal Method for Stochastic Composite Optimization)。在此之前,尽管大家都知道加速梯度法求解确定性问题非常简单有效,但没有人(包括 Nesterov 本人)能证明这类方法可以用来求解随机优化问题。这些新的随机算法的出现从根本上改变了大家对随机梯度法的认识,使得我们可以非常鲁棒性地,有效地求解随机优化问题。这两个工作基本上就是我博士论文的主体部分。我的博士论文也包括了对增广拉格朗日这一经典算法的复杂度分析等工作。


我关于随机加速梯度法的这篇论文后来很荣幸拿了三个奖,美国运筹与管理学会计算分会学生奖(INFORMS Computing Society Best Student Paper)的一等奖,INFORMS George Nicholson prize 的二等奖,几年后我的博士论文又拿了 Finalist in the Mathematical Optimization Society Tucker Prize。


当时并没有完全意识到它们后来在机器学习中的巨大用处,虽然从数学角度看我们有很好的理论及实验结果。我在出国读博士之前做过三年软件工程师,学到的编程经验有助于我较好地实现了这些算法。我们实现这些算法后,发现他们要比以前的那些求解随机优化问题的工具快几十倍,当时觉得比较有前景(promising)也受到鼓舞。机器学习的一帮研究者也非常聪明,他们看到了这个进展,就赶紧用这些算法求解大规模机器学习问题,发现它们在数据特别多的情况非常管用。


我前期研究的算法更偏向于随机优化里面的凸问题。但是 2009 年毕业以后意识到很多随机优化问题并不是凸问题,而是非凸的。所以大概在 2012 年的时候做了一个随机梯度法解非凸问题,当时也是一个比较难的问题。结果这个论文很荣幸获得 INFORMS 年轻教授论文第一名(参见论文:Stochastic First and Zeroth-order Methods for Nonconvex Stochastic Programming)。


再后来,我们又做了一系列工作用来完善随机梯度法求解非凸问题的理论体系(参见论文:Accelerated Gradient Methods for Nonconvex Nonlinear and Stochastic Programming)。现在深度学习出来了,恰巧是非凸问题,所以上述这些文章开始变得重要起来。


现在业界里面用用来训练大规模机器学习模型主要基于鲁棒性及加速的随机梯度法,特别是在一大批优秀研究者将这些基础性算法做出改进之后。值得注意的是,Geoffrey Hinton (深度学习巨头之一) 在 2013 年的一片文章中(参见论文:On the importance of initialization and momentum in deep learning)建议将随机加速梯度法用于训练深度学习模型,从而极大推广了这一类算法的应用。这个算法现在称为随机动量梯度法,基本上就是我早期研究的随机加速梯度法的一个变体。


这个领域还在快速发展,会不断有新的研究成果发布出来。因而将来课程的内容也会更加丰富。


机器之心:UC Berkeley 提出 AdaGrad(参见论文:Adaptive Subgradient Methods for Online Learning and Stochastic Optimization)的那篇论文也引用了您的研究成果?


蓝光辉:对,它是基于我们当初的随机映像下降法(Mirror descent stochastic approximation)(参见论文:Robust stochastic approximation approach to stochastic programming)去做的改进。在机器学习界,论文的提交和发表很快,但在基础研究领域,研究的发表一般是有延迟的。我们这个领域一般会 Delay 两年,我们的这篇论文 2007 年的时候就在网上公布了,然后 2009 年被杂志正式发表在 SIAM Journal on Optimization 上面。John Duchi(AdaGrad 论文一作)他们的论文大概 2011 年被 ICML 及 Journal of Machine Learning Research 接收。


而我在博士期间做的随机加速梯度法(参见前文)2008 年就在网上发布了(www.optimization-online.org),文章于 2010 年被 Mathematical Programming 接受,直到 2012 年才正式发表。


现在我作为这几个杂志的副主编,希望能尽力加快这个文章发表的过程。同时,希望通过机器之心,让大家特别是初学者,以及优化和机器学习的应用工作者意识到不同学术圈之间的「文化」差异。机器(包括深度)学习研究工作者重视文章的实用性和时效性,因而会发表大量会议文章(如 ICML 和 NIPS 等)。当然一些顶级会议期刊也是很难选上的。而优化及统计领域的基础性研究工作者往往更重视文章结果的突破性,理论推导的严密性和完整性,会专注较少数量但高质量的文章发表在顶级期刊上(如上述的 Mathematical Programming, SIAM Journal on Optimization 以及 Annals of Statistics 等)。因为前者的周期短,易读,易用,易跟进,这些会议文章往往会有更多的引用,而后者因为所谓「高大上」,曲高和寡而仅在小范围内为人所知,也导致引用量相对较少。但我们不能因此而贬低了基础性研究工作的价值。事实上,这些基础性的研究工作往往会超前乃至引导领域的发展,而更应受到重视。单纯重视文章的引用量(citation)及流行度 (popularity) 而忽略工作本身的内在价值将会导致一个不良的学术生态环境,甚至对下一代研究人才的培养产生负面影响等。


机器之心:我们了解到您有个挺有趣的研究 Gradient Sliding,能介绍一下吗?


蓝光辉:对,这个很有意思,它应该是我最新开展的研究方向之一。


在数据处理时,一般问题都会有两项要求:1. 要求模型和数据(data)很匹配(fit);2. 要求模型的参数有一些特性, 比如说满足稀疏,或者是组(Group)稀疏等。正是因为有了这些要求,使得求解模型变得很慢,求解模型变得很慢意味着要多次访问数据。在大数据环境下,访问数据是一个比较昂贵的工作,特别是涉及到矩阵和向量的乘法,就会很慢。


我当时就想,我们能不能够避开对数据,或者矩阵和向量乘法的运算,而又不影响整个问题的求解速度。我发现理论上证明是可以这么做的,也就是梯度滑行(gradient sliding),也就是沿着一个梯度方向走很多步,不需要重新计算梯度了。


这方面的论文我们已经发表了有两篇,分别是在 Mathematics Programming 和 Siam Journal on Optimization 上。


而最近的一些工作,如前述的如何在分散式随机优化与机器学习中减少通信量,也受到了这一思想的深刻影响。


机器之心:您还有项研究是《Accelerated Algorithms for a Class of Saddle Point problems and Variational Inequalities》


蓝光辉:这项工作的话就是怎么样把上述的加速算法,以前是只能用来解单纯的优化问题的,扩展到鞍点(Saddle Point)问题及变分方程(Variational Inequalities)。这些问题比优化更加广泛,当然它没有优化问题那么直观。比如说在优化里最小化一个什么目标函数就相当于找一个鞍点。但是鞍点问题及变分方程涵盖了不光是优化,还有一些平衡(Equilibrium)和博弈论(Game Theory)里的问题。那些问题的求解和优化问题的求解有很多的共性,我们的工作就是希望能把优化算法里面的一些最新的成果扩展到求解这些鞍点及变分方程问题。


我也做过一些业界的研究,比如说我们曾将加速算法应用在大规模图像重构上。现在也在和上海财大合作开发可以用于业界的大规模优化及机器学习问题的求解器。因为在上海财经大学,几位老师有自己做一个 startup 公司的计划,我们这一部分的研究和开发成果应该会有机会进一步直接应用于不同行业中,如物流,电商,金融等。


机器之心:在二阶算法方面有没有一些值得追求的方向?


蓝光辉:我做一阶算法还有随机算法比较多一些,现在也有观点认为是不是应该做二阶算法,不同的人会有不同看法。其实在 2005 年之前大家一直在做二阶算法,在 1984 年到 1995 年之间,甚至到 2000 年左右,优化领域就有一批顶尖科学家二阶算法做的非常多。在华人科学家里面,像叶荫宇教授等人在这些领域作出了非常突出的贡献。


至于现在有没有必要去做二阶算法,可能在某些问题是有必要的。一些以前没有挖掘出来的问题可以再继续挖掘,也有一些开放的问题值得继续研究,这些领域最近也有些很有趣的进展。


机器之心:您觉的二阶的算法在机器学习里面的潜力呢?


篮光辉:二阶算法好处是可以得到高精度的解,但一般来说机器学习并不需要高精度的解。


因为在研究中我个人非常喜欢探索新的领域。所以可能不太会集中精力去做二阶算法,但我相信会有人去做,因为总会有新东西的。我可能更多去做一些原来认为难、但我们没法触及或理解到的问题,现在随着新思路的出现以及计算平台的提高,这些难问题可能也变得没那么难了。就像随机优化一样,原来是很难的,但因为新的思想、新的计算平台出现,现在没那么难了。所以我可能去做这样一些工作,这些工作也可能会在机器学习里面非常有潜力。


机器之心:机器学习有多种学派,比如一种是优化,还有就是贝斯这种统计角度,您属于哪个?


蓝光辉:我所在的方向其实是从两个角度同时去看问题,比如随机优化,它完全结合了统计和优化。


比如像我以前的两个老师,一个就是前面提到的 Arkadi Nemirovski,他既是优化里面的领军人物,又是 Non-parametric statistic 的创始人之一。我另外一个老师 Alexander Shapiro 既是统计学家,在优化方面也是很顶尖的学者。所以说在基础性研究工作中优化和统计不存在竞争的关系,尽管我们不一定是从贝叶斯的角度去描述统计性质。我们会同时用统计的语言和优化的语言去描述问题及其解的性质,所以这个领域叫随机优化。


可能会在网上的一些科普性读物里面,有一部分人把优化局限于求解一个确定性(如所谓的 Empirical risk minimization)问题,这是不确切的。我们在优化领域特别是随机优化领域不仅会研究怎么样设计有效的算法求解机器学习模型,也会研究求解这个模型之后得到的解会满足什么样的统计特性。


优化算法与机器学习


机器之心:您一开始做这些算法的时候,机器学习、深度学习还没这么火,后来深度学习火了,您与这个领域的交流多吗?


蓝光辉:在美国交流其实挺频繁,在我做前面两个算法的时候,已经有一批机器学习的人跟我取得了联系。比如伯克利的一些人做随机优化算法会跟我联系,探讨一些算法本身的问题。深度学习更不用说,我觉得深度学习理论上还有不清楚的地方。


而且,我们也会研究机器学习的问题,机器学习的研究者也在研究优化算法,两个领域正在交融。我也觉得美国有一批非常优秀的人才,包括来自中国、印度和美国本土的年轻人,在不断地推出新的结果。你追我赶,非常非常活跃。


机器之心:能介绍一下您所做的工作对于现在机器学习意义和价值吗?


蓝光辉:我早期做的一些工作,比如说随机加速梯度算法(或随机动量梯度法),现在在机器学习里面用的比较多。因为加速梯度算法比较需要采用特大步长,以前大家认为这一类算法不可能去解随机问题,更不用说非平滑问题。


我第一个去尝试证明了这个算法不仅仅可以用来解平滑问题,也可以用来解决随机问题的,甚至可以解决非平滑问题,后来我们还证明它可以解非凸的问题。更重要的是我们证明了它无论解决任何问题,理论上都是最优的(理论上收敛率不可能再提高)。


这些工作,包括我们现在获得的其它研究成果,为机器学习提供了一些有效的算法工具。因为在此之前怎样加速训练一个机器学习模型是个瓶颈,现在可能变得更加有效了。当然,机器学习不只是我们这一方面的推动,它是在很多领域科学家的合力下取得进展的,比如计算体系结构、深度学习、分布式计算等,各司其职,我们只做了算法这一核心方面的工作。


个人研究方法


机器之心:您还获得了 NSF CAREER Award,当时您得了这个奖之后对您的研究方向有什么样的影响吗?


蓝光辉:美国国家自由基金杰出青年奖(NSF CAREER Award)主要是用来奖励年轻教授对自己未来(五年)的科研规划。我当时是在 2012 年 7 月份写的这个提案(proposal),英文题目是 Reduced-order Methods for Big Data Challenges in Nonlinear and Stochastic Optimization,就是如何设计新的算法以应对大数据对非线性和随机优化的挑战。然后 2013 年 1 月份拿到这个奖。


2012 年,大数据这个名字可能才刚出来。我觉得美国国家自然基金认可我的这个科研判断,当然就给我提供了一个很好的荣誉及职业发展平台。


机器之心:您曾经提到「研究者的责任」,您能讲一下您对此的解读?


蓝光辉:我本身是一个研究者,而研究者要清醒认识到研究的责任是什么。研究者不能只是推广一个概念(concept),而不理解其深层含义,比如它什么时候有效(work)、什么时候无效、为什么有效、无效之后的解决办法等。


如果不明白这些深层问题,像以前机器学习或人工智能那样一会热一会不热,最终还是会回到这种循环。所以为了避免这种情况,必须有一批去抓理论的人,有更多的人会去做理论、做算法,理解「为什么」。


机器之心:可能中国有这样理念的人还是太少了,很多人都是研究机器学习是什么、怎么用。


蓝光辉:对,其实另一方面我觉得中国学生的背景是挺好的,只是社会可能需要培育一种这样的气氛让研究者及年轻学子觉得做这些事情是有价值的,或者说从精神、媒体报道、甚至物质待遇上等各个方面,觉得做这些工作是有前途的。


在美国为什么有这样一群人呢?很重要的一方面是美国人选择的职业是他们自己喜欢的,不是说哪个火就去跟学哪个,比如机器学习火就去做机器学习,互联网火就去做网红。


所以,我就觉得应该多鼓励研究者做他们自己喜欢的方向,不管是理论还是应用。美国就是因为有两拨这样的研究者,作理论和作应用的人相互促进,所以美国的科研总是赶在前面。


机器之心:蓝教授好像是在 2016 年初从佛罗里达回到乔治亚理工(也是你的母校),是出于什么原因呢?


蓝光辉:我更多是从研究的角度去考虑。佛罗里达也非常不错,但首先乔治亚理工是我的母校;第二乔治亚理工在优化、机器学习领域有一批非常优秀的、世界顶尖的、理论功底很强的人物;而且,我也可以找到最优秀的学生,大家一起去做研究。


目前看来,这对于我自己的事业来说还是值得的。


机器之心:那您觉得学习、了解您从事的技术,数学要求度高吗?


蓝光辉:一般来说,我觉得中国大学生的数学水平都还不错,只要说他在大学认认真真学了基础的数学课程,比如说数学分析、线性代数、统计与概率等基础知识,我觉得应该足够了。


机器之心:就像您说的,中国这个领域的研究团队也在壮大,可能有一些中国学生会比较感兴趣读 Phd,您作为老师对 Phd 有什么要求吗?


蓝光辉:如果说中国学生有需要提高的地方的话,我觉得第一个可能需要在大学甚至更早期间就知道什么是研究。因为有很多学生可能就只是上课,并不知道研究是什么。像美国学生从小学开始就会自己去搜索相关的资料、去想研究主意(ideas)。


当然国内也有厉害的,比如我去年在北大发现北京大学很早就让本科生参与到研究工作中,我觉得这个是非常好的。


第二,普遍来说中国学生可能在英文写作方面需要提高。可能因为大学学习期间对学生的考察主要是基于考试,比较单纯。引入对学生写作方面的训练(如研究报告,小论文等等)是解决这个问题的一个思路。


机器之心:乔治亚理工的理工科非常强,它和 MIT、CMU、斯坦福的最大区别是什么?比如学校的气质和风格。


蓝光辉:我觉得这些学校都非常好,但有所不同。我觉得乔治亚理工很内敛。有时候我们做出世界一流的成果,只会比较谦虚的说出来。这可能符合美国南方人的特点(笑)。而我觉得像斯坦福、MIT 这样的会敢说,他们也有这个资本。微信图片_20211129092521.png


相关文章
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
梯度下降求极值,机器学习&深度学习
梯度下降求极值,机器学习&深度学习
65 0
|
1月前
|
机器学习/深度学习 算法 安全
从方向导数到梯度:深度学习中的关键数学概念详解
方向导数衡量函数在特定方向上的变化率,其值可通过梯度与方向向量的点积或构造辅助函数求得。梯度则是由偏导数组成的向量,指向函数值增长最快的方向,其模长等于最速上升方向上的方向导数。这两者的关系在多维函数分析中至关重要,广泛应用于优化算法等领域。
101 36
从方向导数到梯度:深度学习中的关键数学概念详解
|
3月前
|
机器学习/深度学习 算法
深度学习中的自适应抱团梯度下降法
【10月更文挑战第7天】 本文探讨了深度学习中一种新的优化算法——自适应抱团梯度下降法,它结合了传统的梯度下降法与现代的自适应方法。通过引入动态学习率调整和抱团策略,该方法在处理复杂网络结构时展现了更高的效率和准确性。本文详细介绍了算法的原理、实现步骤以及在实际应用中的表现,旨在为深度学习领域提供一种创新且有效的优化手段。
|
3月前
|
机器学习/深度学习 Python
深度学习笔记(六):如何运用梯度下降法来解决线性回归问题
这篇文章介绍了如何使用梯度下降法解决线性回归问题,包括梯度下降法的原理、线性回归的基本概念和具体的Python代码实现。
197 0
|
5月前
|
机器学习/深度学习 PyTorch 算法框架/工具
深度学习中的梯度消失与梯度爆炸问题解析
【8月更文挑战第31天】深度学习模型在训练过程中常常遇到梯度消失和梯度爆炸的问题,这两个问题严重影响了模型的收敛速度和性能。本文将深入探讨这两个问题的原因、影响及解决策略,并通过代码示例具体展示如何在实践中应用这些策略。
|
6月前
|
机器学习/深度学习 算法
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
122 2
|
5月前
|
机器学习/深度学习 人工智能 5G
【讲座笔记】深度学习在通信领域的应用--Byonghyo Shim教授
此PPT来自韩国首尔国立大学Byonghyo Shim教授,在北京理工大学邀请的线上会议的讲座内容。
73 0
|
7月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:策略梯度方法
使用Python实现深度学习模型:策略梯度方法
70 0
|
7月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
67 0
|
7月前
|
机器学习/深度学习 算法 网络架构
**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。
【6月更文挑战第28天】**深度学习中的梯度消失与爆炸影响模型训练。梯度消失导致输入层参数更新缓慢,梯度爆炸使训练不稳。解决办法包括:换激活函数(如ReLU)、权重初始化、残差连接、批量归一化(BN)来对抗消失;梯度裁剪、权重约束、RMSProp或Adam优化器来防止爆炸。这些策略提升网络学习能力和收敛性。**
74 0