AI大咖说-关于深度学习的一点思考
1. 周志华教授
周志华教授是人工智能研究专家,南京大学教授、校学术委员会委员,南京大学计算机系主任兼人工智能学院院长。南京大学人工智能学院是国内最早开设人工智能本科专业的学院。
前段时间,有看到周志华教授写的《关于深度学习的一点思考》,这里借【AI大咖说】做下简要的阅读笔记和自己的理解,供大家参考。
阅读原始文章的参见:全文网上的链接或公众号可自行搜索
2. 关于深度学习的一点思考
周志华教授在这篇思考中讲了深度神经网络今天为什么能起作用和深度神经网络中深的含义,最后引出非神经网络的其他深度学习方法(深度森林)。本文主要集中在前面2点。
2.1 深度神经网络今天为什么能起作用
周志华教授的观点:
- 有大量的数据
- 有很好的算力支持(GPU)
- 模型训练的技巧(主要是减缓梯度消失的策略)
深度神经网络发展至今,其依赖基础本质并没有发生很大的变化:
- 函数的可导性
- 梯度下降(Gradient Descent)
- BP反向传播算法
另外,最近特斯拉AI主管Karpathy在Deep Neural Nets: 33 years ago and 33 years from now
复现LeNet手写字符识别网络,网络的基本构建和当前的神经网络基本无二。除了工业技术的发展产生了大量的可训练数据(ImageNet)和计算设备GPU,这30多年,研究者都在解决深度学习训练难的问题(梯度消失和爆炸),RELU的出现可以说是一个起点。(图片来自Deep Neural Nets: 33 years ago and 33 years from now, 侵权即删)
这些外在和内在的技术发展,是的可以训练很深很复杂的网络。从LeNet的5层到现在几千层,GPT3的参数量有1750亿,训练数据足够大,模型足够复杂,算法的表示和鲁棒性会越好。
2.2 深度神经网络中深的含义
增加模型的复杂度,可把模型加「深」,或把模型加「宽」。
从提升模型复杂度的角度看,「加深」会更有效,因为简单来说,「加宽」仅是增加了计算单元,从而增加了基函数的数目;而在「加深」时不仅增加了基函数的数目,还增加了函数嵌套的层数,于是泛函表达能力会更强。所以,为提升复杂度,应该把网络「加深」。
加深之后的深度神经网络有更好的表示学习的能力。(图片来自周志华教授《关于深度学习的一点思考》侵权即删)
对于深度神经网络表示学习的关键,周志华教授的观点:
- 逐层加工处理
- 内置特征变换
- 模型复杂度够
(图片来自周志华教授《关于深度学习的一点思考》 侵权即删)
可以看出深度神经网络先从浅层的特征开始,逐层过渡到深层的抽象语义特征,这似乎和人的逐步分析,层层剥离的思维相似。类似的观点在李宏毅的机器学习讲义中也有提到。而逐层加工处理同时增加内置的特征的变换。
逐层加工处理和内置特征变换的思维,可以迁移到传统表单机器学习的特征加工上面,即深度嵌套特征加工。
周志华教授认为,满足了上面观点中的三个要求的表示学习都有好的学习能力,不一定拘泥于当前的深度神经网络如周志华教授团队deep forest。