收藏 分享(赏)

(2013)深度学习——机器学习领域的新热点.pdf

上传人:刘岱文 文档编号:5236 上传时间:2018-05-17 格式:PDF 页数:6 大小:4.41MB
下载 相关 举报
(2013)深度学习——机器学习领域的新热点.pdf_第1页
第1页 / 共6页
(2013)深度学习——机器学习领域的新热点.pdf_第2页
第2页 / 共6页
(2013)深度学习——机器学习领域的新热点.pdf_第3页
第3页 / 共6页
(2013)深度学习——机器学习领域的新热点.pdf_第4页
第4页 / 共6页
(2013)深度学习——机器学习领域的新热点.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、动态第 9 卷 第 7 期 2013 年 7 月64工智能领域的重要影响力他是人工智能的奠基人之一、并于1969年获得图灵奖,这本书令人工神经网络的研究进入了长达10多年的“冬天”。事实上,如果把单层感知机堆成多层(称为多层感知机,如图1所示),是可以求解线性不可分问题的。然而当时缺乏有效的算法,尽管1974年哈佛大学的博士生保罗维博思(Paul Werbos)提出了比较有效的反向传播(back propagation, BP)算法2,但并没有引起学术界的重视。直到1986年加拿大多伦多大学的杰夫希顿(Geoff Hinton)等人重新发现深度学习机器学习领域的新热点关键词 :深度学习胡 晓

2、林 朱 军清华大学深度学习目前受到了前所未有的关注。多家重要的信息技术公司(如微软、谷歌等)相继宣布在语音识别、图像处理等应用领域取得突破性进展;重要媒体(如纽约时报)对此多次宣传报道;百度公司还在2013年1月成立了深度学习研究院(the Institute of Deep Learning, IDL)。东方早报对此评论道:“I DL燃起的这把新火苗势必将在这个寒冬里点燃中国移动互联网的生机。”那么,深度学习到底是什么?它能担当起这一重任吗?要弄明白这些问题,还得从人工神经网络说起。深度学习的前世今生多层感知机人工神经网络起源于20世纪40年代,至今已有70年历史。第一个神经元模型是1943

3、年麦卡洛克(McCulloch)和皮茨(Pitts)提出的,称为阈值逻辑(threshold logic),它可以实现一些逻辑运算的功能。1958年罗森布拉特(Rosenblatt)提出了简单的神经网络模型感知机(perceptron),本质上这是一个线性分类器。1969年明斯基(Minsky)和帕拍特(Papert)在所著的感知机中指出:(1)单层感知机不能实现“异或”( XOR)功能(即不能解决线性不可分问题);(2)计算机能力有限,不能处理神经网络所需要的长时间运行过程1。鉴于明斯基在人输出层隐层输入层图 1 多 层 感 知 机 ( 每 个 神 经 元 接 受 下 层 神 经 元 的 输

4、 入 ,与 对 应 的 权 值 相 乘 并 加 上 一 个 偏 置 , 通 过 sigmoid1函 数 转 换后 将 值 传 给 上 层 神 经 元 )1即f(x)=1/(1 exp(-x),神经元的非线性作用函数。第 9 卷 第 7 期 2013 年 7 月65深度学习机器学习领域的新热点这一算法3,人工神经网络才再次受到重视。 但是反向传播算法在神经网络的层数增多时很容易陷入局部最优解,也很容易过拟合。在此后的20年里,反向传播算法唯一算得上成功的案例可能只有美国纽约大学的亚恩乐昆(Yann LeCun)于1998年提出的卷积神经网络4。由于其特殊的结构,这个网络在一些数据集上(如手写体数

5、字识别)取到了很好的效果。20世纪90年代,弗拉基米尔 瓦普内克(Vladimir Vapnik)提出了支持向量机(support vector machine, SVM)。虽然它是一个特殊的两层神经网络,但因其具有高效的学习算法,且没有局部最优的问题,使得很多神经网络的研究者转向支持向量机的研究,多层前馈神经网络的研究逐渐受到冷落。深度信念网络2006年杰夫希顿研究组提出了深度信念网络(deep belief network)5,神经网络的研究开始焕发出新一轮的生机。从结构上讲,深度信念网络与传统的多层感知机区别不大,并且在做有监督学习时算法也一样。唯一不同的是这个网络在做有监督学习前要先做

6、非监督学习,然后将非监督学习学到的权值当作有监督学习的初值进行训练。所以,深度信念网络从结构上讲不是一件新事物,它的兴起主要归功于学习方法的变革。希顿研究组提出的学习方法与另一个神经网络受限玻尔兹曼机(restricted Boltzmann machine, RBM)密切相关。 受限玻尔兹曼机是一个单层的随机神经网络(通常我们不把输入层计算在神经网络的层数里)(如图2所示),本质上是一个概率图模型。输入层与隐层之间是全连接,但层内神经元之间没有相互连接。每个神经元要么激活(值为1)要么不激活(值为0),激活的概率满足sigmoid函数。受限玻尔兹曼机的优点是给定一层神经元的状态时,另外一层神

7、经元的状态是相互独立的。这对于做随机采样来说比较方便,可以分别固定一层,采样另一层,交替进行。理论上所有神经元需要采样无穷多次后才能进行权值的更新,这种方法称为对比分歧(contrastive divergence, CD)算法。由于该算法计算太慢,于是希顿等人提出了一个近似方法C D-n算法6,只需采样n次后就可更新一次权值。当学习完一个受限玻尔兹曼机模型后,算法就固定权值,再在上面叠加一层新的隐层单元,使原来受限玻尔兹曼机的隐层变成它的输入层,这样就构造了一个新的受限玻尔兹曼机,之后,再用同样的方法学习它的权值。依此类推,可以叠加出多个受限玻尔兹曼机,从而构成一个深度信念网络。将受限玻尔兹

8、曼机学习到的权值作为这个深度信念网络的初始权值,再用反向传播算法进行学习,就形成了深度信念网络的学习方法。图3的左边给出一个例子7。这个网络有4层,能将一个高维的图像信号压缩到30维,即最顶层的神经元个数为30。我们还可以把这个网络对称展开,将30维回退到原来的高维信号,这样就有了一个8层的网络(见图3的中间)。如果将该网络用于信号压缩,就可以令该网络的目标输出等于输入,再用反向传播算法对权值进行微调(见图3的右边)。深度学习希顿的这项工作重新唤起了学术界对于神经网络的热情,逐渐吸引了一批优秀的学者加入到深层神经网络的研究中,包括加拿大蒙特利尔大学的本希奥(Bengio)研究组、美国斯坦福大学

9、的吴恩达(Andrew Ng)研究组、美国纽约大学的亚恩乐昆研究组以及NEC美国研究院的余凯研究组(余凯现已加入百度公司)等。研究人员提出的模型除了传统的多层感知机、卷积神经网络外,还有很多其隐层输入层图 2 受 限 玻 尔 兹 曼 机 的 结 构 示 意 图动态第 9 卷 第 7 期 2013 年 7 月66它的层次化模型。我们把这类模型统称为深度学习模型。本希奥研究组的一个重要贡献是提出了基于自编码器(auto-encoder)的深度学习网络。自编码器和受限玻尔兹曼机的激活函数都是sigmoid函数,学习原则也一致,都可以看成是将数据的似然概率最大化,只是实现方式不同。吴恩达研究组和余凯研

10、究组提出了一系列基于稀疏编码的深层学习网络,他们的工作扩展了深层网络的学习方式,比如在同一个网络中,不同层之间的学习方法可以不一样。深度学习模型目前在很多领域(如语音识别、图像分类等)都优于过去的方法。例如,在2011年神经网络国际联合会议(the International Joint Conference on Neural Networks, IJCNN)上,其交通标志识别竞赛中,一组来自瑞士的研究者使用基于卷积神经网络的方法一举夺魁8,其识别准确率超过了人类;两个迁移学习(transfer learning)竞赛中也都是基于深度学习的算法获胜911。事实上,几乎每篇深度学习的论文的发表

11、都意味着某个数据集上的某项评价指标被刷新。学术界对神经网络的热情迅速感染了工业界,一些嗅觉敏锐的公司的研究机构迅速跟进。2010年,微软研究院的邓力博士与希顿合作发现深层网络可显著提高语音识别的精度12。此后,微软亚洲研究院进一步深化了这项成果。他们建立了一些巨大的神经网络,其中一个包含了6600多万神经的连接,成为语音识别研究史上最大的同类模型,这也使得在Switchboard标准数据集识别的错误率比已有的最低错误率降低了33%!要知道,在语音识别领域,这个数据集上的最低错误率已多年没有更新。为此,邓力博士还接受了纽约时报的专访。谷歌研究院通过与吴恩达研究组合作,建立了共有10亿个参数的深度

12、网络18,堪称史上最大的神经网络。他们用2000台机器共32000个核对该网络训练了一周,在ImageNet数据集上得到的分类准确率比当前最好的结果提高了70%。百度公司在语音识别准确率方面,利用深度学习技术,使得过去一年的进展就超过了过去15年进展的总和,以图搜图的准确率从20%提升到80%13。繁华背后的思考深度学习这个概念现在炙手可热,受到了学术界和工业界的广泛追捧。大批学者正从不同的领WWW +WWWWW +W +W +WW +W +W +WWWWWW12000RBM220001000500500100010005001 12000200050050010001000200050020

13、00T4TRBM Z 71000RBM3430304 42 23 34T53T62T71T8I 12330432T1T RBMTop图 3 一 个 深 度 学 习 网 络 的 例 子7( 注 : RBM为 受 限 玻 尔 兹 曼 机 )第 9 卷 第 7 期 2013 年 7 月67域赶来,机器学习国际会议(the International Con-ference on Machine Learning, ICML)、神经信息处理系统会议(Neural Information Processing System, NIPS)以及IEEE模式分析与机器智能学报(IEEE Transaction

14、s on Pattern Analysis and Machine Intelli-gence, IEEE Trans. PAMI)等著名会议和期刊上的相关论文也越来越多。从目前的情况看,这场声势浩大的盛宴似乎要持续几年。然而,我们在赶赴这场盛宴前,需要冷静思考。为什么需要深度结构?我们可以用一个直观的方式来看待这个问题。由于网络的输出是一个关于输入的非线性函数,它的表达能力取决于这个函数。每个输入神经元的信息经过中间层到达输出层,其路径条数呈指数上升(各层神经元个数的乘积),如图4所示。而每条路径对应于该输入信息的一系列非线性操作。每增加一层,这样的路径条数就成倍增长,网络的表达能力也相应增

15、强。因此,一个浅层网络即使其隐层单元的个数、内部操作算子等与深层网络相同,它的表达能力也远远低于深层网络。在极端情况下,单层网络中每个输入神经元的信息到达输出层的路径条数是线性的(等于输出神经元的个数)。一些文献(如文献14)明确给出了一些函数,这些函数用深层结构表达要比用浅层结构表达更高效,效率的差异随网络规模呈指数增长。如果深层网络在表达同样的函数时所需的参数比浅层网络少,则它的计算效率(访问更少的节点)和统计效率(学习更少的参数,并且对不同的输入使用同样的这些参数)会更高15。 为什么需要预训练?希顿于2006年发现只有结合预训练才能使深度网络发挥威力。目前,大多数深度学习网络都需要先进

16、行无监督的预训练,再进行有监督的训练,结果通常比从一开始就进行有监督的训练要好。这其实对应着一个合理的假设:用P(X)描述无监督预训练所得到的关于数据的一种表示,然后用有监督学习对网络进行训练得到P(Y|X),其中Y为输出(如类别标签)。该假设认为P(X)的学习有助于P(Y|X)的学习。相对于单纯的有监督学习而言,这种学习思路有助于降低过拟合的风险,原因在于它不仅学习了条件概率分布P (Y |X ),还学习了X和Y的联合概率分布。此外,对于预训练有助于深度学习的原因,最直接的解释是预训练将网络参数训练到一组合适的初始值,从这组初始值出发会令代价函数达到一个更低的值。但埃尔汉(Erhan)等人通

17、过实验发现不做预训练,网络能在训练数据集上收敛到更低的误差值16,但这个方法在测试集上的表现并不好,会出现过拟合。实验结果说明预训练给学习器施加了一个正则化的效果,使得网络参数的初始值位于一个代价函数的盆地,能容易地收敛到对应于更高泛化能力的局部极小值。这表明网络的效果与代价函数的值没有直接关系。但是这一结论还有待商榷。多伦多大学的另一个研究组发现如果用一种二阶的优化算法训练深层神经网络,测试的结果可以比深层信念网络的结果好,至少相当17。而希顿等人的一项最新研究19表明,在网络足够大时,预训练对结果几乎没有影响。他们使用传统的反向传播算法图 4 深 度 网 络 的 信 息 传 输 路 径动态

18、第 9 卷 第 7 期 2013 年 7 月68在ImageNet分类任务中刷新了纪录。面临的挑战和机遇关于深度学习的讨论和研究正呈井喷式发展,这同时带来了机遇和挑战:首先,深度网络为人诟病的一个缺点是超参数太多,设计一个模型非常麻烦;很多学习方法效率较低,模型的效果十分依赖计算能力。所以,如何设计新的学习方法、搭建新的框架、提高深度学习模型的设计效率和计算效率是值得研究的方向。其次,各种深度网络的学习方法层出不穷,令人眼花缭乱。但是,深度网络的强大能力到底是得益于这些具体的算法还是得益于它的层次结构,还是两者都有?如果是得益于它的结构,那么从学习理论的角度看这种结构的本质是什么?预训练和新的

19、优化方法哪一个是根本?二者的关系是什么?对于这些问题目前还没有比较系统的研究。再次,深度网络通常被认为是借鉴大脑的信息处理机制发展起来的。然而,现有的深度网络只有前馈连接而没有反馈连接,这与真实的神经网络不同。如果能在深层网络中引入适当的反馈连接,其能力可能会得到进一步提升。但是,由于反馈神经网络的动态过程复杂,一般没有规律可循,因此训练算法往往要针对不同的网络设计不同的算法。更糟糕的是,这些学习算法的实际应用效果并不好,对数据的可扩展性差,无法适应当前网络时代下的大数据处理需求。近年来出现了一些基于深度学习的方法用于训练反馈神经网络,虽然其效果不错,但是如何将反馈神经网络与前馈深度网络相结合

20、还是一个正在探索的问题。最后,硬件与软件的配合还有很长的路要走。目前绝大多数深度网络都需要进行大量的计算,并行化必不可少,毕竟大脑对信息的处理基本是并行的。并行的方式有机器并行和使用GPU并行。显然后者对于研究者而言更加经济可行。但目前对于大部分研究人员来讲,编写GPU代码还是比较费时费力的,因此需要硬件厂商和软件厂商通力合作,为业界提供傻瓜式的编程工具。结语从目前的形势看,深度学习是当前关注的热点,受到工业界的力捧。尽管如此,学术界仍有许多人对此保持冷静,甚至认为深度学习有点热过头了。深度学习基本上还只是一个经验主导的研究方向。如今很多学者在问,深度学习为统计学习的基础理论和算法到底贡献了哪

21、些新成果?而且,现有的深度学习方面的研究在很大程度上依赖于计算资源,谁拥有的机器多、做的并行架构好,谁的结果可能就好。学术界在这方面很难敌得过工业界,一般的研究组不经过长期的积累很难做出有影响力的工作。此外,深度学习只是机器学习领域的一个方向,而且这个方向上的工作几乎还没有接触到统计学习的核心问题,如泛化性能、学习效率等,更多的还停留在诸如试误法(trial-and-error)的经验尝试。目前称得上以深度学习为主的研究组大概也就十几个20,更多的研究者还在从事统计学习的基础理论、算法等工作。因此,青年学者在选择研究课题时还需要慎重考虑。朱 军 CCF会员、本刊编委。2009 CCF优秀博士学

22、位论文奖获得者。清华大学副研究员。主要研究方向为机器学习、概率图模型、非参数化贝叶斯方法等。胡晓林 清华大学助理研究员。主要研究方向为人工神经网络和计算神经科学。参考文献1 http:/en.wikipedia.org/wiki/Neural_network2 P. J. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974第 9 卷 第 7 期 2013 年 7 月693 D. Rumel

23、hart, G. Hinton, R. Williams, Learning representations by back-propagating errors, Nature, 1986, vol. 323, pp. 5335364 Y. LeCun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based learning applied to document recognition, Proc. of the IEEE, 1998, vol. 86, no. 11, pp. 227823245 G. E. Hinton, S. Osinder

24、o, Y.-W. Teh, A fast learning algorithm for deep belief nets, Neural Computation, 2006, vol. 18, pp. 152715546 G. E. Hinton, Training products of experts by minimizing contrastive divergence, Neural Computation, 2002, vol. 14, pp. 177118007 G. E. Hinton, R. R. Salakhutdinov, Reducing the dimensional

25、ity of data with neural networks, Science, 2006, vol. 313, no. 5786, pp. 5045078 D. Ciresan, U. Meier, J. Masci, J. Schmidhuber, A committee of neural networks for traffic sign classication, in: IJCNN 20119 Y. Bengio, Deep learning of representations for unsupervised and transfer learning, in: JMLR

26、W&CP: Proc. Unsupervised and Transfer Learning, 201110 G. Mesnil , Y. Dauphin, X. Glorot, et al., Unsupervised and transfer learning challenge: a deep learning approach, in: JMLR W&CP: Proc. Unsupervised and Transfer Learning, 201111 I. Goodfellow, A. Courville, and Y. Bengio, Spikeand-slab sparse c

27、oding for unsupervised feature discovery, in: NIPS Workshop on Challenges in Learning Hierarchical Models, 201112 G. Dahl, D. Yu, L. Deng, A. Acero, Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition, IEEE Transactions on Audio, Speech, and Language Processing

28、, 2012, vol. 20, no. 1, pp. 304213 http:/ J. Hastad, M. Goldmann, On the power of small depth threshold circuits, Computational Complexity, 1991, vol. 1, pp. 11312915 Y. Bengio, A. Courville, P. Vincent, Representation l e a r n i n g: a r e v i e w a n d n e w p e r s p e c t i v e s, arXiv:1206.55

29、38v2, 201216 D. Erhan, Y. Bengio, A. Courville, P.-A. Manzagol, P. Vincent, S. Bengio, Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, vol. 11, 2010, pp. 62566017 J. Martens, Deep learning via Hessian-free optimization, in: ICML, 2010, pp. 73574218 Q. V. Le, M. Ranzato, R. Monga, M. Devin, K. Chen, G. S. Corrado, J. Dean, and A. Y. Ng. Building high-level features using large scale unsupervised learning, in: ICML, 201219 A. Krizhevsky, I. Sutskever, G. Hinton, ImageNet classification with deep convolutional neural networks, in: NIPS 201220 http:/

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 网络技术 > 热门技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报