1、现代机器学习理论大作业(基于深度学习的图像特征提取)基于深度学习的图像特征提取摘要: 大数据时代的来临,为深度学习理论的发展创造了良好的条件。本文介绍了深度学习的发展背景, 主要讨论了深度学习中的自编码的方法, 对自编码方法实现仿真应用,期望在以后能应用到 SAR 图像上进行自动特征提取,最后阐述该理论的目前遇到的困难。关键词: 深度学习 autoencoder convolution pooling一 引言机器学习是人工智能的一个分支, 而在很多时候, 几乎成为人工智能的代名词。 简单来说, 机器学习就是通过算法, 使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。
2、 从 1980年代末期以来, 机器学习的发展大致经历了两次浪潮:浅层学习( Shallow Learning)和深度学习( Deep Learning) 。第一次浪潮:浅层学习1980年代末期,用于人工神经网络的反向传播算法(也叫 Back Propagation算法或者 BP算法)的发明,给机器学习带来了希望,掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。人们发现,利用 BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律, 从而对未知事件做预测。 这种基于统计的机器学习方法比起过去基于人工规则的系统, 在很多方面显示出优越性。这个时候的人工神经网络,虽然也被称作多层
3、感知机( Multi-layer Perceptron) ,但实际上是一种只含有一层隐层节点的浅层模型。90年代, 各种各样的浅层机器学习模型相继被提出, 比如支撑向量机 ( SVM ,Support Vector Machines) 、 Boosting、 最大熵方法 (例如 LR, Logistic Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如 SVM 、 Boosting) ,或没有隐层节点(如 LR) 。这些模型在无论是理论分析还是应用都获得了巨大的成功。相比较之下,由于理论分析的难度,加上训练方法需要很多经验和技巧,所以这个时期浅层人工神经网络反而相对较
4、为沉寂。2000年以来互联网的高速发展, 对大数据的智能化分析和预测提出了巨大需求, 浅层学习模型在互联网应用上获得了巨大成功。 最成功的应用包括搜索广告系统(比如 Google的 AdWords、百度的凤巢系统)的广告点击率 CTR预估、网页搜索排序(例如 Yahoo!和微软的搜索引擎) 、垃圾邮件过滤系统、基于内容的推荐系统等。2006年,加拿大多伦多大学教授、机器学习领域泰斗 Geoffrey Hinton和他的学生 Ruslan Salakhutdinov在顶尖学术刊物科学上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要的信息: 1. 很多隐层的人工神经网络具
5、有优异的特征学习能力, 学习得到的特征对数据有更本质的刻画, 从而有利于可视化或分类; 2. 深度神经网络在训练上的难度, 可以通过 “ 逐层初始化( Layer-wise Pre-training)来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。第二次浪潮:深度学习自 2006年以来,深度学习在学术界持续升温。斯坦福大学、纽约大学、加拿大蒙特利尔大学等成为研究深度学习的重镇。 2010年,美国国防部 DARPA计划首次资助深度学习项目, 参与方有斯坦福大学、 纽约大学和 NEC美国研究院。 支持深度学习的一个重要依据, 就是脑神经系统的确具有丰富的层次结构。 一个最著名的例子就是
6、 Hubel-Wiesel模型,由于揭示了视觉神经的机理而曾获得诺贝尔医学与生理学奖。 除了仿生学的角度, 目前深度学习的理论研究还基本处于起步阶段,但在应用领域已显现出巨大能量。 2011年以来,微软研究院和 Google的语音识别研究人员先后采用 DNN技术降低语音识别错误率 20 30,是语音识别领域十多年来最大的突破性进展。 2012年, DNN技术在图像识别领域取得惊人的效果,在 ImageNet评测上将错误率从 26降低到 15。在这一年, DNN 还被应用于制药公司的 Druge Activity 预测问题, 并获得世界最好成绩, 这一重要成果被纽约时报报道。今天 Google、
7、微软、百度等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点, 正是因为它们都看到了在大数据时代, 更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息, 并对未来或未知事件做更精准的预测。在工业界一直有个很流行的观点: 在大数据条件下, 简单的机器学习模型会比复杂模型更加有效。 例如, 在很多的大数据应用中, 最简单的线性模型得到大量使用。 而最近深度学习的惊人进展, 促使我们也许到了要重新思考这个观点的时候。简而言之,在大数据情况下,也许只有比较复杂的模型,或者说表达能力强的模型,才能充分发掘海量数据中蕴藏的丰富信息。运用更强大的深度模型,也许我们能从
8、大数据中发掘出更多有价值的信息和知识。为了理解为什么大数据需要深度模型, 先举一个例子。 语音识别已经是一个大数据的机器学习问题, 在其声学建模部分, 通常面临的是十亿到千亿级别的训练样本。在 Google的一个语音识别实验中,发现训练后的 DNN对训练样本和测试样本的预测误差基本相当。 这是非常违反常识的, 因为通常模型在训练样本上的预测误差会显著小于测试样本。 因此, 只有一个解释, 就是由于大数据里含有丰富的信息维度,即便是 DNN 这样的高容量复杂模型也是处于欠拟合的状态,更不必说传统的 GMM 声学模型了。所以从这个例子中我们看出,大数据需要深度学习。浅层模型有一个重要特点, 就是假
9、设靠人工经验来抽取样本的特征, 而强调模型主要是负责分类或预测。 在模型的运用不出差错的前提下 (如假设互联网公司聘请的是机器学习的专家) ,特征的好坏就成为整个系统性能的瓶颈。因此,通常一个开发团队中更多的人力是投入到发掘更好的特征上去的。 要发现一个好的特征,就要求开发人员对待解决的问题要有很深入的理解。而达到这个程度,往往需要反复地摸索,甚至是数年磨一剑。因此,人工设计样本特征,不是一个可扩展的途径。深度学习的实质, 是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。所以 “ 深度模型 ”是手段, “ 特征学习 ” 是目的。区别于传
10、统的浅层学习,深度学习的不同在于: 1. 强调了模型结构的深度,通常有 5层、 6层,甚至 10多层的隐层节点; 2. 明确突出了特征学习的重要性, 也就是说, 同过逐层特征变换, 将样本在原空间的特征表示变换到一个新特征空间,使分类或预测更加容易。与人工规则构造特征的方法相比, 利用大数据来学习特征, 更能刻画数据丰富的内在信息。所以,在未来的几年里,我们将看到越来越多的例子:深度模型应用于大数据,而不是浅层的线性模型。图像是深度学习最早尝试的应用领域。早在 1989年, Yann LeCun (现纽约大学教授 ) 和他的同事们就发表了卷积神经网络 ( Convolution Neural
11、Networks, 简称 CNN)的工作。 CNN是一种带有卷积结构的深度神经网络,通常至少有两个非线性可训练的卷积层,两个非线性的固定卷积层(又叫 Pooling Laye)和一个全连接层,一共至少 5个隐含层。 CNN的结构受到著名的 Hubel-Wiesel生物视觉模型的启发,尤其是模拟视觉皮层 V1和 V2 层中 Simple Cell和 Complex Cell的行为。在很长时间里, CNN虽然在小规模的问题上,如手写数字,取得过当时世界最好结果,但一直没有取得巨大成功。这主要原因是, CNN在大规模图像上效果不好, 比如像素很多的自然图片内容理解, 所以没有得到计算机视觉领域的足够
12、重视。这个情况一直持续到 2012年 10月, Geoffrey Hinton和他的两个学生在著名的 ImageNet问题上用更深的 CNN取得世界最好结果, 使得图像识别大踏步前进。在 Hinton的模型里,输入就是图像的像素,没有用到任何的人工特征。这个惊人的结果为什么在之前没有发生? 原因当然包括算法的提升,比如dropout等防止过拟合技术,但最重要的是, GPU带来的计算能力提升和更多的训练数据。 百度在 2012年底将深度学习技术成功应用于自然图像 OCR识别和人脸识别等问题, 并推出相应的桌面和移动搜索产品, 2013年, 深度学习模型被成功应用于一般图片的识别和理解。 从百度的
13、经验来看, 深度学习应用于图像识别不但大大提升了准确性, 而且避免了人工特征抽取的时间消耗, 从而大大提高了在线计算效率。 可以很有把握地说, 从现在开始, 深度学习将取代 “ 人工特征 +机器学习 ” 的方法而逐渐成为主流图像识别方法。二 深度学习中的 sparse autoencoder 2.1 sparse autoencoder Deep learning领域比较出名的一类算法 sparse autoencoder,即稀疏模式的自动编码。 sparse autoencoder是一种自动提取样本(如图像)特征的方法。把输入层激活度(如图像)用隐层激活度表征,再把隐层信息在输出层还原。这样
14、隐层上的信息就是输入层的一个压缩过的表征, 且其信息熵会减小。 并且这些表征很适合做分类器。 我们知道, deep learning也叫做无监督学习, 所以这里的 sparse autoencoder也应是无监督的。如果是有监督的学习的话,在神经网络中,我们只需要确定神经网络的结构就可以求出损失函数的表达式了 (当然, 该表达式需对网络的参数进行 ” 惩罚 ” ,以便使每个参数不要太大) ,同时也能够求出损失函数偏导函数的表达式, 然后利用优化算法求出网络最优的参数。 应该清楚的是, 损失函数的表达式中,需要用到有标注值的样本。那么这里的 sparse autoencoder为什么能够无监督学
15、习呢?难道它的损失函数的表达式中不需要标注的样本值 (即通常所说的 y值)么?其实在稀疏编码中 ” 标注值 ” 也是需要的,只不过它的输出理论值是本身输入的特征值 x, 其实这里的标注值 y=x。 这样做的好处是, 网络的隐含层能够很好的代替输入的特征, 因为它能够比较准确的还原出那些输入特征值。 Sparse autoencoder的一个网络结构图如下所示:2.2 损失函数无稀疏约束时网络的损失函数表达式如下:稀疏编码是对网络的隐含层的输出有了约束, 即隐含层节点输出的平均值应尽量为 0, 这样的话, 大部分的隐含层节点都处于非激活状态。 因此, 此时的 sparse autoencoder
16、损失函数表达式为:后面那项为 KL距离,其表达式如下:隐含层节点输出平均值求法如下:其中的参数一般取很小,比如说 0.05,也就是小概率发生事件的概率。这说明要求隐含层的每一个节点的输出均值接近 0.05(其实就是接近 0,因为网络中激活函数为 sigmoid函数) , 这样就达到稀疏的目的了。 KL 距离在这里表示的是两个向量之间的差异值。从约束函数表达式中可以看出,差异越大则 ” 惩罚越大 ” ,因此最终的隐含层节点的输出会接近 0.05。假设我们有一个固定样本集 , 它包含个样例。 我们可以用批量梯度下降法来求解神经网络。 具体来讲, 对于单个样例,其代价函数为:这是一个 (二分之一的)
17、 方差代价函数。 给定一个包含 个样例的数据集,我们可以定义整体代价函数为:以上公式中的第一项 是一个均方差项。第二项是一个规则化项(也叫权重衰减项) ,其目的是减小权重的幅度,防止过度拟合。权重衰减参数 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义: 是针对单个样例计算得到的方差代价函数;是整体样本代价函数,它包含权重衰减项。以上的代价函数经常被用于分类和回归问题。 在分类问题中, 我们用或 ,来代表两种类型的标签,这是因为 sigmoid激活函数的值域为 ;如果我们使用双曲正切型激活函数, 那么应该选用 -1 和 +1 作为标签。 对于回归问题,我们首先要变换输出值域
18、,以保证其范围为 (同样地,如果我们使用双曲正切型激活函数,要使输出值域为 ) 。我们的目标是针对参数 和 来求其函数 的最小值。为了求解神经网络,我们需要将每一个参数 和 初始化为一个很小的、接近零的随机值 (比如说, 使用正态分布 生成的随机值, 其中 设置为 ) ,之后对目标函数使用诸如批量梯度下降法的最优化算法。因为是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化, 而不是全部置为 。 如果所有参数都用相同的值作为初始值, 那么所有隐藏层单元最终会得到与输入值有关的、 相同的函数 (
19、也就是说,对于所有 , 都会取相同的值,那么对于任何输入 都会有:) 。随机初始化的目的是使对称失效。2.3 反向传播算法梯度下降法中每一次迭代都按照如下公式对参数 和 进行更新:其中 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。我们首先来讲一下如何使用反向传播算法来计算 和, 这两项是单个样例 的代价函数 的偏导数。 一旦我们求出该偏导数, 就可以推导出整体代价函数 的偏导数:以上两行公式稍有不同, 第一行比第二行多出一项, 是因为权重衰减是作用于 而不是 。反向传播算法的思路如下:给定一个样例 ,我们首先进行 “ 前向传导 ” 运算,计
20、算出网络中所有的激活值,包括 的输出值。之后, 针对第 层的每一个节点 , 我们计算出其 “ 残差 ” , 该残差表明了该节点对最终输出值的残差产生了多少影响。 对于最终的输出节点, 我们可以直接算出网络产生的激活值与实际值之间的差距, 我们将这个差距定义为 (第层表示输出层) 。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 层节点)残差的加权平均值计算 ,这些节点以 作为输入。下面将给出反向传导算法的细节:进行前馈传导计算, 利用前向传导公式, 得到 直到输出层的激活值。对于第 层(输出层)的每个输出单元 ,我们根据以下公式计算残差:对 的各个层,第 层的第 个节点的残差计算方法如下:将上式中的 与 的关系替换为 与 的关系,就可以得到: