1、. . . . . . . . . 187第七章深度学习的正则化1917.1参数范数惩罚. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1927.1.1 L2参数正则化. . . . . . . . . . . . . . . . . . . . . . . . . . 1937.1.2 L1参数正则化. . . . . . . . . . . . . . . . . . . . . . . . . . 1967.2作为约束的范数惩罚. . . . . . . . . . . . . . . . . . . . . .
2、 . . . . . 1987.3正则化和欠约束问题. . . . . . . . . . . . . . . . . . . . . . . . . . . 2007.4数据集增强. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2017.5噪声鲁棒性. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2027.5.1向输出目标注入噪声. . . . . . . . . . . . . . . . . . . . . . . 203
3、7.6半监督学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2037.7多任务学习. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2047.8提前终止. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2057.9参数绑定和参数共享. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4、17.9.1卷积神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . 2127.10稀疏表示. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2127.11 Bagging和其他集成的方法. . . . . . . . . . . . . . . . . . . . . . . . 2147.12 Dropout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5、2167.13对抗训练. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2247.14切面距离、正切传播和流形正切分类器. . . . . . . . . . . . . . . . . 225第八章深度模型中的优化2288.1学习和优化有什么不同. . . . . . . . . . . . . . . . . . . . . . . . . . 2288.1.1经验风险最小化. . . . . . . . . . . . . . . . . . . . . . . . . 2298.1.2替代损失函数和提
6、前终止. . . . . . . . . . . . . . . . . . . . 2308.1.3批算法和minibatch算法. . . . . . . . . . . . . . . . . . . . . 2308.2神经网络的优化挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . 2348.2.1病态. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2348.2.2局部极小值. . . . . . . . . . . . . . . . . .
7、. . . . . . . . . . 2358.2.3高原,鞍点和其他平坦区域. . . . . . . . . . . . . . . . . . . 237DRAFT仅供学习使用,不得用于商业目的。https:/ . . . . . . . . . . . . . . . . . . . . . . . . 2398.2.5长期依赖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2408.2.6非精确梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8、8.2.7局部和全局结构间的弱对应. . . . . . . . . . . . . . . . . . . 2418.2.8优化的理论限制. . . . . . . . . . . . . . . . . . . . . . . . . 2438.3基本算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2438.3.1随机梯度下降. . . . . . . . . . . . . . . . . . . . . . . . . . . 2438.3.2动量. . . . . . . . . . . .
9、. . . . . . . . . . . . . . . . . . . . 2458.3.3 Nesterov动量. . . . . . . . . . . . . . . . . . . . . . . . . . 2488.4参数初始化策略. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2498.5自适应学习率的算法. . . . . . . . . . . . . . . . . . . . . . . . . . . 2538.5.1 AdaGrad . . . . . . . . . . . . . . .
10、. . . . . . . . . . . . . . 2548.5.2 RMSProp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2548.5.3 Adam . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2558.5.4选择正确的优化算法. . . . . . . . . . . . . . . . . . . . . . . 2568.6二阶近似方法. . . . . . . . . . . . . . . . . . . . . . .
11、. . . . . . . . 2578.6.1牛顿方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2588.6.2共轭梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2598.6.3 BFGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2628.7优化技巧和元算法. . . . . . . . . . . . . . . . . . . . . . . . . . .
12、. . 2638.7.1 batch normalization . . . . . . . . . . . . . . . . . . . . . . . 2638.7.2坐标下降. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2668.7.3 Polyak平均. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2668.7.4监督预训练. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2678.7.5设
13、计有助于优化的模型. . . . . . . . . . . . . . . . . . . . . . 2698.7.6连续方法和课程学习. . . . . . . . . . . . . . . . . . . . . . . 270第九章卷积神经网络2739.1卷积运算. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2749.2动机. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2769.3池化. . .
14、. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2829.4卷积与池化作为一种无限强的先验. . . . . . . . . . . . . . . . . . . . 2879.5基本卷积函数的变体. . . . . . . . . . . . . . . . . . . . . . . . . . . 288DRAFT仅供学习使用,不得用于商业目的。https:/ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2989.7数据
15、类型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2999.8高效的卷积算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3019.9随机或无监督的特征. . . . . . . . . . . . . . . . . . . . . . . . . . . 3019.10卷积神经网络的神经科学基础. . . . . . . . . . . . . . . . . . . . . . 3029.11卷积神经网络与深度学习的历史. .
16、 . . . . . . . . . . . . . . . . . . . 308第十章序列建模:循环和递归网络31010.1展开计算图. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31110.2循环神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31410.2.1 Teacher Forcing和输出循环网络. . . . . . . . . . . . . . . . 31710.2.2计算循环神经网络的梯度. . .
17、. . . . . . . . . . . . . . . . . 31910.2.3作为有向图模型的循环网络. . . . . . . . . . . . . . . . . . . 32010.2.4基于上下文的RNN序列建模. . . . . . . . . . . . . . . . . . 32410.3双向RNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32610.4基于编码-解码的序列到序列架构. . . . . . . . . . . . . . . . . . . . . 3281
18、0.5深度循环网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32910.6递归神经网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33110.7长期依赖的挑战. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33310.8回声状态网络. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33510
19、.9渗漏单元和其他多时间尺度的策略. . . . . . . . . . . . . . . . . . . . 33710.9.1时间维度的跳跃连接. . . . . . . . . . . . . . . . . . . . . . . 33710.9.2渗漏单元和一系列不同时间尺度. . . . . . . . . . . . . . . . 33710.9.3删除连接. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33810.10长短期记忆和其他门控RNN . . . . . . . . . . . . . . . .
20、 . . . . . . . 33810.10.1 LSTM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33910.10.2其他门控RNN . . . . . . . . . . . . . . . . . . . . . . . . . . 34110.11优化长期依赖. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34110.11.1截断梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34210.11.2引导信息流的正则化. .