The Loss Surfaces of Multilayer Networks 论文阅读

张开发
2026/4/14 13:14:50 15 分钟阅读

分享文章

The Loss Surfaces of Multilayer Networks 论文阅读
1. 摘要本文研究全连接前馈神经网络的简单模型的高度非凸损失函数与球自旋玻璃模型的联系基本假设是(i) 变量独立(ii) 网络参数冗余(iii) 一致性。这些假设让我们可以利用随机矩阵理论的棱镜来解释全解耦神经网络的复杂性。本文指出对于大规模解耦网络随机损失函数的临界值形成一个层叠结构它们在一个明确定义的范围内其下界是全局最优点。该范围外的局部最优点的数量随着网络的规模而指数减少。本文经验性地证实数学模型与计算机模拟的结果很相似尽管在真实的网络中有高度的依赖。我们推测模拟退火算法和随机梯度下降法 (SGD) 都收敛到低临界点范围且所有的临界点都是局部极小点其在测试集上的误差是高质量的。此处需要强调大规模网络和小规模网络的主要区别小规模网络收敛到低质量极小点的的概率并不为零。最后我们证明随机网络规模的增大收敛到全局最小值变得越来越难但对实际问题的影响微乎其微反而是全局极小点很可能引起过拟合。2. 引言深度学习在过去几年得以得兴由于其在图像识别、语言识别、自然语言处理等领域的应用。一些广受欢迎的方法使用多层结构交替使用线性转移层和max函数。尤其是最普遍的版本max函数是ReLU限制线性单元其线性映射的形式是y max(x, 0)。在其它的结构中比如卷积网络maxout网络其max操作取该层变量的一个子集。在深度学习的实际应用中监督学习非常深的网络占据绝对的数量优势。监督损失函数一般是交叉熵或铰合损失使用随机梯度下降法 (SGD) 进行最小化梯度估计来自反向传播算法。损失函数的一般形状是非常难理解的。对早期的神经网络许多研究者和工程师曾测试过相对较小规模的网络其收敛是不可靠的尤其在使用批量优化时。但是一些研究生在测试大规模网络和随机梯度下降法时发现多层网络的局部极小值虽然很多。但多次实验给的结果出奇地一致。这意味着虽然局部极小值多但它们比较容易找到而且依据在测试集上的表现它们或多或少是等价的。本文尝试把随机矩阵理论应用到球面高阶多项式的临界点分析以解释这一奇怪的现象。我们首先证实带ReLU的典型多层网络的损失函数可以表示为网络中权重的多项式函数多项式的阶等于网络层数多项式中单项式的数量等于输入到输出的路径数。随着权重或输入的变化一些单项式消失另一些单项式激活。这导致函数是分段连续的多项式在分段点处有单项式的增删。一个重要的问题关系到该函数的临界点极大值、极小值、鞍点分布。随机矩阵理论的结果应用于球面自旋玻璃时已经证明该函数的鞍点的数量组合式增长。大规模神经网络的损失曲面有很多局部最小值从在测试集上的误差的角度看它们本质上是等价的。而且这些极小值趋向于高度简并其海森矩阵的许多本征值是零。我们经验性地证明了几个关于大规模网络学习的假设对于大规模网络大部分局部极小值是等价的且在测试集上性能相似在小规模网络上发现较差的局部极小值虽然局部极小但损失值依然较大的概率是非零的而且这个概率随着网络的规模是衰减的。纠结于在训练集上找到全局极小值在实际中是毫无意义的而且可能导致过似合。参考文献The Loss Surfaces of Multilayer Networks

更多文章