The Loss Surfaces of Multilayer Networks 论文阅读

张开发

• 2026/6/22 21:24:31 • 15 分钟阅读

分享文章

The Loss Surfaces of Multilayer Networks 论文阅读

1. 摘要本文研究全连接前馈神经网络的简单模型的高度非凸损失函数与球自旋玻璃模型的联系基本假设是(i) 变量独立(ii) 网络参数冗余(iii) 一致性。这些假设让我们可以利用随机矩阵理论的棱镜来解释全解耦神经网络的复杂性。本文指出对于大规模解耦网络随机损失函数的临界值形成一个层叠结构它们在一个明确定义的范围内其下界是全局最优点。该范围外的局部最优点的数量随着网络的规模而指数减少。本文经验性地证实数学模型与计算机模拟的结果很相似尽管在真实的网络中有高度的依赖。我们推测模拟退火算法和随机梯度下降法 (SGD) 都收敛到低临界点范围且所有的临界点都是局部极小点其在测试集上的误差是高质量的。此处需要强调大规模网络和小规模网络的主要区别小规模网络收敛到低质量极小点的的概率并不为零。最后我们证明随机网络规模的增大收敛到全局最小值变得越来越难但对实际问题的影响微乎其微反而是全局极小点很可能引起过拟合。2. 引言深度学习在过去几年得以得兴由于其在图像识别、语言识别、自然语言处理等领域的应用。一些广受欢迎的方法使用多层结构交替使用线性转移层和max函数。尤其是最普遍的版本max函数是ReLU限制线性单元其线性映射的形式是y max(x, 0)。在其它的结构中比如卷积网络maxout网络其max操作取该层变量的一个子集。在深度学习的实际应用中监督学习非常深的网络占据绝对的数量优势。监督损失函数一般是交叉熵或铰合损失使用随机梯度下降法 (SGD) 进行最小化梯度估计来自反向传播算法。损失函数的一般形状是非常难理解的。对早期的神经网络许多研究者和工程师曾测试过相对较小规模的网络其收敛是不可靠的尤其在使用批量优化时。但是一些研究生在测试大规模网络和随机梯度下降法时发现多层网络的局部极小值虽然很多。但多次实验给的结果出奇地一致。这意味着虽然局部极小值多但它们比较容易找到而且依据在测试集上的表现它们或多或少是等价的。本文尝试把随机矩阵理论应用到球面高阶多项式的临界点分析以解释这一奇怪的现象。我们首先证实带ReLU的典型多层网络的损失函数可以表示为网络中权重的多项式函数多项式的阶等于网络层数多项式中单项式的数量等于输入到输出的路径数。随着权重或输入的变化一些单项式消失另一些单项式激活。这导致函数是分段连续的多项式在分段点处有单项式的增删。一个重要的问题关系到该函数的临界点极大值、极小值、鞍点分布。随机矩阵理论的结果应用于球面自旋玻璃时已经证明该函数的鞍点的数量组合式增长。大规模神经网络的损失曲面有很多局部最小值从在测试集上的误差的角度看它们本质上是等价的。而且这些极小值趋向于高度简并其海森矩阵的许多本征值是零。我们经验性地证明了几个关于大规模网络学习的假设对于大规模网络大部分局部极小值是等价的且在测试集上性能相似在小规模网络上发现较差的局部极小值虽然局部极小但损失值依然较大的概率是非零的而且这个概率随着网络的规模是衰减的。纠结于在训练集上找到全局极小值在实际中是毫无意义的而且可能导致过似合。参考文献The Loss Surfaces of Multilayer Networks

更多文章

前端开发 2026/6/22 21:30:19

漏电流的检测要求和理解

漏电流的检测要求和理解简介漏电流的产生和效应标准要求漏电流的试验漏电流与电磁兼容的关系小结简介漏电流是指非功能性电流，是非期望的会引起安全方面危险的电流。漏电流表明了设备中电气绝缘起到防电击作用具有的性能，以使穿过电气绝缘的电流控制在…

张开发

前端开发 2026/6/22 21:27:49

Z-Image-Turbo-辉夜巫女快速上手：5分钟完成镜像拉取、容器运行、WebUI访问

Z-Image-Turbo-辉夜巫女快速上手：5分钟完成镜像拉取、容器运行、WebUI访问 1. 准备工作在开始之前，请确保您已经准备好以下环境： 一台运行Linux系统的服务器或本地计算机已安装Docker并配置好相关权限至少8GB可用内存（推荐16G…

张开发

前端开发 2026/6/22 21:38:07

基于WindyAPI的气象数据可视化开发实战

1. 认识WindyAPI：气象开发者的瑞士军刀第一次接触WindyAPI时，我正为一个农业物联网项目寻找可靠的气象数据源。当时试过不少气象服务，要么数据颗粒度太粗，要么API调用复杂得像解数学方程。直到发现这个宝藏工具——它就像给开发者…

张开发

前端开发 2026/6/22 21:32:16

如何使用Qwen Code文件系统工具：智能代码探索与分析的完整指南

如何使用Qwen Code文件系统工具：智能代码探索与分析的完整指南【免费下载链接】qwen-code An open-source AI agent that lives in your terminal. 项目地址: https://gitcode.com/GitHub_Trending/qw/qwen-code Qwen Code是一款开源AI代理工具，…

张开发

前端开发 2026/6/22 21:34:07

用STM32F103的PWM实现呼吸灯：深入理解__HAL_TIM_SET_COMPARE宏与占空比动态调节

STM32F103 PWM呼吸灯实战：从寄存器操作到动态调光算法优化呼吸灯作为嵌入式开发的经典案例，看似简单却蕴含了PWM控制、定时器配置、动态算法等多个核心技术点。本文将基于STM32F103C8T6的TIM4定时器，通过PB8引脚驱动LED，深入探讨…

张开发

前端开发 2026/6/22 22:01:56

Windows 11性能优化革命：Tiny11Builder如何让老旧硬件重获新生

Windows 11性能优化革命：Tiny11Builder如何让老旧硬件重获新生【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 在数字化转型加速的今天，企…

张开发

前端开发 2026/6/22 22:29:04

程序员必知的Linux内存真相：从MemAvailable到Cached的7个认知误区澄清

程序员必知的Linux内存真相：从MemAvailable到Cached的7个认知误区澄清在Linux系统性能调优的实践中，内存管理是最常被误解的领域之一。许多开发者习惯性地将Windows系统的内存观念直接迁移到Linux环境中，形成了诸如"空闲内存越多越好&q…

张开发

前端开发 2026/6/22 22:26:34

5步解锁Cursor Pro功能：免费VIP工具完全使用指南 [特殊字符]

5步解锁Cursor Pro功能：免费VIP工具完全使用指南 🚀 【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached…

张开发

$IguanaTex：如何在PowerPoint中轻松插入专业LaTeX数学公式？$

前端开发 2026/6/22 22:26:58

IguanaTex：如何在PowerPoint中轻松插入专业LaTeX数学公式？

IguanaTex：如何在PowerPoint中轻松插入专业LaTeX数学公式？ 【免费下载链接】IguanaTex A PowerPoint add-in to insert LaTeX equations into PowerPoint presentations on Windows and Mac 项目地址: https://gitcode.com/gh_mirrors/ig/IguanaTex …

张开发

前端开发 2026/6/14 17:05:56

NOFX与竞品对比：为什么它是下一代AI交易操作系统的终极选择

NOFX与竞品对比：为什么它是下一代AI交易操作系统的终极选择【免费下载链接】nofx Your personal AI trading assistant. Any market. Any model. Pay with USDC, not API keys. 项目地址: https://gitcode.com/gh_mirrors/nof/nofx NOFX（GitHub加…

张开发