麻省理工解读神经网络历史三篇论文剖析基础理论

　　最近几年来，深度神经网络已经成为了人工智能技术发展的主要推动力。近日，麻省理工学院官网上刊登了一篇解读神经网络的发展过程的文章，梳理介绍了神经网络在过去 70 年来的起起伏伏。在文章中，作者还简单介绍了 MIT 的大脑、和机器中心（CBMM）在神经网络基础理论上的一些研究。机器对该文章进行了编译介绍，还摘要性地介绍了 CBMM 已经发布的三项理论研究，具体研究详情请相关论文。最近几年来，深度神经网络已经成为了人工智能技术发展的主要推动力。近日，麻省理工学院官网上刊登了一篇解读神经网络的发展过程的文章，梳理介绍了神经网络在过去 70 年来的起起伏伏。在文章中，作者还简单介绍了 MIT 的大脑、和机器中心（CBMM）在神经网络基础理论上的一些研究。机器对该文章进行了编译介绍，还摘要性地介绍了 CBMM 已经发布的三项理论研究，具体研究详情请相关论文。

　　许多深度学习应用使用卷积神经网络，网络中每层的节点是聚合在一起的，这些集群（cluster）互相重叠，每个集群为下一层的多个节点（橘黄与绿色）馈送数据。

　　在过去的 10 年中，人工智能系统的最好表现（比如智能手机上的语音识别系统或谷歌最新的自动翻译系统）结果来自于一种名为「深度学习」的技术。

　　深度学习事实上是名为神经网络的人工智能方法的新名字，神经网络在流行与过时的起起伏伏间已经存在了 70 年之久。神经网络由 Warren McCullough 和 Walter Pitts 于 1944 年首次提出，这两位大学的研究人员于 1952 年加入 MIT，并成为了首个认知科学系的创始。

　　直到 1969 年以前，神经网络都一直是神经科学和计算机科学的主要研究领域。据计算机科学界的一个传言说，神经网络研究热潮是被麻省理工的数学家 Marvin Minsky 和 Seymour Papert 浇灭的，Seymour Papert 在 1970 年成为了新麻省理工人工智能实验室的联合负责人。

　　后来，神经网络技术在 1980 年代重获复苏，但是在 21 世纪的第一个十年里却再次衰落。在第二个十年里，现在神经网络势如破竹般地归来，这主要归功于今天图像芯片强大地处理能力。

　　「有这么一个观点认为，科学界中地观点有点像流行病毒，」Tomaso Poggio 说道，他是麻省理工脑与认知科学学院的 Eugene McDermott 教授（Eugene McDermott Professor of Brain and Cognitive Sciences），麻省理工 McGovern 大脑研究所（McGovern Institute for Brain Research）的研究员，也是麻省理工大脑、和机器中心（CBMM：Center for Brains, Minds, and Machines）的主任。「显然，存在 5 到 6 种基本流感病毒株，而且每一种大约 25 年会爆发一次。人们会被感染，然后发展出免相应的疫防御机制，于是在接下来的 25 年中他们不会再次感染该种流感病毒。然后，同样的病毒株会变异成新的一代可以感染人类的病毒。在科学领域，当人们非常热衷于一个观点时，他们会对这个观点非常兴奋，极力为其，然后他们会对该观点免疫——即厌倦它。这样的观点应该也有和上述流感病毒例子同样的周期性！」Tomaso Poggio 说。

　　神经网络是一种机器学习方法，其中计算机通过分析训练样本来学习执行某些任务。一般来说，这些样本都事先被人工标注过了。比如说，一个目标识别系统可能在分析了成千上万张汽车、房子、咖啡杯的图像之后能够找到图像中与特定标签持续相关的的视觉模式。

　　神经网络是对人脑的简单建模，其包含了上万乃至数百万的简单处理节点，这些节点之间紧密连接。今天大多数神经网络的组织形式都是层次化的节点，而且它们是「前馈的（feed-forward）」，也就是说其中的数据仅在一个方向上流动。一个单个节点可能会连接到其下层的多个节点（它们将数据传输给下层节点）和其上层的多个节点（它们接收上层节点的数据）。

　　对于每个接入的连接，节点会分配一个数字：「权重（weight）」。当神经网络在运行中时，节点会从每个连接上接收到不同的数据——不同的数字——它们会与相关的权重相乘。随后，这些结果会被叠加在一起，生成一个数字。如果这个数字小于阈值，则节点不会向下一层传递数据；反之，如果数字超过了阈值，节点会被「触发」，在今天的神经网络中这通常意味着把这个数字（输入权重的和）传送到所有与之连接的下游。

　　当一个神经网络被训练时，它的所有权重和阈值的初始状态都是随机的。训练数据被递送到底层——输入层——从这里开始所有层级的传递，以复杂的方式相乘并叠加在一起，直到它们最终经过完全转换到达输出层为止。在训练时，权重和阈值会持续受到训练数据影响，直到具有相同标签的数据可以产生相同的输出。

　　1944 年 McCullough 和 Pitts 描述的神经网络有阈值和权重，但并不是按层的方式排列的，而且当时研究人员也没详细说明任何训练机制。McCullough 和 Pitts 展现的是神经网络能够在理论上计算任何数字化计算机能够计算的函数。结果更偏向于神经科学，而非计算机科学：关键点是人类大脑可被视为一种计算设备。

　　神经网络一直是神经科学研究的有力工具。例如，特别是调整权重和阈值的网络布局或规则曾产生了人类神经解剖学和认知研究中观察到的特征，为了解大脑如何处理信息提供了。

　　首个可训练的神经网络——器（Perceptron），由康奈尔大学的心理学家 Frank Rosenblatt 于 1957 年提。器的设计非常类似于现代的神经网络，只是它仅有一层带有可调整权重和阈值的层，夹在输入和输出层之间。

　　直到 1959 年，器都是心理学和计算机科学新科目的活跃研究领域，当时 Minsky 和 Papert 发表了一本名为「Perceptrons」的书，证明在器上执行一定量的常见计算会非常耗时间，不切实际。

　　Poggio 说：「当然，如果你采用机制稍微复杂一点，比如 2 层，那么所有的这些缺陷也就不存在了。」但在当时，这本书为神经网络的研究泼了一盆冷水。

　　「你要把历史考虑在内，」Poggio 说，「他们在争论编程，争论 Lisp 这样的语言。不久之前，人们仍在使用模拟计算机。编程的不是一直以来都是很清晰的。我觉得他们有点过了，但像往常一样，这种事不黑即白的。如果你把它当成模拟计算和数字化计算之间的竞争，那当时他们就是为正确的一方而战。」

　　但是在 20 世纪 80 年代，研究者已经开发出了用于修改神经网络的权重和阈值的算法，该算法消除了 Minsky 和 Papert 确定的诸多，并对超过一层的网络而言是足够有效的。该领域迎来了复兴！

　　但在智能上，神经网络也有一些让人不满意的地方。也许足够的数据能让一个神经网络最后达到足够有用的数据分类水平，但这些设置意味着什么？一个目标识别器看了什么样的图像特征？这些特征又是如何组合在一起成为了汽车、房子或咖啡杯的识别标签的？观察网络的单个连接的权重不能为我们提供答案。

　　最近几年，计算机科学家已经开始构想用于推导神经网络所采用的策略的巧妙方法。但在 20 世纪 80 年代，网络的策略还是无读的。所以大约纪之交的时候，神经网络被支持向量机取代。支持向量机是另一种机器学习方法，基于非常简洁和优雅的数学。

　　神经网络最近的复苏——深度学习——承蒙计算机游戏产业的发展。今天，复杂图像和快节奏的视频游戏需要硬件能跟得上，于是，出现了图像处理单元（graphics processing unit，GPU）。GPU 可以在单个芯片上集成成千上万个相对简单的处理核心。没过多久研究者就意识到，其实 GPU 的构架非常像一个神经网络。

　　现代 GPU 使得 1960 年代的一层网络和 1980 年代的 2 到 3 层网络直接飞跃成今天的 10 层、15 层、甚至是 50 层网络。这也即所谓深度学习中的「深度」之所指——神经网络层的深度。目前，深度学习几乎在每一个人工智能研究领域都是表现最为优异的系统。

　　网络的不透明性仍然是一个悬而未决的理论问题，但在这个方向上也有进展。除了领导大脑、和机器中心（CBMM：Center for Brains, Minds, and Machines），Peggio 还领导了该中心的「智能的理论框架（Theoretical Frameworks for Intelligence）」研究项目。最近，该团队已经发布了三篇有关神经网络的理论研究。

　　第一篇上个月发表在 International Journal of Automation and Computing 上，其介绍了深度学习网络所能执行的计算的范围以及深度学习何时实现了对浅度学习的超越。第 2 和 3 篇是作为 CBMM 技术报布的，介绍了全局优化问题（即网络该如何找到最匹配其训练数据的设置）以及过拟合问题（即当网络过于拟合其训练数据的细节时，其将难以泛化到该类别的其它实例上）。

　　有待解答的理论问题还有很多很多，但 CBMM 的研究有可能帮助神经网络打破过去七十年来起起伏伏的循环。

　　本论文概述并扩展了在深度学习上的新兴理论，其中包括深度学习可以极大地优于浅度学习（shallow learning）的条件基础。一类深度卷积网络代表了这些条件的一个重要的特殊类别，尽管权重共享（weight sharing）并不是这种极大的优势的主要原因。本论文还讨论了一些关键的含义，以及一些新的结果、尚未解决的问题和猜想。

　　之前在深度学习和神经网络优化上的理论往往倾向于避开鞍点（saddle point）和局部最小值（local minima）。但是，实际的观察（至少对于用于视觉处理的最成功的深度卷积神经网络（DCNN）而言）却是：实践者总是可以通过增加网络的规模来拟合训练数据（[1] 就是一个极端案例）。VGG 和 ResNet 等最成功的 DCNN 最适用于有少量「过参数化（overparametrization）」的情况。在本论文中，我们通过理论和实验的混合来描绘了过参数化的 DCNN 的经验风险（empirical risk）整体情况。我们首先证明了存在大量的退化的全局最小化器（degenerate global minimizer），其具有 0 经验误差（empirical error）（模不一致方程（modulo inconsistent equations））。这个零最小化器（zero-minimizer）在分类的情况下具有非零的边际。这同一最小化器是退化的，因此非常有可能通过 S 找到，这将有更好的可能性进一步选择出有更大边际的零最小化器，如理论 3 中所讨论的。我们进一步实验性地探索并可视化了一个 DCNN 在 CIFAR-10 上的整个训练过程（尤其是全局最小值）中的经验风险全景。最后，基于我们的理论和实验结果，我们提出了一种直观的 DCNN 经验损失面（empirical loss suce）全景模型，其可能并不如人们普遍认为的那样的复杂。

　　在理论 2 中，我们通过理论和实验的混合来描绘了过参数化的深度卷积神经网络中随机梯度下降（S）的泛化性质。我们表明随机梯度下降更有可能选择有以下特征的解：

建筑论文网

麻省理工解读神经网络历史三篇论文剖析基础理论