googlenet和vgg是2014年imagenet竞赛的双雄，这两类模型结构有一个共同特点是go deeper。跟vgg不同的是，googlenet做了更大胆的网络上的尝试而不是像vgg继承了lenet以及alexnet的一些框架，该模型虽然有22层，但大小却比alexnet和vgg都小很多，性能优越。

具体网络配置如链接：

文章提出获得高质量模型最保险的做法就是增加模型的深度（层数）或者是其宽度（层核或者神经元数），但是这里一般设计思路的情况下会出现两个缺陷（1.参数太多，容易过拟合，若训练数据集有限；2.网络越大计算复杂度越大，难以应用；3.网络越深，梯度越往后穿越容易消失，难以优化模型）。 googlenet的主要思想就是围绕这两个思路去做的：

1.深度，层数更深，文章采用了22层，为了避免上述提到的梯度消失问题，googlenet巧妙的在不同深度处增加了两个loss来保证梯度回传消失的现象。

2.宽度，增加了多种核 1x1，3x3，5x5，还有直接max pooling的，但是如果简单的将这些应用到feature map上的话，concat起来的feature map厚度将会很大，所以在googlenet中为了避免这一现象提出的inception具有如下结构，在3x3前，5x5前，max pooling后分别加上了1x1的卷积核起到了降低feature map厚度的作用。

综上googlent有两个最重要的创新点分别是为了解决深度和宽度受限来设计的，由于googlenet的两个辅助loss的限制，很多文章拿base model的时候比较偏向与vgg。

优点：

把整个Inception的网络架构画出来，更直观感受网络结构

1.宽度。总共是9个Inception的模块，每个模块除了num_output的个数不一样之外，其他的都是相同的。每一个卷积后都要做relu操作。

2.深度。除了在最后的全连接计算了loss和top_1，top_5的准确率之外，还在inception_4a/output和inception_4d/output之后进行池化卷积全连接，最后计算loss和top_1，top_5。

个人感觉这种方式，一方面可以比较不同深度下的loss和准确率，同时，这些中间层的backward　computation会对整个起到调整梯度的作用，这样防止当层次过深时的梯度消失的问题。

Overview

本文提出了一种深度卷积神经网络，代号为Inception（是不是让人想到《盗梦空间》中一层层的梦境呢），获得了ILSVRC14比赛的冠军，刷新了图像分类与检测的性能记录。该网络的特点是提升了计算资源的利用率，可以在保持网络计算资源不变的前提下，通过工艺上的设计来增加网络的宽度和深度，基于Hebbian法则和多尺度处理来优化性能。在ILSVRC2014中提交的版本叫GoogLeNet，共有22层。

GoogLeNet用的参数比ILSVRC2012的冠军AlexNet少12倍，但准确率更高。现在的目标检测例如R-CNN，结合了深度架构和传统计算机视觉方法进行目标检测。

由于移动设备和嵌入式计算的发展，的效率很重要，一个好的算法，不仅要具有学术性，也要能用于实际中。

Motivation and High Level Considerations

直接提升深度卷积网络性能的方法是从深度与宽度两方面增加尺寸，但大尺寸的网络需要更多参数，容易导致过拟合，尤其是数据集不够大的时候，直接增加尺寸的另一个弊端是需要大量计算资源。根本的解决办法是将全连接层变为稀疏链接层，而非均匀稀疏网络的弊端是计算效率不高，可以采用将多个稀疏矩阵合并成相关的稠密子矩阵的方法来解决。

Architectural Details

Inception架构的主要思想是找出如何让已有的稠密组件接近与覆盖卷积视觉网络中的最佳局部稀疏结构。现在需要找出最优的局部构造，并且重复几次。之前的一篇文献提出一个层与层的结构，在最后一层进行相关性统计，将高相关性的聚集到一起。这些聚类构成下一层的单元，且与上一层单元连接。假设前面层的每个单元对应于输入图像的某些区域，这些单元被分为滤波器组。在接近输入层的低层中，相关单元集中在某些局部区域，最终得到在单个区域中的大量聚类，在下一层通过1x1的卷积覆盖。

也可以通过在更大的patch上卷积，覆盖少量的在空间上更大的聚类，区域越来越大，patch数越来越少。

为了避免patch校准问题，现在的滤波器大小限制在1x1，3x3和5x5，主要是为了方便，不是必要的。这样的Inception模块如下：

另外，在pooling层添加一个额外的并行pooling路径用于提高效率。

Inception模块之间互相堆放，它们的输出相关性统计一定会改变：高层次提取高抽象性的特征，空间集中性会降低，因此3x3和5x5的卷积核在更高层会比较多。

采用上面的模块有一个大问题是在卷积层顶端由于滤波器太多，即使是5x5的卷积都会让计算开销过分昂贵。当pooling单元加入之后这个问题更加明显：输出滤波器的数量等于前一步中滤波器的数量。pooling层的输出和卷积层的输出融合会导致输出数量逐步增长。即使这个架构可能包含了最优的稀疏结构，还是会非常没有效率，导致计算没经过几步就崩溃。

因此有了架构的第二个主要思想：在计算要求增加很多的地方应用维度缩减和预测。即，在3x3和5x5的卷积前用一个1x1的卷积用于减少计算，还用于修正线性激活。如下图所示，左边是加入维度缩减之前的，右边是加入维度缩减之后的。