最近看cnn的时候发现这两个模型很好用的说
用vgg的模型魔改照片简直一绝
图15ReLU与softplus的函数图像
ReLU可表示为
\( f(x)=max(0,x) \)
而softmax可表示为:
\( f(x)=ln(1+e^x ) \)
其导数为:
\( f^{'}(x)=e^x/(e^x+1)=1/(1+e^{-x} ) \)
这一类的激活函数主要是为了拟合神经元的单侧抑制输出,它们可以加快神经网络的训练速度,更早地得到最终结果。
图16 ReLU对深度卷积神经网络错误率收敛的加速效果[3]
图16 Dropout模式图
Dropout 技术在于训练部分神经元去拟合识别模型,而使用全部的神经元来进行测试,可以有效地防止过拟合问题(对训练数据集的识别效果过好,以至于无法较好地识别测试数据)。在训练的过程中,随机以一定概率(1-r)忽视部分神经元,进行计算和训练,而在测试(或应用于生产环境)的时候,通过将权值乘以r来计算所有神经元的输出。
Maxout技术所作的改进主要将神经元的输出改变为(在激活函数前):
\( h_i(x) =max_{j∈[1,k]}z_{ij} \)
其中:
\( z_{ij}=x^T W_{...ij}+b_{ij} \)
这种使用多个权值计算最后输出最大值的方法改进能够极好地拟合凹函数,对于图像识别等神经网络的非凸模型识别任务拥有极好的提升效果。
图17maxout对非线性性函数的拟合
如图所示,普通的卷积神经网络的输出是直接传递到下一层:
图18普通卷积层
而该论文中的卷积层在传递过程中经过了一个两层的MLP(多层感知器),从而增强卷积层的分类能力。
图19多层感知器卷积层
图20Network In Network结构简图
使用图示结构的神经网络,配合dropout、maxout,它做到了0.45的MNIST错误率。
[1] Nair V, Hinton G E. Rectified Linear Units Improve Restricted Boltzmann Machines[C]International Conference on Machine Learning. DBLP, 2010:807-814.
[2]Dugas C, Bengio Y, Belisle F, et al. Incorporating Second-Order Functional Knowledge for Better Option Pricing[C]. neural information processing systems, 2001: 472-478.
[3]KrizhevskyA,SutskeverI,Hinton G XXXXageNet Classification with Deep Convolutional Neural Networks[J].Advances in Neural Information Processing Systems,2012,25(2):2012.
[4] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1):1929-1958.
[5]Goodfellow I J, Wardefarley D, Mirza M, et al. MaxoutNetworks[J]. Computer Science, 2013:1319-1327.
[6] Lin M, Chen Q, Yan S. Network In Network[J]. Computer Science, 2014.
200字以内,仅用于支线交流,主线讨论请采用回复功能。