使用上述loss function,SGDR 0.1学习率(等效于0.05),4500样本,100/batch 训练(有乱序,无数据增强),训练误差下降到与验证误差相等需要300epoch左右(记不清了),总耗时6小时。不行我得去买显卡了。
训练效果:我们将3x3的网络输出放大到36x36,并叠加到64x64的样例上。 绿色通道是ground truth(x0.2), 红色通道是prediction(x0.02)。
从结果来看,prediction比ground truth定位还准:ground truth 往往只给出了大方向(泛绿),prediction则准确定位到点(这就是为什么图中红绿分明,而不呈黄色)。输出强度也与目标在背景中的分辨难度成正比,比如说第二行最后一列,虽然ground truth给出了无人机的位置,但由于前景和背景混合得太完美,网络输出的activation几乎为零。