我非常奇怪一点是,为什么你表示从 conv1 的输出能看出 object level 的效果。conv1 只是提取low level的 edge response,如果在存在有复杂背景的情况下,仍然能从 edge response 中清晰分辨出无人机,一个可能的解释是在人工合成训练样本时,没有很好的解决插入的无人机图片与背景图片融合的问题,二者在 illumination 上存在差异,导致结合边缘处不自然,不符合天然图片的像素统计规律。因为没有看到清晰的 response 图片,所以以上仅是猜想。0.9的准确率我认为是过拟合了,这点从 detection 的结果可以验证,因为即使是准确率达不到0.9的 hog sliding Window detector,也可以轻易超越这个效果。还有一点就是 sliding Window 的时候要考虑用 non-maximum suppression 来抑制 shift invariant 的问题。