下一步就应该让模型学会从视频中区分图像的背景和前景(利用相对运动信息)。
现在的模型虽然已经能够识别静态图像中的无人机,但如果无人机的外观跟背景图案太接近,我们的模型表现就很差。但是人眼可以做到,飞机飞到树林后面我们仍然可以通过缝隙跟踪,所以计算机应该也是可以做到的。
在生活实践中我们发现,如果一只鸟停在树上,我们肉眼一般是很难注意到的,因为像树枝这样杂乱的背景,相当于把目标淹没在噪声中了。但是只要这只鸟开始飞行,即便是在树林后面穿过,我们也能注意到它,这是因为肉眼有视觉残留效应,当我们的视线快速掠过树枝跟踪这只鸟的时候,对树枝产生的噪声进行了滑动平均,令鸟的图像变得明显、清晰了。这种视觉残留效应其实是必须的,因为人眼视网膜后的神经结构类似于一个差分压缩算法,输出带宽有限,如果不作滑动平均、让噪声全部都进入大脑,就会挤占真正重要的信息所需的传输带宽,这样就会导致我们的动态视觉非常差。
所以要在复杂背景下跟踪一架无人机,我们需要:
因此这应该可以利用CNN+LSTM实现,现在关于attention based的机器学习论文其实也挺多的,总之需要大量的阅读。
论文倒是找到一篇,08年的,理论解释得非常好,但是方法都是经典方法。
时段 | 个数 |
---|---|
{{f.startingTime}}点 - {{f.endTime}}点 | {{f.fileCount}} |