view object detection as a set prediction
anchor× NMS×
- 新的目标函数
- encoder-decoder的transformer架构
过去的方法:作者认为od就是一个集合预测的问题{类别,坐标1,坐标2,坐标3,坐标4}
-
过去的od方法都是间接的处理这个集合预测的问题,根据一些已有的初始的猜测比如 proposal:(two stage) fastRCNN/anchor(one stage):YOLO/windown centers:centor 这些要么是回归要么是分类而且非常依赖最初的猜测以及post-processing,使得检测的流程非常复杂
-
过去集合预测做od的,性能低,为了提高性能,需要人工加很多先验,DETR的目标是使得od的流程变得简单
-
过去也有用encoder+decoder做od的,用RNN实现这种自回归模型,时效性差,并且没有全局信息。
DETR怎么做的:
-
CNN:抽特征
-
encoder:全局建模
-
decoder:通过object query限定产生多少的框
-
loss:先进行二分图匹配,再计算分类loss+bbox loss
实验:
由于全局建模,大物体mAP效果,但是小物体的mAP不好
参考·之前FPN的做法:多尺度特征解决小物体识别难的问题
训练太慢
贡献:
-
新的解决问题的角度 --> set prediction
-
encoder-decoder架构
-
匹配+loss函数