论文地址:CamoFormer: Masked Separable Attention for Camouflaged Object Detection
1 研究动机
现在的伪装目标识别的模型都没有把前景和背景分开处理,这就很难从相似的环境中识别出伪装目标,现在的目标,关键就是分别encode前景和背景。受到Masked Multi-Head Attention的启发,作者设计了masked separable attention(MSA),每一个head负责特定的功能,一个head处理前景,一个head处理背景,一个head处理前景和背景的交融。
2 CamoFormer
2.1 Overall Architecture
2.1.1 Encoder
采用PVTv2作为encoder,产生四个阶段(尺寸)的特征图,并将最后三个阶段的特征图聚合,然后通过一个Conv产生高语义信息表达E5E5
2.1.2 Decoder
采用渐进的,自下而上的逐渐优化特征的方式去进行decode,对于最开始产生的aggregated feature,方式如下:
D4=MSA(E5)⋅Fup(E4)+Fup(E4),D4=MSA(E5)⋅Fup(E4)+Fup(E4),
对于后续aggregated feature的产生:
Di=Fup(MSA(Di+1))⋅Ei+Ei.Di=Fup(MSA(Di+1))⋅Ei+Ei.
住得注意的是,作者在聚合特征的时候并没有直接进行相加操作或者concat,而是先把DD和EE进行element-wise相乘,在进行相加,作者发现通过这种方式,性能可以提升0.2%。
2.1.3 Loss Function
图中的全红箭头就是supervision,从图中可以看出,作者对不同层级decoder产生的prediction都进行了监督,{Pi}5i=1{Pi}5i=1就是5个层级产生的prediction map,GG是Ground Truth。Loss Function如下:
L(P,G)=5∑i=1Lbce(Pi,G)+Liou(Pi,G),L(P,G)=5∑i=1Lbce(Pi,G)+Liou(Pi,G),
2.2 Masked Separable Attention
作者将attention heads分为3组,T-BA,F-TA(Foreground head),B-TA(Background head)。
对于F-TA:
F-TA(QF,KF,VF)=VF⋅Softmax(Q⊤FKFαF),
其中QF和KF就是经过mask之后的query和key,它们是通过query,key与mask(prediction map,就是上一层aggregated feature预测得到的)相乘得到的,Value没有经过mask处理,这样以来,F-TA可以只关注前景区域,避免了背景区域的一些污染性信息,同样的,在B-TA里同样的操作,用MB=1−MF作为mask:
B-TA(QB,KB,VB)=VB⋅Softmax(Q⊤BKBαB).
第三组head是TA,它就是普通的attention,可以建模前景和背景之间的信息交流。
TA(Q,K,V)=V⋅Softmax(Q⊤Kα),
3 Experiments
上图是不同stage的decoder的attention的热力图,从热力图可以看出,F-TA关注前景,B-TA关注背景,TA实现背景前景的融合。此外,D2相较于D5,热力图的颜色更加鲜艳明显,轮廓更加明朗,说明progressive refinement起到了作用。