CamoFormer: Masked Separable Attention for Camouflaged Object Detection

论文地址:CamoFormer: Masked Separable Attention for Camouflaged Object Detection

1 研究动机

现在的伪装目标识别的模型都没有把前景和背景分开处理,这就很难从相似的环境中识别出伪装目标,现在的目标,关键就是分别encode前景和背景。受到Masked Multi-Head Attention的启发,作者设计了masked separable attention(MSA),每一个head负责特定的功能,一个head处理前景,一个head处理背景,一个head处理前景和背景的交融。

2 CamoFormer

2.1 Overall Architecture

2.1.1 Encoder

采用PVTv2作为encoder,产生四个阶段(尺寸)的特征图,并将最后三个阶段的特征图聚合,然后通过一个Conv产生高语义信息表达E5E5

2.1.2 Decoder

采用渐进的,自下而上的逐渐优化特征的方式去进行decode,对于最开始产生的aggregated feature,方式如下:

D4=MSA(E5)Fup(E4)+Fup(E4),D4=MSA(E5)Fup(E4)+Fup(E4),

对于后续aggregated feature的产生:

Di=Fup(MSA(Di+1))Ei+Ei.Di=Fup(MSA(Di+1))Ei+Ei.

住得注意的是,作者在聚合特征的时候并没有直接进行相加操作或者concat,而是先把DDEE进行element-wise相乘,在进行相加,作者发现通过这种方式,性能可以提升0.2%。

2.1.3 Loss Function

图中的全红箭头就是supervision,从图中可以看出,作者对不同层级decoder产生的prediction都进行了监督,{Pi}5i=1{Pi}5i=1就是5个层级产生的prediction map,GG是Ground Truth。Loss Function如下:

L(P,G)=5i=1Lbce(Pi,G)+Liou(Pi,G),L(P,G)=5i=1Lbce(Pi,G)+Liou(Pi,G),

2.2 Masked Separable Attention

作者将attention heads分为3组,T-BA,F-TA(Foreground head),B-TA(Background head)。

对于F-TA:

F-TA(QF,KF,VF)=VFSoftmax(QFKFαF),

其中QFKF就是经过mask之后的query和key,它们是通过query,key与mask(prediction map,就是上一层aggregated feature预测得到的)相乘得到的,Value没有经过mask处理,这样以来,F-TA可以只关注前景区域,避免了背景区域的一些污染性信息,同样的,在B-TA里同样的操作,用MB=1MF作为mask:

B-TA(QB,KB,VB)=VBSoftmax(QBKBαB).

第三组head是TA,它就是普通的attention,可以建模前景和背景之间的信息交流。

TA(Q,K,V)=VSoftmax(QKα),

3 Experiments

上图是不同stage的decoder的attention的热力图,从热力图可以看出,F-TA关注前景,B-TA关注背景,TA实现背景前景的融合。此外,D2相较于D5,热力图的颜色更加鲜艳明显,轮廓更加明朗,说明progressive refinement起到了作用。

 

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇