CamoFormer: Masked Separable Attention for Camouflaged Object Detection

论文地址:CamoFormer: Masked Separable Attention for Camouflaged Object Detection

1 研究动机

现在的伪装目标识别的模型都没有把前景和背景分开处理,这就很难从相似的环境中识别出伪装目标,现在的目标,关键就是分别encode前景和背景。受到Masked Multi-Head Attention的启发,作者设计了masked separable attention(MSA),每一个head负责特定的功能,一个head处理前景,一个head处理背景,一个head处理前景和背景的交融。

2 CamoFormer

2.1 Overall Architecture

2.1.1 Encoder

采用PVTv2作为encoder,产生四个阶段(尺寸)的特征图,并将最后三个阶段的特征图聚合,然后通过一个Conv产生高语义信息表达\(E_5\)

2.1.2 Decoder

采用渐进的,自下而上的逐渐优化特征的方式去进行decode,对于最开始产生的aggregated feature,方式如下:

\[D_4=\mathrm{MSA}(E_5)\cdot\mathcal{F}_{\mathrm{up}}(E_4)+\mathcal{F}_{\mathrm{up}}(E_4),\]

对于后续aggregated feature的产生:

\[D_i=\mathcal{F}_{\mathrm{up}}(\text{MSA}(D_{i+1}))\cdot E_i+E_i.\]

住得注意的是,作者在聚合特征的时候并没有直接进行相加操作或者concat,而是先把\(D\)和\(E\)进行element-wise相乘,在进行相加,作者发现通过这种方式,性能可以提升0.2%。

2.1.3 Loss Function

图中的全红箭头就是supervision,从图中可以看出,作者对不同层级decoder产生的prediction都进行了监督,\(\{{P_{i}}\}_{i=1}^{5}\)就是5个层级产生的prediction map,\(G\)是Ground Truth。Loss Function如下:

\[\mathcal{L}(P,G)=\sum_{i=1}^5\mathcal{L}_{bce}(P_i,G)+\mathcal{L}_{iou}(P_i,G),\]

2.2 Masked Separable Attention

作者将attention heads分为3组,T-BA,F-TA(Foreground head),B-TA(Background head)。

对于F-TA:

\[\text{F-TA}(\mathbf{Q}_F,\mathbf{K}_F,\mathbf{V}_F)=\mathbf{V}_F\cdot\mathrm{Softmax}(\frac{\mathbf{Q}_F^\top\mathbf{K}_F}{\alpha_F}),\]

其中\(\mathbf{Q}_F\)和\(\mathbf{K}_F\)就是经过mask之后的query和key,它们是通过query,key与mask(prediction map,就是上一层aggregated feature预测得到的)相乘得到的,Value没有经过mask处理,这样以来,F-TA可以只关注前景区域,避免了背景区域的一些污染性信息,同样的,在B-TA里同样的操作,用\(\begin{aligned}M_{B}&=1-M_{F}\end{aligned}\)作为mask:

\[\text{B-TA}(\mathbf{Q}_B,\mathbf{K}_B,\mathbf{V}_B)=\mathbf{V}_B\cdot\text{Softmax}(\frac{\mathbf{Q}_B^\top\mathbf{K}_B}{\alpha_B}).\]

第三组head是TA,它就是普通的attention,可以建模前景和背景之间的信息交流。

\[\mathrm{TA}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathbf{V}\cdot\mathrm{Softmax}(\frac{\mathbf{Q}^{\top}\mathbf{K}}{\alpha}),\]

3 Experiments

上图是不同stage的decoder的attention的热力图,从热力图可以看出,F-TA关注前景,B-TA关注背景,TA实现背景前景的融合。此外,\(D_2\)相较于\(D_5\),热力图的颜色更加鲜艳明显,轮廓更加明朗,说明progressive refinement起到了作用。

 

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇