Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects

论文链接：Strategic Preys Make Acute Predators: Enhancing Camouflaged Object Detectors by Generating Camouflaged Objects

1 Introduction

本文以捕食者和被捕食者相互竞争的角度去提升COD任务的检测效果。首先在被捕食者方，使用了对抗训练的方式，训练generator，产生伪装程度更高的图片。在捕食者方，作者引入ICEG，去提升COD检测图片的连续性，得到更完整的分割图片。并且ICEG引入边缘校正模块来避免边缘模糊。

2 Methodology

2.1 Adversarial Training-CAMOUFLAGEATOR

作者使用two phase的方式训练CAMOUFLAGEATOR

第一阶段训练generator，去生成伪装度更高的伪装图片去欺骗detector；第二阶段训练detector，去识别分割那些generator生成的图片。

2.1.1 训练generator

\(\mathbf{x}_g=G_c(\mathbf{x})\)。 为了让生成的图片和原图片在视觉上相似，但同时生成的图片又会隐藏一些具有识别性的特征，作者开发出了fidelity loss（保真度损失）：

\[L_f=\|(\mathbf{1-y})\otimes\mathbf{x}_g-(\mathbf{1-y})\otimes\mathbf{x}\|^2,\]

\(y\)是ground truth，\(1-y\)就是背景。这个公式本质上是上\(x_g,x\)在背景上尽可能相似。为了隐藏分割的关键特征，作者开发concealment loss（隐匿性损失），模拟生物学上的伪装方式，即边缘破坏和保持伪装体内部的一致性：

\[\begin{aligned}L_{cl}=\|\mathbf{y}\otimes\mathbf{x}_g-P_o^I\|^2+\|\mathbf{y}_e\otimes\mathbf{x}_g-P_e^I\|^2,\end{aligned}\]

\(\mathbf{y}_e\)是经过高斯函数膨胀过后的edge mask，可以捕捉到更多更丰富的边缘特征。\(P_o^I\)是前景像素的均值，\(P_e^I\)是边缘像素的均值（边缘由\(\mathbf{y}_e\)得来）。concealment loss的目的是让前景和边缘区域的像素值趋近于均值，以达到一个平滑的效果，从而隐匿一些利于分割的关键特征。

除去concealment loss，还使用了detector去增强隐匿的效果。idea就是如果\(\mathbf{x}_g\)如果足够隐匿的话，detector识别的图像中所有的像素会趋近于0

\[L_s^a=L_{BCE}^w\left(D_s\left(\mathbf{x}_g\right),\mathbf{y}_z\right)+L_{IoU}^w\left(D_s\left(\mathbf{x}_g\right),\mathbf{y}_z\right)\]

其中\(\mathbf{y}_z\)是全0的mask。

最后，训练generator的总体loss是：

\[L_g^{Cam}=L_s^a+L_f+\lambda L_{cl}\]

2.1.2 训练detector

第二阶段，作者固定generator去训练detector，识别分割合成的伪装目标图片。作者采用了现有不同的COD model作为detector。Detector的loss：

\[L_s^{Cam}=L_{BCE}^w\left(D_s\left(\mathbf{x}_g\right),\mathbf{y}\right)+L_{IoU}^w\left(D_s\left(\mathbf{x}_g\right),\mathbf{y}\right).\]

2.2 ICEG

作者提出ICEG的目的是alleviate incomplete segmentation and eliminate ambiguous boundaries。

2.2.1 overall framework

2.2.2 CAMOUFLAGED FEATURE COHERENCE MODULE

CFC的目的就是挖掘伪装目标内部的一致性，由intra layer feature aggregation和contextual feature aggregation组成。

2.2.2.1 Intra-layer feature aggregation

IFA旨在融合在同一层内，不同尺度不同感受野的特征，从而让聚合之后的特征得到与尺度无关的特征。

\[\begin{aligned}f_k^3=conv3(conv1(f_k)),f_k^5=conv5(conv1(f_k)),\end{aligned}\]

\[f_k^{35}=conv3\big(conca\big(f_k^3,f_k^5\big)\big)\otimes conv5\left(conca\big(f_k^3,f_k^5\big)\right),\]

\[\begin{aligned}f_k^a=conv1(f_k)+CRB\left(conca\left(f_k^3,f_k^5,f_k^{35}\right)\right).\end{aligned}\]

这一部分其实就是不停的把不同感受野产生的特征进行融合，来获得一些不受尺寸影响的特征。

2.2.2.2 Contextual feature aggregation

这一部分探索的是inter-layer的特征的相关性，用更深层、语义信息更丰富的深层特征去丰富低层特征。作者采用了spatial attention和channel attention。

\[f_{k}^{c}=SA\left(CA\left(conv3\left(conca\left(up\left(f_{k+1}^{c}\right),f_{k}^{a}\right)\right)\right)\right),\]

\[f_k^l=conv1\left(concate\left(f_k^a,f_k^c\right)\right).\]

2.2.2.3 Camouflaged consistency loss

为了加强伪装对象的内部一致性，作者提出了一个伪装的一致性损失，以实现更紧凑的内部特征。这个loss作用与具有丰富语义信息的\(f_4^l\)

\[L_{cc}=\|\mathbf{y}_d\otimes f_4^l-P_o^f\|^2-\|\mathbf{y}_d\otimes f_4^l-P_b^f\|^2,\]

\(\mathbf{y}_d\)是downsampled的ground truth mask. \(P_o^f, P_b^f\)分别是feature-level的前景和背景的均值。一开始作者的想法是只降低前景特征的方差，但是背景的方差同时也很小，这样就会造成前景和背景过于相似而无法分割，因此除了对前景做出限制之外，作者也对背景提出额外要求。从loss的公式可以看出，当左侧（针对于前景）越小，右侧（针对于背景）越大，则loss会越小，也就是说，这个loss会让前景的特征越来越趋近于均值，趋近于统一，获得一个紧凑的，连续的特征；同时让背景的方差尽可能大，这样前景和背景数据分布会有明显不同，keep the internal and external features as far away as possible，这样网络也会更容易区分前景和背景。

2.2.3 EDGE-GUIDED SEGMENTATION DECODER

2.2.3.1 Edge reconstruction module

这一部分由来自上一层decoder的edge map和segmentation feature得到。

\[f_k^e=CRB(conca(f_k^l\otimes p_{k+1}^e+f_k^l,f_{k+1}^s)).\]

2.2.3.2 Edge-guided separated calibration module

模糊的边界是COD任务中常见的问题。

模糊边界的第一个表征是在边缘毛发，细枝末节处的高度不确定性，作者认为主要是由于前景和背景的高度相似导致的，于是作者通过前景和背景的mask把特征进行分离，设计了two-branch网络来分别处理它们。给定预测图\(p_{k+1}^s\)

模糊边界的第二个表征是不清楚的边缘，作者认为我们没有足够重视边缘的信息。作者显示地吸纳了边缘特征来提升边缘地显著性和指导分割过程。作者使用adaptive normalization去依据边缘特征指导分割。

\[f_{k}^{sf}=\sigma_{k}^{f}\otimes(RCAB(f_{k}^{l}\otimes S(p_{k+1}^{s})+f_{k}^{l}))+\mu_{k}^{f},\\f_{k}^{sb}=\sigma_{k}^{b}\otimes(RCAB(f_{k}^{l}\otimes S(R(p_{k+1}^{s}))+f_{k}^{l}))+\mu_{k}^{b},\]

\[\boldsymbol{\sigma}_k=conv3_\sigma(CRB_\sigma(f_{k+1}^e)),\boldsymbol{\mu}_k=conv3_\mu(CRB_\mu(f_{k+1}^e)).\]

S是Sigmoid，R是reverse operators。

2.2.4 ICEG+

ICEG+就是采用对抗训练的ICEG。