论文地址:Learning with Explicit Shape Priors for Medical Image Segmentation 1 Introduction 在医学图像中,不同的器官或病灶通常具有特定的形状和结构,这些形状和结构信息对于分割模型来说非常关键,因此先前的许多工作尝试利用形状先验来设计分割模型,以获得具有解剖形状信息的更…
论文地址:CamoFormer: Masked Separable Attention for Camouflaged Object Detection 1 研究动机 现在的伪装目标识别的模型都没有把前景和背景分开处理,这就很难从相似的环境中识别出伪装目标,现在的目标,关键就是分别encode前景和背景。受到Masked Multi-Head At…
论文地址:Deep Texture-Aware Features for Camouflaged Object Detection 1 总览 通过学习纹理相关的特征,增大伪装目标和背景之间细微的差别,来更好的发现伪装目标。作者通过计算特征的协方差矩阵提取纹理特征,设计了相似度损失去学习参数图来放大背景和伪装目标之间的细微差异,用边缘一致性损失去完善…
论文地址:Multiscale Vision Transformer CVPR2021 1 introduction 在视觉领域,特征金字塔结构是一种常用的结构,即随着网络的加深,特征图的分辨率越来越小,但是特征图的深度,即channel数,越来越多。高空间分辨率的特征图具有low-level的细节信息,低分辨率的深层特征图具有high-leve…
论文地址:Multiview Transformers for Video Recognition CVPR2022 文章是基于ViViT进行改造的 1 研究背景 在图像领域,多尺度处理通过金字塔结构实现。为了视频中的时间多尺度,以前SlowFast是有了2个分支。但是使用一个金字塔结构时,时间空间信息会因为下采样会有一部分信息的丢失。比如Slo…
论文地址:ViViT: A Video Vision Transformer 0 divided attention divided attention是ViViT的先验知识,它在Is Space-Time Attention All You Need for Video Understanding?这篇文章中提出,我们知道,视频区别于图片,除了空…
论文地址:Camouflaged Object Segmentation with Distraction Mining 1 研究背景 自然界中捕食者在进行捕食一般分为三步,detection,identification,capture,作者以前两步为inspiration,创建了PFNet,P代表Position,即定位猎物,F代表Focus,…
论文地址:Attention Feature Fusion 1 研究目的 特征融合是提高CNN表达能力的一种手段,它将来自不同层次或分支的特征进行组合。什么是特征融合?简单来说,就是有两个特征图X和Y,将X和Y以一定的weight(或者说attention)融合成一个新的特征图。目前来说,特征融合存在以下问题: 不健康的初始聚合:通常,在进行X+Y…
Instance Normalization(实例规范化,简称 IN)是一种在深度学习中使用的规范化技术,最初是为了图像风格转换任务而提出的。 1 规范化范围 IN是在单个样本(实例)的每个通道(每层特征)内进行规范化,独立于其他样本。 它对每个通道内的特征进行规范化,而不是跨整个批量(如BN)或整个层(如LN)。 2 计算过程 Instance …
Batch Normalization,Layer Normalization 1 motivation 在视觉领域,其实最常用的还是BN,但BN也有缺点,通常需要比较大的Batch Size。如下图所示,蓝色的线代表BN,当batch size小于16后error明显升高(但大于16后的效果确实要更好)。对于比较大型的网络或者GPU显存不够的情况…