LH的个人博客 - 第4页共6页 -

Depthwise Convolution and Pointwise Convolution

2024-1-08 20:34

|

286

|

0

|

深度学习模块

515 字

|

3 分钟

Depthwise Separable Convolution（深度可分离卷积）是将传统卷积分成两步进行计算即Depthwise和Pointwise。可以简化参数量和计算量，通常应用在轻量化网络中。 1 Depthwise Convolution Depthwise Conv和普通的卷积不同，Depthwise Conv的卷积核只有一个，其通道的数…

卷积神经网络

CamoFormer: Masked Separable Attention for Camouflaged Object Detection

2024-1-08 13:22

|

202

|

0

|

论文解读

838 字

|

4 分钟

论文地址：CamoFormer: Masked Separable Attention for Camouflaged Object Detection 1 研究动机现在的伪装目标识别的模型都没有把前景和背景分开处理，这就很难从相似的环境中识别出伪装目标，现在的目标，关键就是分别encode前景和背景。受到Masked Multi-Head At…

Transformer 伪装目标检测注意力机制计算机视觉

Deep Texture-Aware Features for Camouflaged Object Detection

2024-1-07 17:39

|

174

|

0

|

论文解读

1737 字

|

8 分钟

论文地址：Deep Texture-Aware Features for Camouflaged Object Detection 1 总览通过学习纹理相关的特征，增大伪装目标和背景之间细微的差别，来更好的发现伪装目标。作者通过计算特征的协方差矩阵提取纹理特征，设计了相似度损失去学习参数图来放大背景和伪装目标之间的细微差异，用边缘一致性损失去完善…

伪装目标检测多尺度精心设计的损失函数计算机视觉

Multiscale Vision Transformers

2023-11-27 16:15

|

181

|

0

|

论文解读

869 字

|

5 分钟

论文地址：Multiscale Vision Transformer CVPR2021 1 introduction 在视觉领域，特征金字塔结构是一种常用的结构，即随着网络的加深，特征图的分辨率越来越小，但是特征图的深度，即channel数，越来越多。高空间分辨率的特征图具有low-level的细节信息，低分辨率的深层特征图具有high-leve…

Transformer 注意力机制视频识别计算机视觉

Multiview Transformers for Video Recognition

2023-11-26 22:28

|

283

|

0

|

论文解读

1270 字

|

6 分钟

论文地址：Multiview Transformers for Video Recognition CVPR2022 文章是基于ViViT进行改造的 1 研究背景在图像领域，多尺度处理通过金字塔结构实现。为了视频中的时间多尺度，以前SlowFast是有了2个分支。但是使用一个金字塔结构时，时间空间信息会因为下采样会有一部分信息的丢失。比如Slo…

Transformer 注意力机制视频识别计算机视觉

ViViT: A Video Vision Transformer

2023-11-26 14:18

|

691

|

0

|

论文解读

2104 字

|

10 分钟

论文地址：ViViT: A Video Vision Transformer 0 divided attention divided attention是ViViT的先验知识，它在Is Space-Time Attention All You Need for Video Understanding?这篇文章中提出，我们知道，视频区别于图片，除了空…

Transformer 注意力机制视频识别计算机视觉

Camouflaged Object Segmentation with Distraction Mining

2023-11-22 13:35

|

273

|

0

|

论文解读

2125 字

|

10 分钟

论文地址：Camouflaged Object Segmentation with Distraction Mining 1 研究背景自然界中捕食者在进行捕食一般分为三步，detection，identification，capture，作者以前两步为inspiration，创建了PFNet，P代表Position，即定位猎物，F代表Focus，…

伪装目标检测多尺度注意力机制计算机视觉

Attention Feature Fusion

2023-11-19 11:11

|

504

|

0

|

论文解读

2422 字

|

11 分钟

论文地址：Attention Feature Fusion 1 研究目的特征融合是提高CNN表达能力的一种手段，它将来自不同层次或分支的特征进行组合。什么是特征融合？简单来说，就是有两个特征图X和Y，将X和Y以一定的weight（或者说attention）融合成一个新的特征图。目前来说，特征融合存在以下问题：不健康的初始聚合：通常，在进行X+Y…

多尺度注意力机制计算机视觉

Instance Normalization

2023-11-13 14:43

|

185

|

0

|

深度学习模块

659 字

|

3 分钟

Instance Normalization（实例规范化，简称 IN）是一种在深度学习中使用的规范化技术，最初是为了图像风格转换任务而提出的。 1 规范化范围 IN是在单个样本（实例）的每个通道（每层特征）内进行规范化，独立于其他样本。它对每个通道内的特征进行规范化，而不是跨整个批量（如BN）或整个层（如LN）。 2 计算过程 Instance …

图像风格迁移计算机视觉

Group Normalization

2023-11-12 11:28

|

228

|

0

|

深度学习模块

586 字

|

3 分钟

Batch Normalization，Layer Normalization 1 motivation 在视觉领域，其实最常用的还是BN，但BN也有缺点，通常需要比较大的Batch Size。如下图所示，蓝色的线代表BN，当batch size小于16后error明显升高（但大于16后的效果确实要更好）。对于比较大型的网络或者GPU显存不够的情况…

计算机视觉