这个模型和UNETR基本一致只是把编码器换为了Swin Transformer,因为Swin Transformer降低了计算量使得编码器的各个块的输出不需要固定分辨率。Swin UNETREncoder编码器首先将图片切分为patch然后输入Swin Transformer然后在每个patch里都划分大小为W的窗口然后在SW-MSA中将窗口偏移W/2,过程如图在每个Stage输出特征图时不必像UNETR要保持分辨率一致将上采用和下采样的工作都交给卷积而是正常下采样即可。这块我特意了解了一下为啥主干使用Swin Transformer就可以不限制分辨率相同而不担心计算量爆炸全局自注意力的计算量主要为d,而使用了Swin Transformer之后复杂度可以降到;如果UNETR编码器要想做下采样就会而Swin Transformer:下采样会使分辨率降低计算量减少但其实vit被限制的不是深层 而是浅层 如果要是每次都有下采样浅层必须足够大 而这会导致计算量爆炸。Decoder实验