学习日记35：Swin UNETR

张

张建站

2026/5/16 4:38:58

10分钟阅读

这个模型和UNETR基本一致只是把编码器换为了Swin Transformer,因为Swin Transformer降低了计算量使得编码器的各个块的输出不需要固定分辨率。Swin UNETREncoder编码器首先将图片切分为patch然后输入Swin Transformer然后在每个patch里都划分大小为W的窗口然后在SW-MSA中将窗口偏移W/2,过程如图在每个Stage输出特征图时不必像UNETR要保持分辨率一致将上采用和下采样的工作都交给卷积而是正常下采样即可。这块我特意了解了一下为啥主干使用Swin Transformer就可以不限制分辨率相同而不担心计算量爆炸全局自注意力的计算量主要为d,而使用了Swin Transformer之后复杂度可以降到;如果UNETR编码器要想做下采样就会而Swin Transformer:下采样会使分辨率降低计算量减少但其实vit被限制的不是深层而是浅层如果要是每次都有下采样浅层必须足够大而这会导致计算量爆炸。Decoder实验

RVC模型开源社区参与：从使用者到贡献者的成长路径

RVC模型开源社区参与：从使用者到贡献者的成长路径很多朋友在体验了RVC（Retrieval-based Voice Conversion）模型强大的声音转换能力后，除了惊叹于它的效果，心里可能还会冒出一些想法：“这模型是怎么实现的…...

2026/5/12 17:19:49 阅读更多 →

告别printf调试！用Percepio Tracealyzer给ESP32-S3的FreeRTOS做一次“CT扫描”

ESP32-S3性能诊断革命：用Tracealyzer透视FreeRTOS的每一毫秒当LED灯闪烁频率异常时，传统开发者会怎么做？80%的人选择在代码里插入printf语句，15%尝试断点调试，剩下5%则反复注释代码块进行排除。这种"盲人摸象&qu…...

2026/5/12 6:52:25 阅读更多 →

Stable-Diffusion-V1-5 电商落地：基于Dify打造智能商品图生成助手

Stable-Diffusion-V1-5 电商落地：基于Dify打造智能商品图生成助手每次上新，最头疼的是什么？对很多电商朋友来说，答案恐怕是“拍图”。找场地、请模特、布灯光、后期修图……一套流程下来，成本高不说，时间…...

2026/5/11 17:51:11 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/15 4:35:33 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/15 1:45:17 阅读更多 →