1. GFNet核心思想与原理详解1.1 什么是GFNet?GFNet(Global Filter Network)是一种创新的视觉神经网络架构,由研究人员在2022年提出。它的核心思想是在频域(通过快速傅里叶变换FFT)进行全局特征交互,从而替代传统的自注意力机制(Self-Attention)或大核卷积。传统自注意力机制虽然能够捕获全局依赖关系,但其计算复杂度与空间分辨率成二次方关系(O(N²)),在处理高分辨率特征图时存在明显的计算瓶颈。而GFNet通过在傅里叶域中应用可学习的全局滤波器,能够以O(N log N)的复杂度实现真正的全局感受野交互。1.2 核心原理剖析GFNet的核心操作可以分解为以下几个步骤:Step 1: 空间域到频域的转换对于输入特征图X ∈ R^(H×W×C),GFNet首先沿着空间维度执行2D快速傅里叶变换(FFT),将其从空间域转换到频域:textX_fft = FFT2D(X) # 输出尺寸为 H×W×C其中FFT2D作用于最后两个空间维度,将空间位置信息分解为不同频率成分。Step 2: 可学习全局滤波在频域中,GFNet引入一个可学习的全局滤波器K ∈ R^(H×W×C),该滤波器与频域特征进行逐元素相乘:textX_filtered = X_fft ⊙ K这里的关键在于:滤波器K的每个位置对应