RMSNorm：均方根归一化总结

张

张建站

2026/5/16 6:26:15

10分钟阅读

RMSNorm均方根归一化总结1. RMSNorm 是什么RMSNorm的全称是Root Mean Square Normalization中文可以叫均方根归一化它是 Transformer 大模型中常用的一种归一化方法例如 LLaMA、Qwen、DeepSeek、Gemma 等模型中都常见。它的核心作用是只控制向量整体尺度不改变向量的均值中心。也就是说RMSNorm 本质上不是一个神秘概念而是一个非常直接的数学操作对一个多维向量计算它的整体能量大小然后把它缩放到一个稳定尺度。2. RMSNorm 的数学公式假设一个 token 的隐藏向量是x [x1, x2, x3, ..., xd]其中d是隐藏维度xi是第i个特征分量。RMSNorm 首先计算这个向量的均方根RMS⁡(x)1d∑i1dxi2ε \operatorname{RMS}(x)\sqrt{\frac{1}{d}\sum_{i1}^{d}x_i^2\varepsilon}RMS(x)d1i1∑dxi2ε然后把每个分量除以这个 RMS 值再乘上一个可学习的缩放参数yixiRMS⁡(x)⋅gi y_i\frac{x_i}{\operatorname{RMS}(x)}\cdot g_iyiRMS(x)xi⋅gi其中x_i输入向量的第i个分量d隐藏向量维度ε防止除零的小常数g_i可学习缩放参数通常叫weight。3. 一个简单算例假设输入向量是x [3, 4]它的 RMS 是RMS sqrt((3^2 4^2) / 2) sqrt(25 / 2) ≈ 3.535所以归一化之后x_norm [3 / 3.535, 4 / 3.535] ≈ [0.848, 1.131]这说明 RMSNorm 做的事情是把向量整体能量拉回到一个稳定范围。它不关心这个向量的均值是多少只关心这个向量整体“有多大”。4. RMSNorm 的物理意义可以把 Transformer 中每个 token 的隐藏向量看成一个多维信号x [特征1, 特征2, 特征3, ..., 特征d]每个 token 经过 Attention、MLP、残差连接之后它的向量幅值可能变大也可能变小。比如token A 的隐藏向量整体幅值很大 token B 的隐藏向量整体幅值很小如果不做尺度控制后续的矩阵乘法、Attention score、MLP 激活都可能变得不稳定。RMSNorm 做的事情可以理解为保留向量的主要方向只重新调节向量的长度。也可以理解为原始向量方向长度 RMSNorm 主要保留方向把长度拉回合理范围所以 RMSNorm 不是在“理解语义”也不是一个复杂概念而是一个多维特征尺度控制器。5. RMSNorm 和 LayerNorm 的区别LayerNorm 的基本操作是先减均值再除标准差近似写成LayerNorm⁡(x)x−mean⁡(x)std⁡(x) \operatorname{LayerNorm}(x)\frac{x-\operatorname{mean}(x)}{\operatorname{std}(x)}LayerNorm(x)std(x)x−mean(x)RMSNorm 的基本操作是不减均值只除 RMS近似写成RMSNorm⁡(x)xRMS⁡(x) \operatorname{RMSNorm}(x)\frac{x}{\operatorname{RMS}(x)}RMSNorm(x)RMS(x)x方法是否减均值是否除尺度核心作用LayerNorm是是调整中心调整尺度RMSNorm否是只调整尺度RMSNorm 的优势否是计算更简单工程更高效6. 为什么大模型喜欢 RMSNorm6.1 计算更简单LayerNorm 通常需要计算mean variance sqrt divideRMSNorm 只需要计算平方平均 sqrt divide它少了减均值和中心化方差的步骤因此工程实现更简单计算成本也更低。6.2 适合 Transformer 的残差结构现代 Transformer 常用 Pre-Norm 结构例如x x Attention(RMSNorm(x)) x x MLP(RMSNorm(x))也就是说在进入 Attention 或 MLP 之前先对输入做尺度归一化。RMSNorm 在这里的作用是每次进入 Attention / MLP 之前把输入尺度稳定住。这样可以避免残差连接不断叠加之后隐藏向量的数值尺度失控。6.3 保留均值信息LayerNorm 会做x - mean(x)这会把向量的均值信息去掉。而 RMSNorm 不减均值只控制整体能量。所以它更像是在说我只控制你的能量不动你的整体偏置结构。在大模型中这通常已经足够稳定而且计算更省。7. Python 手写 RMSNorm下面是一个不用 PyTorch 的纯 Python 版本importmathdefrms_norm(x,weight,eps1e-6): x: 输入向量长度为 d weight: 可学习缩放参数长度为 d eps: 防止除零 dlen(x)# 1. 计算均方值mean_square0.0forvalueinx:mean_squarevalue*value mean_squaremean_square/d# 2. 计算 RMSrmsmath.sqrt(mean_squareeps)# 3. 归一化并乘可学习缩放参数y[]forxi,wiinzip(x,weight):y.append((xi/rms)*wi)returny x[3.0,4.0]weight[1.0,1.0]print(rms_norm(x,weight))输出大概是[0.8485, 1.1313]8. PyTorch 版本 RMSNormimporttorchclassRMSNorm(torch.nn.Module):def__init__(self,dim,eps1e-6):super().__init__()self.epseps self.weighttorch.nn.Parameter(torch.ones(dim))defforward(self,x):# x shape: [batch_size, seq_len, hidden_dim]# 沿最后一维 hidden_dim 计算 RMSrmstorch.sqrt(torch.mean(x*x,dim-1,keepdimTrue)self.eps)# 除以 RMS控制尺度x_normx/rms# 乘可学习缩放参数returnx_norm*self.weight输入形状一般是x: [batch_size, seq_len, hidden_dim]RMSNorm 是沿着最后一维hidden_dim做归一化。9. 从工程角度理解 RMSNorm在 Transformer 中每一层通常会有 Attention 和 MLP。如果没有归一化残差连接会不断把新的变化叠加到原来的向量上x x Attention(x) x x MLP(x)多层之后向量尺度可能越来越大或者在某些情况下变得非常不稳定。RMSNorm 插入之后就变成x x Attention(RMSNorm(x)) x x MLP(RMSNorm(x))它的作用不是改变模型结构的本质而是给每一次变换前的输入加一个尺度约束。可以把它理解为每次进入复杂变换之前先把输入向量的能量调到一个可控范围。10. 最终总结RMSNorm 的本质可以压缩成一句话对每个 token 的隐藏向量计算它的整体能量 RMS然后把向量除以这个能量让进入 Attention / MLP 之前的尺度稳定下来。它不是复杂概念也不是必须神秘化命名。从数学上看它就是多维向量的尺度归一化从物理意义上看它就是控制多维信号的整体能量从工程作用上看它就是稳定 Transformer 层间数值尺度减少训练和推理中的数值波动所以你可以把 RMSNorm 理解成一个只调长度、不强行移动中心的多维向量尺度控制器。

核心代码编程-社交网络相同爱好好友查询-200分

题目描述：在一个社交网络中，用户之间通过"关注"关系形成有向图。每个用户有两个属性 ﹣用户ID（整数字符串） ﹣兴趣标列表（字符串数组） 现在需要实现一个函数，查询…...

2026/5/16 6:26:10 阅读更多 →

DGX服务器上Spark性能优化：NUMA绑定与GPU资源精细调度实践

1. 项目概述与核心价值最近在折腾一个挺有意思的项目，叫adadrag/nemoclaw-dgx-spark。乍一看这个名字，像是把几个八竿子打不着的技术名词硬凑在了一起：adadrag像是个开发者代号，nemoclaw听着像某个工具或框架，dgx让人联…...

2026/5/16 6:20:23 阅读更多 →

$DeepSeek Math推理权重冻结实验全复现（N=42次消融）：证明第19层FFN是关键推理门控单元——附PyTorch热补丁脚本$

DeepSeek Math推理权重冻结实验全复现（N=42次消融）：证明第19层FFN是关键推理门控单元——附PyTorch热补丁脚本

更多请点击： https://intelliparadigm.com 第一章：DeepSeek Math数学推理 DeepSeek Math 是 DeepSeek 系列中专为复杂数学问题求解与形式化推理优化的大语言模型，其训练数据涵盖大量竞赛级数学题（如 IMO、Putnam）、符…...

2026/5/16 6:20:17 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/15 4:35:33 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/15 1:45:17 阅读更多 →