先做一个实验看下面这两句话★我打了他★他打了我意思完全相反但用的是完全一样的词唯一的区别是顺序不同。一个好的语言模型必须能区分这两句话。那 Transformer 能吗自注意力天然不感知顺序这是 Transformer 一个反直觉的地方。回忆一下 Self-Attention 的计算每个 Token 和所有其他 Token做内积算出注意力权重再加权求和。在这个过程里Token 的位置信息从来没有参与过计算。 我在第一位还是第三位对 QKᵀ 的结果没有任何影响。用一句话来说★Self-Attention 眼里只有有哪些词没有这些词在哪里你把输入序列的词顺序随机打乱Self-Attention 算出来的注意力权重完全一样。这就意味着如果什么都不做我打了他和他打了我在 Transformer 看来是同一句话。为什么 RNN 不需要担心这个问题你可能会想RNN 不也是处理序列的吗它有这个问题吗没有。RNN 是一个词一个词按顺序处理的天然把位置信息编进了隐藏状态里。第一个词处理完才轮到第二个词顺序是硬编码在结构里的。而 Transformer 的优势之一恰恰是可以并行处理所有词——所有 Token 同时进入 Self-Attention。但代价就是顺序信息丢了需要手动补回来。解决方案位置编码解决思路很简单既然 Self-Attention 本身不感知位置那就在输入进 Attention 之前把位置信息加进去。具体做法是给每个 Token 的 Embedding 向量加上一个代表它位置的向量这个向量就叫Positional Encoding位置编码。输入加完之后每个 Token 的向量里就同时包含了语义信息它是什么词和位置信息它在第几位。位置编码长什么样原始论文用的是正弦和余弦函数来生成位置编码公式如下我们一步步来看这两个公式。1.为什么用三角函数位置编码需要满足几个条件每个位置的编码唯一不能有两个位置一模一样位置之间的距离有规律相邻位置的编码应该相似距离越远越不同可以泛化到更长的序列训练时没见过的位置也能用正弦和余弦函数天然满足这几点不同频率的波形叠加就像一把尺子每个刻度的花纹都不一样但整体有规律。2.为什么不同维度用不同频率位置编码是一个和 Token Embedding 等长的向量比如 512 维。正弦编码的聪明之处在于不同维度使用不同频率的波。低维度频率高变化快 → 区分近距离的位置第1个词 vs 第2个词高维度频率低变化慢 → 区分远距离的位置第1个词 vs 第100个词就好像用秒刻度区分相邻时刻用小时刻度区分跨度更大的时间段——不同精度的尺子量不同尺度的距离。3.位置编码是固定的还是学出来的原始 Transformer 论文用的是固定的正弦编码不参与训练直接按公式算好。但后来很多模型比如 BERT用的是可学习的位置编码——位置编码也是一组参数和词向量一起随训练更新。两种方式在实践中效果相差不大但各有侧重正弦编码固定可学习编码参数量无额外参数多一组位置参数长序列泛化理论上可以外推受训练长度限制代表模型原始 TransformerBERT、GPT-2Transformer 用 Self-Attention 并行处理所有词带来了速度优势但也丢掉了顺序信息。位置编码就是用来补回这个信息的——在输入进 Attention 之前把每个 Token 的位置写进它的向量里。正弦位置编码的设计看起来复杂本质上是一把多精度的尺子不同维度、不同频率共同唯一标识每个位置还能泛化到更长的序列。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】