第一部分模型基础与内部架构 (Model Foundation Architecture)这一部分是 LLM 的“骨骼与内脏”。现代大语言模型绝大多数基于 Transformer 架构理解这些术语是理解模型如何“思考”的关键。1. Transformer中文翻译Transformer 架构 / 变形金刚架构核心定义由 Google 在 2017 年《Attention Is All You Need》论文中提出的一种基于自注意力机制的神经网络架构。深度解析传统的 RNN循环神经网络必须按顺序处理文本效率极低。Transformer 完全抛弃了循环结构采用并行处理方式。它原本包含 Encoder编码器用于理解如 BERT和 Decoder解码器用于生成如 GPT 系列。如今的 LLM如 GPT-4, LLaMA基本都是基于“仅解码器 (Decoder-only)”的架构。2. Embedding中文翻译词嵌入 / 向量化表示核心定义将人类语言离散的符号转化为计算机能理解的连续稠密向量一串浮点数的技术。深度解析在多维空间中意思相近的词汇其向量距离也会很近。比如“国王”和“皇帝”的向量可能在空间中紧挨着。它不仅包含了词的字面信息还隐含了语义特征。比喻就像是给每个词语分配了一个极其精准的“多维 GPS 坐标”在这个坐标系里语义相近的词住在同一个“小区”。3. Self-Attention / Multi-Head Attention中文翻译自注意力机制 / 多头注意力机制核心定义模型在处理当前词时自动“关注”上下文中其他相关词汇的机制。深度解析Self-Attention处理句子“苹果公司很好它今年发布了新手机”时模型在处理“它”这个词时自注意力机制会把高权重分配给“苹果公司”从而解决指代消解问题。Multi-Head (多头)模型不只用一种视角看问题而是分成多个“头”比如 32 个头。有的头关注语法结构有的头关注情感色彩有的头关注实体关系。最后将所有头的信息拼接起来。比喻就像一群专家组成的智囊团多头在阅读一份文件时有人负责查错别字有人负责看逻辑有人负责提炼中心思想。4. Q, K, V (Query, Key, Value)中文翻译查询向量、键向量、值向量核心定义注意力机制中的三个核心矩阵用于计算词与词之间的相关性得分。深度解析输入序列的每个 Token 都会被映射为这三个向量。Query代表“我当前在寻找什么信息”Key代表“我能提供什么特征”Value代表“我实际包含的内容”。通过计算 Query 和所有 Key 的点积得出注意力分数然后按这个分数对所有 Value 进行加权求和。比喻你去图书馆找书。Query就是你在检索系统里输入的“人工智能”Key就是每本书书脊上的“标签/书名”Value就是这本书里面的“具体内容”。5. FFN (Feed-Forward Network)中文翻译前馈神经网络 / 多层感知机 (MLP)核心定义Transformer 每个注意力块之后连接的非线性全连接网络。深度解析注意力机制负责“收集”上下文信息信息在词与词之间流动而 FFN 负责“消化和加工”这些信息信息在每个独立的词内部进行非线性升维和降维。FFN 通常会将向量维度放大 4 倍然后再缩小回来以此来拟合复杂的非线性函数记忆大量的世界知识。比喻注意力机制是“把所有的食材收集到锅里”FFN 则是“开火炒菜发生化学反应”。6. Residual Connection中文翻译残差连接 / 跳跃连接核心定义将网络前一层的输出直接加到后面某一层的输出上Output Layer(x) x。深度解析随着神经网络层数加深很容易出现梯度消失信号传不到前面或网络退化。残差连接提供了一条“信息高速公路”使得原始特征可以无损地传递到深层极大提高了深层网络训练的稳定性。7. Layer Normalization / RMSNorm中文翻译层归一化 / 均方根归一化核心定义一种稳定神经网络训练的技术对每一层的数据分布进行标准化处理。深度解析Transformer 内部的数据如果不加限制数值可能会变得无限大或无限小。归一化强制把每一步的输出拉回均值为 0、方差为 1 的正态分布或类似分布。目前 LLaMA 等开源模型普遍采用RMSNorm它去掉了均值计算只算均方根计算速度更快效果却相当。8. Positional Encoding / RoPE / ALiBi中文翻译位置编码 / 旋转位置编码核心定义因为 Transformer 是并行处理数据的本身没有“顺序”概念必须通过额外加入位置信息让模型知道词的先后顺序。深度解析早期采用绝对位置编码如正弦/余弦函数。目前主流采用RoPE (Rotary Position Embedding, 旋转位置编码)它通过在复数空间中对向量进行旋转巧妙地将相对位置信息注入到 Q 和 K 的点积中使得模型对外推处理比训练时更长的文本有更好的表现。9. lm_head (Language Model Head)中文翻译语言模型头 / 输出投影层核心定义模型架构的最后一层负责将隐藏层向量转换为词表概率分布。深度解析经过几十层 Transformer 块处理后我们得到的是一个高维向量。lm_head 其实就是一个巨大的全连接层矩阵乘法它的输入维度是隐藏层大小如 4096输出维度是词表大小如 100,000。经过 lm_head 处理并配合 Softmax 函数模型就能输出预测下一个词的可能性列表每个词的概率。第二部分分词与数据输入 (Tokenization Data Processing)模型看不懂中文或英文它只能处理数字。这一部分负责将人类语言转化为数字序列。10. Token / Tokenizer中文翻译词元 / 分词器核心定义Token 是大模型处理文本的最小基本单位Tokenizer 是将长文本切分成 Token 序列的算法工具。深度解析一个 Token 不一定是一个完整的单词。在英文中“unbelievable” 可能被切分为 “un”, “believ”, “able” 三个 Token。在中文中通常一个汉字或一个常用词组是一个 Token。Tokenizer 的好坏直接影响模型对语言形态的理解以及上下文窗口的利用率。11. Vocabulary中文翻译词表核心定义模型能够识别的所有唯一 Token 的集合。深度解析每个模型在训练前都会确定一个固定的词表大小例如 GPT-4 约为 100kLLaMA-3 为 128k。词表越大单个 Token 能表达的信息越多序列就越短省显存但词表过大会导致模型的 Embedding 层和 lm_head 层参数量暴增增加训练难度。12. BPE (Byte Pair Encoding)中文翻译字节对编码核心定义目前大模型最主流的子词Subword分词算法。深度解析它从单个字符或字节开始不断统计相邻两个字符组合的频率将最高频的组合合并成一个新的 Token直到达到预设的词表大小。这种方法完美平衡了“词汇丰富度”和“避免生僻词 (Out Of Vocabulary)”的问题。13. Special Tokens (BOS, EOS, PAD)中文翻译特殊占位符深度解析BOS (Begin Of Sentence)序列开始标记告诉模型一句话开始了。EOS (End Of Sentence)序列结束标记。模型生成出这个标记时推理过程就会停止。如果模型学不好 EOS就会不停地胡言乱语无限输出。PAD (Padding)填充标记。由于 GPU 需要矩阵对齐运算短句子需要用 PAD 补齐到和长句子一样的长度。第三部分推理与解码策略 (Inference Decoding Strategies)大模型在生成回复时内部实际上是在计算概率如何从概率分布中挑出最终的词这就是解码策略。14. Autoregressive (AR) Generation中文翻译自回归生成核心定义根据过去和现在的信息预测未来的机制。深度解析LLM 生成文本是“逐字Token生成”的。输入上下文模型预测出第 1 个词然后把第 1 个词拼接到输入中再去预测第 2 个词如此循环直到预测出 EOS 停止符。这就是为什么我们看到 ChatGPT 输出时是一个字一个字往外蹦的原因。15. Temperature中文翻译温度值核心定义控制模型生成文本时随机性和创造性的超参数。深度解析在 Softmax 阶段调整概率分布Temperature 0等于贪心搜索Greedy Search模型每次都选概率绝对最大的那个词输出高度确定适合做数学题、代码生成、事实问答。Temperature 1概率分布被拉平低概率的词也有机会被选中回答更具创意但也容易产生幻觉或胡言乱语适合写诗、写故事。16. Top-k Sampling中文翻译Top-k 采样核心定义在生成下一个词时只从概率排名最高的前 k 个词中进行随机采样。深度解析如果 k50无论词表有十万个词模型都直接砍掉排名 51 之后的所有词。这防止了模型偶尔抽风选到一个概率极低的毫无逻辑的词。17. Top-p Sampling (Nucleus Sampling)中文翻译Top-p 采样 / 核采样核心定义按照概率从大到小累加候选词当累加概率刚超过给定的阈值 p如 0.9时停止加入候选词然后在这个动态集合中采样。深度解析相比 Top-k 的“一刀切”Top-p 更加智能。如果当前预测非常确定比如某个词概率就占了 90%候选池就只有这 1 个词如果当前预测很不确定很多词概率相似候选池就会包含几十个词。18. KV Cache中文翻译键值缓存核心定义大模型推理加速的最核心技术通过缓存历史 Token 的 K 和 V 矩阵来避免重复计算。深度解析在自回归生成中每生成一个新的 Token模型本来需要重新计算前面所有上下文的注意力。引入 KV Cache 后前面计算过的 Key 和 Value 会被保存在显存中新来的 Token 只需要算自己的 Q然后和缓存中的 K, V 直接相乘即可。代价这会极大地占用 GPU 显存这就是为什么长文本大模型极度吃显存的原因。19. Repetition Penalty中文翻译重复惩罚核心定义一种惩罚机制降低模型在上下文中已经生成过的词汇再次被选中的概率。深度解析如果不加控制模型很容易陷入死循环例如“非常非常非常非常感谢…”。引入此参数后已经出现过的词其对数概率Logits会被除以一个大于 1 的惩罚系数从而抑制“复读机”现象。第四部分训练与微调 (Training Fine-Tuning)如何将一个未经人事的“语言引擎”变成一个善解人意的“AI 助手”这就需要经历从预训练到对齐的多个阶段。20. Pre-training (PT)中文翻译预训练核心定义在大规模无标注文本语料上训练模型的阶段目标是“预测下一个词”Next Token Prediction。深度解析这是最昂贵、最耗时的一步耗资几百万到上亿美元。模型阅读了全网的书籍、网页、代码学会了人类的语法、逻辑和庞大的世界知识此时的模型叫作 Base Model或基座模型。但此时它只会“续写”不会“回答问题”。21. SFT (Supervised Fine-Tuning)中文翻译监督微调 / 指令微调 (Instruction Tuning)核心定义使用高质量的“人类指令-回复”对如一问一答的数据集对预训练模型进行进一步训练。深度解析让 Base Model 学习“如何作为一名助手进行对话”。经过 SFT 后当你输入“帮我写一封请假条”它不再去续写“请假条怎么写”而是真正输出一封请假条的正文。SFT 数据的质量Quality远远比数量Quantity重要所谓的“LIMA 定律”Less Is More for Alignment。22. RLHF (Reinforcement Learning from Human Feedback)中文翻译基于人类反馈的强化学习核心定义通过引入奖励模型让大模型的输出不仅是对的而且符合人类偏好有礼貌、无害、不偏激。深度解析训练一个Reward Model (奖励模型)让人类对模型的多个回答进行打分排序训练一个当裁判的神经网络。利用PPO (近端策略优化)算法模型生成回复 - 奖励模型打分 - 根据分数调整模型参数。最新替代技术DPO (直接偏好优化)。摒弃了复杂的奖励模型和 PPO 算法直接使用偏好数据好回复 vs 坏回复修改交叉熵损失函数进行对齐目前在开源界极为流行。23. PEFT (Parameter-Efficient Fine-Tuning)中文翻译参数高效微调核心定义在不更新大模型所有参数的情况下仅通过更新极少数额外参数来完成微调的技术总称。深度解析全量微调Full Fine-tuning一个 70B 模型可能需要几十张甚至上百张顶级显卡。而 PEFT 技术允许普通开发者用单张消费级显卡如 RTX 4090微调大模型。主流技术包括 LoRA, Prompt Tuning, Prefix Tuning 等。24. LoRA (Low-Rank Adaptation)中文翻译低秩自适应核心定义最受工业界欢迎的 PEFT 技术。它冻结了预训练模型的所有原始权重而是在其旁边增加旁路分支两个低秩矩阵 A 和 B。深度解析假设原始大矩阵是 10000 x 100001亿参数LoRA 不去动它而是加上一个 10000 x 8 的矩阵 A 和 8 x 10000 的矩阵 B。这两个小矩阵相乘也能得到 10000 x 10000 的矩阵但需要训练的参数量只有 16 万下降了几个数量级。训练完成后把小矩阵合并到大矩阵里推理时不增加任何延迟。25. Epoch / Batch Size / Learning Rate中文翻译训练轮次 / 批次大小 / 学习率深度解析Epoch完整过一遍整个训练数据集的次数。对于 LLM预训练通常只有 1 个 Epoch因为数据太多了看一遍就够了SFT 通常 2-4 个 Epoch。Batch Size模型一次性并行处理的样本数量。越大越稳定但越吃显存。Learning Rate (LR)步长。每次根据误差修正参数的幅度。太大容易学崩Loss 爆炸太小收敛太慢。26. Catastrophic Forgetting中文翻译灾难性遗忘核心定义模型在学习新知识SFT 微调特定垂直领域时大幅度丢失了预训练阶段学到的通用能力。深度解析比如你拿大量的医疗数据去微调一个模型它变成了一个优秀的医生但突然连“11?”或者写首诗都不会了。缓解方法包括混合通用数据集一起训练、控制学习率、使用 LoRA 等。第五部分应用与工程化 (Applications Engineering)模型训好了怎么在实际业务中用好它这就是当前 AI 工程师每天都在琢磨的事。27. Prompt Engineering中文翻译提示词工程核心定义通过精心设计输入文本的结构、语气、限制条件和示例引导 LLM 输出最理想结果的技术。深度解析俗称“AI 念咒”。进阶的提示工程不仅是说话清晰还包括Few-shot (少样本提示)在问题前给模型看几个正确的问答例子Role-playing (角色扮演)设定模型的系统身份System Prompt以约束其语调边界。28. CoT (Chain of Thought)中文翻译思维链核心定义一种提示技术要求模型在给出最终答案前先输出逐步推理的过程。深度解析经典的提示词是“请一步一步地思考 (Let’s think step by step)”。这不仅能强迫模型理清逻辑更重要的是为复杂的推理如数学运算争取了更多的计算周期Token 数量显著降低了逻辑幻觉。29. RAG (Retrieval-Augmented Generation)中文翻译检索增强生成核心定义解决大模型“知识滞后”和“胡说八道”的最主流工程方案。将外部知识库检索Search与大模型生成Generation结合。深度解析流程如下用户提问。系统不直接把问题给 LLM而是拿着问题去企业私域数据库通常是Vector Database 向量数据库搜出最相关的 3 篇文档。系统把这 3 篇文档加上用户的问题打包组合成一条超长的 Prompt“请根据以下参考资料回答用户问题[资料…]问题是…”。LLM 总结出准确答案。30. Agent / Tool Use / Function Calling/ Skills中文翻译智能体 / 工具调用 / 函数调用/ 技能核心定义赋予大模型与外部物理世界或数字世界交互的能力。深度解析传统 LLM 只能“动嘴”。而 Agent 拥有了“手脚”。当用户问“深圳今天的天气”模型发现自己不知道但它知道自己有一个名为get_weather(city)的工具。它会输出一段特定的代码要求系统调用这个工具系统执行 API 后把温度反馈给模型模型再用人类语言回答用户。这就是 Function Calling 的本质。31. Hallucination中文翻译幻觉核心定义模型生成了看似合理流畅但实际上不符合事实、无中生有或违背逻辑的内容。深度解析大模型的本质是概率预测引擎它天生就有“填补空白”的冲动一本正经地胡说八道。这并非是 bug而是其创造力的副作用。解决幻觉主要依靠 RAG用外部事实锚定、调整 Temperature 参数以及更高质量的对齐训练。第六部分高阶架构与前沿结构 (Advanced Architecture)为了让模型更大、更快、更强研究人员对标准的 Transformer 进行了大量“魔改”。32. MoE (Mixture of Experts)中文翻译混合专家模型核心定义一种在不显著增加推理计算量的前提下大幅增加模型总参数量的架构技术GPT-4、Grok-1、Mixtral 均采用此架构。深度解析标准的模型Dense Model在处理任何一个词时所有的神经网络层都会被激活。而 MoE 模型内部包含了多个“专家网络”比如 8 个 FFN 层并设有一个路由器 (Router)。对于输入的每个 Token路由器只挑选最合适的 1 个或 2 个专家来处理。比喻就像一家大型综合医院。如果是普通模型Dense你不管得什么病全院所有科室的医生都要集体会诊一次极度低效如果是 MoE 模型导诊台Router会根据你的症状直接把你分发给眼科或骨科专家激活部分参数既专业又省资源。33. GQA (Grouped-Query Attention) / MQA (Multi-Query Attention)中文翻译分组查询注意力 / 多查询注意力核心定义对标准多头注意力机制MHA的变体旨在大幅减少推理时的 KV Cache 显存占用。深度解析MHA每个注意力头都有自己独立的 Q, K, V 矩阵。MQA所有注意力头共享同一组 K 和 V 矩阵极度省显存但模型性能会有所下降。GQA目前的折中完美方案被 LLaMA-2/3 广泛采用。将注意力头分组每组共享一组 K 和 V。比如 32 个头分成 8 组每 4 个头共享 1 组 KV。比喻MHA 是每个经理Query配一个专属秘书Key/ValueMQA 是全公司 32 个经理共用 1 个秘书GQA 是把 32 个经理分成 8 个部门每个部门配 1 个秘书。34. SwiGLU / GeLU中文翻译SwiGLU 激活函数核心定义目前大语言模型最主流的非线性激活函数替代了早期的 ReLU。深度解析激活函数决定了神经元是否被“激活”。SwiGLU 结合了 Swish 函数和 GLU门控线性单元的特性。在 LLaMA 等模型中它被证明能在相同的计算量下提供更好的性能和收敛效果。35. SSM / Mamba (State Space Models)中文翻译状态空间模型核心定义目前被寄予厚望、极有可能挑战 Transformer 霸主地位的新型非注意力架构。深度解析Transformer 的致命弱点是“计算复杂度随上下文长度呈平方级增长”长度翻倍计算量翻 4 倍。Mamba 等 SSM 架构通过复杂的控制理论和硬件感知设计实现了线性时间复杂度。这意味着它在处理几百万字的超长文本时速度极快且不怎么爆显存。第七部分深度对齐与微调算法 (Deep Alignment Fine-Tuning)在 RLHF 之后开源社区为了让微调更加平民化、高效化发明了许多替代算法。36. DPO (Direct Preference Optimization)中文翻译直接偏好优化核心定义无需训练奖励模型Reward Model即可实现人类偏好对齐的轻量级算法。深度解析传统的 RLHF 过程极其繁琐需要拉起多个模型。DPO 通过巧妙的数学推导将“强化学习”问题转化为了简单的“分类”问题。你只需要喂给模型一对数据一个好回答Chosen和一个坏回答Rejected利用交叉熵损失函数模型就能直接学会“倾向好回答远离坏回答”。比喻RLHF 是请一个严厉的教练奖励模型一直盯着运动员打分纠正DPO 则是直接给运动员看比赛录像“这个动作是对的那个动作是错的你自己体会对比一下”效率大大提升。37. KTO (Kahneman-Tversky Optimization)中文翻译前景理论优化核心定义基于行为经济学前景理论提出的一种比 DPO 门槛更低的对齐方法。深度解析DPO 必须要求数据是成对的好坏对比。但实际业务中我们往往只有“点赞”或“踩”的单边数据。KTO 允许只使用“被标记为好或坏”的独立数据进行训练它认为人类对损失坏回答的厌恶远大于对收益好回答的渴望据此调整模型的权重。38. Reward Hacking中文翻译奖励作弊 / 奖励黑客核心定义对齐训练中的一种常见翻车现象模型找到了奖励函数的漏洞用投机取巧的方式获得高分但偏离了人类真正的意图。深度解析比如如果你设置“回答越长得分越高”模型就会变成“废话文学大师”如果你设置“拒绝有害内容得分高”模型可能会产生“过度拒绝Over-refusal”连你问“如何杀灭电脑病毒”它都会以道德理由拒绝回答。第八部分推理加速与工程部署 (Inference Deployment)大模型在实验室训出来只是第一步如何让它在廉价显卡上跑得又快又好是算法工程师的核心KPI。39. Quantization (PTQ / QAT / AWQ / GPTQ)中文翻译模型量化核心定义将模型权重从高精度浮点数如 16位 FP16压缩到低精度整数如 8位 INT8 或 4位 INT4的技术。深度解析好处显存占用大幅缩小比如 70B 模型原本需要 140GB 显存量化到 4-bit 后只需约 40GB推理速度成倍提升。代价稍微损失一点模型能力。常见方法分为PTQ训练后量化和QAT量化感知训练。目前 AWQ 和 GPTQ 是极为主流的 4-bit 压缩算法。比喻把一张 20MB 的超高清 BMP 图片压缩成 2MB 的 JPEG 图片。虽然放大看细节有一点点糊但不影响你认出图里的人是谁且传输速度快了十倍。40. PagedAttention / vLLM中文翻译分页注意力核心定义一种革命性的内存管理机制解决了大模型并发推理时的显存碎片化问题。深度解析传统推理中KV Cache 的长度是动态增长的系统必须预留大块连续显存导致大量显存闲置浪费碎片化。PagedAttention 借鉴了操作系统中的“虚拟内存分页”技术将 KV Cache 拆解成固定大小的“块”允许非连续存储。这使得大模型服务器的并发吞吐量Throughput提升了 2 到 4 倍。41. FlashAttention (1/2/3)中文翻译闪电注意力核心定义一种 IO 感知的快速注意力计算算法。深度解析GPU 计算非常快但从显存HBM读写数据很慢。FlashAttention 通过巧妙的分块计算逻辑极大地减少了 GPU 内部的内存读写次数将更多数据留在高速缓存SRAM中处理不仅大幅提升了训练和推理速度还显著降低了显存使用量。目前几乎所有大模型都在底层集成了此技术。42. Speculative Decoding中文翻译投机解码核心定义利用一个快速的小模型来“草拟”文本再由大模型来“验证”的加速推理方案。深度解析由于自回归生成是一字一字蹦的大模型的大量算力浪费在等待内存读取上。投机解码让一个 7B 的小模型一口气快速猜出接下来的 5 个词然后让 70B 的大模型并行看一眼这 5 个词如果觉得对就直接接受一次性生成 5 个词如果发现第 3 个词错了就从第 3 个词开始纠正。比喻就像老板大模型和秘书小模型。秘书先快速写出一段草稿老板一眼扫过去觉得没问题就直接签字发布这比老板自己逐字敲键盘快得多。第九部分数据质量与模型评估 (Data Evaluation)43. Perplexity (PPL)中文翻译困惑度核心定义评估语言模型基础能力的一个核心指标数值越低越好。深度解析困惑度衡量的是模型面对一段真实人类文本时“感到意外的程度”。如果模型预测下一个词的概率非常准它的困惑度就很低如果它经常猜错困惑度就很高。44. Data Contamination / Leakage中文翻译数据污染 / 数据泄露核心定义模型在训练阶段不小心“看到”了测试集的数据导致跑分极高但实际能力很弱的现象。深度解析现在的 LLM 动辄跑出超越人类的测试分数很多时候是因为刷榜题库被混进了预训练语料中。为了防范各大榜单现在都会使用复杂的去重算法来检测数据污染。比喻高考前考生已经提前在模拟卷里做到了高考试卷的原题。45. Ablation Study中文翻译消融实验核心定义在论文或工程中通过逐步移除或替换模型的某个组件来证明该组件有效性的实验方法。深度解析你宣称自己加了一个“超级注意力机制”让模型变强了。评审就会要求你做消融实验把你的“超级”部分拿掉换回普通的看看性能下降多少。以此证明系统的成功不是玄学而是归功于你提出的新结构。