系列文章目录第一章 2026大模型LLM算法岗超全面试题汇总附答案第二章 从 PDF 到 AI 知识库RAG 数据预处理的六步标准流水线 (SOP)第三章 大模型应用面经RAG 复杂文档解析与 LangGraph Agent 落地文章目录系列文章目录前言一、基础架构与核心理论LLM 八股必考二、模型微调与对齐技术SFT / PEFT / RLHF三、RAG检索增强生成深度架构四、Multi-Agent 系统与智能体开发总结前言现在的 LLM 面试早就不局限于问问 Transformer 怎么计算了面试官更看重的是你有没有真刀真枪地微调过模型懂不懂工程侧的显存优化能不能用 LangGraph 落地复杂的 Agent 业务架构本文结合博主自身面试经历总结了一些高频面试题助你拿下 Offer。一、基础架构与核心理论LLM 八股必考请简述什么是大模型以及它与传统模型的主要区别是什么答模型通常指的是参数数量巨大的深度学习模型如GPT系列。它们与传统模型的主要区别在于规模大模型拥有更多的参数和更复杂的结构从而能够处理更复杂、更广泛的任务。此外大模型通常需要更多的数据和计算资源进行训练和推理。你如何评估大模型的性能有哪些常用的评估指标答评估大模型性能时通常会考虑多个方面包括准确率、召回率、F1值等。对于生成式任务如文本生成我们可能还会关注流畅性、多样性和相关性等指标。此外模型的效率、稳定性和可解释性也是重要的评估方面。请简述Transformer的基本结构和工作原理答Transformer由编码器Encoder和解码器Decoder组成每个编码器和解码器都包含多层自注意力机制和前馈神经网络。自注意力机制允许模型处理输入序列中的依赖关系无论它们之间的距离有多远。通过堆叠多个编码器和解码器Transformer可以捕捉更复杂的特征并生成高质量的输出。Transformer 如何改进传统的 Seq2Seq 模型答传统的 Seq2Seq 模型通常使用循环神经网络RNN或其变体如 LSTM、GRU存在梯度消失或梯度爆炸问题且处理长序列时效率较低。Transformer 摒弃了循环结构采用自注意力机制能够并行计算大大提高了训练速度。它可以直接捕捉序列中任意位置之间的依赖关系无需像 RNN 那样顺序处理使得模型对长距离依赖的处理能力更强。多头注意力机制进一步增强了模型捕捉不同类型信息的能力位置编码则解决了输入序列中单词顺序的问题使模型能够感知单词的位置信息。多头自注意力机制的作用是什么答多头自注意力机制允许模型在不同子空间上同时捕捉信息从而增强了对输入序列的表达能力。每个头关注输入序列的不同部分然后将它们的结果拼接起来以获得更全面的特征表示。详细拆解 MHA多头注意力、MQA多查询注意力与 GQA分组查询注意力的区别答MHA (Multi-Head Attention): 每个注意力头都有独立的 Query、Key、Value 矩阵。优点是表达能力强缺点是推理时 KV Cache 占用极大显存。MQA (Multi-Query Attention): 所有头共享同一组 Key 和 Value 矩阵。大幅降低 KV Cache 的显存占用提高推理批处理大小但会损失一定精度。GQA (Grouped-Query Attention): Llama 系列的主流选择。将所有的头分组组内共享一组 Key 和 Value。它是 MHA 和 MQA 的折中方案在性能和显存占用之间取得了极佳的平衡。为什么 Transformer 中的 Softmax 之前需要对Q K T QK^TQKT除以d k \sqrt{d_k}dk​​答 随着维度d k d_kdk​的增大点积结果的方差也会变大导致 Softmax 后的分布变得极其陡峭大部分梯度会趋近于 0梯度消失。除以d k \sqrt{d_k}dk​​可以将点积结果的方差拉回 1保持梯度稳定。位置编码是什么为什么要使用它们答位置编码是为输入序列中的每个位置分配一个唯一编码的方法。在 Transformer 模型中自注意力机制本身无法捕捉单词的顺序信息因为它平等地对待序列中的每个 token。位置编码通过将位置信息编码到输入向量中使模型能够理解单词在序列中的相对位置。常见的位置编码方式有正弦位置编码和学习型位置编码。正弦位置编码利用正弦和余弦函数的特性生成位置编码具有可扩展性和良好的数学性质学习型位置编码则是在模型训练过程中学习得到位置编码能更好地适应具体任务的数据特征。RoPE旋转位置编码相对于绝对位置编码的优势答1.外推性 能够较好地处理训练时未见过的长文本。2.相对距离衰减 随着两个 Token 距离的增加它们之间的内积注意力分数会呈衰减趋势这符合自然语言的局部依赖直觉。为什么主流大语言模型都采用了 Decoder-Only 架构答1.训练效率 只需要预测下一个词Next Token Prediction可以利用 Causal Mask 实现高度并行的自回归训练。2.Zero-shot 能力 研究表明如 Scaling LawDecoder-Only 架构在参数规模扩大后更容易产生“涌现能力”和更好的零样本泛化能力。目前主流的开源模型体系有哪些1.Transformer体系由Google提出的Transformer 模型及其变体如BERT、GPT 等。2.PyTorch Lightning一个基于PyTorch的轻量级深度学习框架用于快速原型设计和实验。3.TensorFlow Model GardenTensorFlow官方提供的一系列预训练模型和模型架构。4.Hugging Face Transformers一个流行的开源库提供了大量预训练模型和工具用于NLP 任务。涌现能力是什么原因?答涌现能力是指模型在训练过程中突然表现出的新的、之前未曾预料到的能力。这种现象通常发生在大型模型中原因是大型模型具有更高的表示能力和更多的参数可以更好地捕捉数据中的模式和关联。随着模型规模的增加它们能够自动学习到更复杂、更抽象的概念和规律从而展现出涌现能力。详细对比一下层归一化Layer Normalization和批量归一化Batch Normalization的区别为什么 Transformer 要用 LN答1.归一化的维度不同BatchNorm (BN) 在批次Batch维度上进行归一化。它计算同一个特征在整个 Batch 中的均值和方差。LayerNorm (LN) 在特征Feature/Channel维度上进行归一化。它计算单个样本或单个 Token所有特征的均值和方差。2.对 Batch Size 的依赖 BN 严重依赖较大的 Batch Size 来保证统计量的稳定LN 完全独立于 Batch Size即使单条样本也能正常计算。3.为什么 Transformer 要用 LNNLP 任务中文本序列的长度Sequence Length是动态变化的。BN 很难处理变长序列如果某个 Batch 中有一条特别长的序列后面位置的特征在计算均值方差时会缺乏足够的数据。LN 针对单个 Token 进行归一化完美契合了 RNN、Transformer 等处理变长序列序列模型的天然属性。词嵌入Word Embedding的常用方法经历了哪些演进阐述其原理。答阶段一One-Hot 编码原理 用一个超长向量表示词词典有多大向量就有多长当前词位置为 1其余为 0。缺陷 维度灾难极其稀疏、无法体现词与词之间的语义相似度任意两个词的向量内积均为 0。阶段二静态词向量Word2Vec / GloVe原理 核心思想是“共现即相关”。以 Word2Vec 为例包含两种结构CBOW根据上下文预测中心词和 Skip-Gram根据中心词预测上下文。优势 将词映射到了低维稠密向量空间且具备语义代数运算能力经典例子V K i n g − V M a n V W o m a n ≈ V Q u e e n V_{King} - V_{Man} V_{Woman} \approx V_{Queen}VKing​−VMan​VWoman​≈VQueen​。缺陷 无法解决一词多义问题同一个词在任何语境下向量都是一样的。阶段三动态上下文词嵌入ELMo / BERT / 当前的 LLM原理 词的向量表示不再是静态的查表而是通过 Transformer 等模型结合当前上下文实时计算出来的。优势 完美解决一词多义同一个“苹果”水果 vs 公司在不同句子中会生成截然不同的 Embedding。什么是知识蒸馏Knowledge Distillation在大模型时代有何应用答核心概念 知识蒸馏是一种模型压缩技术。其核心思想是让一个轻量级的小模型Student去学习一个庞大且性能强悍的大模型Teacher的泛化能力。原理解析Soft Labels vs Hard Labels传统的训练只使用真实标签Hard Labels如 [1, 0, 0]。蒸馏时Teacher 模型输出的是带有概率分布的软标签Soft Labels如 [0.7, 0.2, 0.1]。软标签包含了类间相似度的丰富暗知识Dark Knowledge。温度系数Temperature,T TT 在 Softmax 层引入T TT。当T 1 T 1T1时输出的概率分布会更加平滑放大了非目标类别的概率便于 Student 捕捉这些微小的差异。计算公式为q i exp ⁡ ( z i / T ) ∑ j exp ⁡ ( z j / T ) q_i \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}qi​∑j​exp(zj​/T)exp(zi​/T)​大模型时代的应用黑盒蒸馏数据蒸馏 使用超大模型如 GPT-4生成高质量的数据集指令、CoT 思维链然后用这些数据去微调开源小模型如 Llama-3-8B低成本提升小模型能力。二、模型微调与对齐技术SFT / PEFT / RLHF什么是模型微调Fine-Tuning什么是全参数微调FFT通常的微调流程是怎样的a.微调Fine-Tuning是什么预训练Pre-training阶段让大模型阅读了海量文本获得了强大的“通用语言理解和续写能力”但此时的模型就像一个极其渊博但不懂人类沟通规矩的学者倾向于无脑补全句子。微调就是在此基础上使用特定领域或特定格式的数据对模型进行继续训练使其能力适配特定的下游任务如问答、信息抽取、代码生成等。b.什么是全参数微调FFT, Full Fine-Tuning全参数微调是指在训练过程中解冻Unfreeze模型的所有权重矩阵利用反向传播更新整个模型的参数。优点 理论上能达到模型在特定任务上的性能上限适合领域跨度极大的任务。缺点 极其昂贵。需要保存模型权重、梯度、优化器状态如 Adam 的动量和方差动辄需要极其庞大的显存集群且容易引发“灾难性遗忘”忘了原来预训练的通用知识。c.微调的基本流程1)数据准备 构建高质量的 Prompt-Response 对通常是 JSONL 格式。2)Tokenization分词 将文本转化为模型能理解的 Token 序列并添加特殊的控制字符如 |im_start||im_end|。3)选择微调策略 根据算力决定是做 FFT 还是 PEFT见下文。4)配置超参数 设定学习率通常比预训练低几个数量级、Batch Size、Epoch 数等。5)训练与评估 监控 Loss 曲线并在验证集上测试模型生成效果。Tokenization分词有哪些常见的方法请简述其原理和优缺点。答在大模型的发展历程中Tokenization 主要经历了三个阶段的演进词级别Word-level - 字符级别Character-level - 子词级别Subword-level。目前主流的 LLM如 GPT 系列、Llama、Qwen 等几乎全部采用子词级别的方案。1)词级别分词(Word-level Tokenization)原理 以空格或标点符号作为分隔符将句子直接切分成一个个完整的单词。例如“I love AI” 变成 [“I”, “love”, “AI”]。优点 * 保留了完整的词汇语义对模型理解单字含义很友好。切分出来的序列较短降低了 Transformer 的计算压力。缺点致命词表极其庞大 英文中 run、runs、running 会被当作三个完全不同的词导致词表爆炸。OOV (Out of Vocabulary) 问题 遇到词表外的新词、网络用语或拼写错误时只能用 (Unknown) 代替导致信息严重丢失。2)字符级别分词(Character-level Tokenization)原理 将文本彻底打散拆分成最基本的字符。例如“love” 变成 [“l”, “o”, “v”, “e”]。优点词表极小英文仅需 26 个字母加符号中文几千个常用汉字。彻底消灭 OOV 问题任何生僻词都能被拼出来。缺点缺乏语义 单个字母 l 或 o 本身没有任何语义模型需要花费大量算力去学习字符如何组合成词。序列变得极长 导致 Transformer 的计算复杂度激增极大地限制了模型能处理的文本总长度。3)子词级别分词(Subword-level Tokenization) ——现代大模型的基石核心思想 结合了前两者的优点。“高频词整体保留低频词拆分为高频子词”。例如高频词 unhappiness 可能会被拆解为 [“un”, “happi”, “ness”]。在面试中通常会要求你进一步详细区分几种主流的子词算法A. BPE (Byte Pair Encoding)代表模型 GPT 系列、Llama 系列。原理 一种基于统计频率的数据驱动算法。初始化将语料拆分为单个字符序列。统计相邻两个 Token 组合的出现频率。合并频率最高的相邻 Token 对例如 h 和 e 经常连在一起就合并为 he将其加入词表。重复上述过程直到达到预设的词表大小Vocab Size。优缺点 简单高效平衡了序列长度和词表大小但在某些语言下可能会切分出缺乏明确语义的碎片。B. BBPE (Byte-level BPE)代表模型 GPT-2 之后的大多数模型包括 GPT-4。原理 传统的 BPE 是基于 Unicode 字符的遇到多语言如中文、日文时依然面临基础字符过多的问题。BBPE 直接将文本转换为 UTF-8 编码的字节流Bytes然后在字节层面上执行 BPE 合并。优势 基础词表大小被死死限制在 256一个字节的 256 种可能实现了真正的零 OOV (Zero OOV)且对多语言代码Code数据极其友好。C. WordPiece代表模型 BERT。原理 与 BPE 类似也是不断合并相邻的 Token。但 BPE 是看“谁出现的频率高就合并谁”而 WordPiece 是看“合并哪两个 Token 能使整体语言模型的概率提升最大最大化似然”。计算方式 评估合并组合a b abab的得分S c o r e P ( a b ) P ( a ) ⋅ P ( b ) Score \frac{P(ab)}{P(a) \cdot P(b)}ScoreP(a)⋅P(b)P(ab)​。得分高意味着这两个子词组合在一起的概率远大于它们独立出现的概率即相关性强。D. Unigram (SentencePiece 常用底层算法)原理 与 BPE 的“自底向上合并”不同Unigram 是“自顶向下裁剪”。它先建立一个超级大的词表包含各种可能的组合然后基于语言模型概率不断剔除那些对整体概率贡献最小的 Token直到词表缩减到目标大小。注在面试中如果被问到『为什么 GPT 要用 BBPE 而不是传统的分词』一定要答出BBPE 通过字节级别的处理完美解决了多语言和代码混合场景下的 OOV 问题同时将基础词表控制在了 256 的极小规模是走向通用人工智能大一统的基建。大模型的 SFT、PEFT 和 RLHF 分别是什么它们在训练流程中扮演什么角色这三者构成了现代大语言模型从“基座模型Base Model”走向“对话助理Chat Model”的经典对齐流水线Alignment Pipeline。a.SFT (Supervised Fine-Tuning, 有监督微调)目标 “教模型懂规矩”。做法 使用成千上万条高质量的、由人类撰写或筛选的问答对进行训练。模型通过模仿这些数据学会了“一问一答”的对话模式而不再是简单的文本续写。SFT 是激发大模型遵循指令Instruction Following能力的最关键步骤。b.PEFT (Parameter-Efficient Fine-Tuning, 参数高效微调)定位 一种技术手段的统称主要用于解决全参数微调FFT算力成本过高的问题。做法 在微调时冻结预训练模型的大部分甚至全部原生参数只引入并训练极少量的额外参数。这样既保留了预训练知识又大幅降低了显存占用和训练时间。常见的 PEFT 方法包括 LoRA、P-Tuning 等。c.RLHF (Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习)目标 “教模型符合人类价值观对齐”。做法 SFT 虽然让模型学会了对话但模型依然可能产生幻觉、输出有害内容或者回答不够详尽。RLHF 通常分为两步1)训练一个奖励模型Reward Model对 LLM 的不同回答按照人类喜好进行打分。2)使用强化学习算法如 PPO优化 LLM使其在生成文本时尽可能获得奖励模型的高分。多种不同的高效微调方法PEFT对比Adapter、Prefix-Tuning、P-Tuning 与 LoRA在工业界落地中PEFT 是算法工程师必须掌握的技能。以下是主流 PEFT 方法的横向对比注意如果面试官问“你做项目时为什么选 LoRA 而不是 Adapter”要说明 “LoRA 在部署推理时可以将权重合并回原模型Reparameterization不会引入任何额外的推理延迟而 Adapter 会增加模型深度导致推理变慢”详细描述 LoRA 的数学原理。它为什么能节省显存原理 对于预训练权重矩阵W 0 ∈ R d × k W_0 \in \mathbb{R}^{d \times k}W0​∈Rd×kLoRA 假设权重更新Δ W \Delta WΔW具有低秩特性。它引入两个低秩矩阵A ∈ R r × k A \in \mathbb{R}^{r \times k}A∈Rr×k和B ∈ R d × r B \in \mathbb{R}^{d \times r}B∈Rd×r其中r ≪ min ⁡ ( d , k ) r \ll \min(d, k)r≪min(d,k)。微调时的前向传播公式为h W 0 x Δ W x W 0 x B A x h W_0 x \Delta W x W_0 x B A xhW0​xΔWxW0​xBAx显存节省 训练时冻结W 0 W_0W0​只需更新极小体量的A AA和B BB的梯度和优化器状态如 Adam 的动量从而将显存需求降低了一个数量级。P-Tuning v2 和 LoRA 的区别与适用场景答P-Tuning v2: 在 Transformer 的每一层输入前加入可训练的连续 Prompt Embedding。适合 NLU自然语言理解任务。LoRA: 作用于注意力层的 Q、V 投影矩阵或 FFN 层。更适合复杂的生成任务和全量指令微调平替。DPO直接偏好优化相比于 RLHF基于人类反馈的强化学习赢在哪里痛点解决 传统的 RLHF 需要先训练一个 Reward Model再用 PPO 算法微调 LLM过程极其复杂且容易崩溃。DPO 优势 直接将偏好数据好回答和坏回答作为损失函数的优化目标无需训练独立的奖励模型大大简化了对齐管道Alignment Pipeline且效果持平甚至更好。三、RAG检索增强生成深度架构什么是 RAG答RAGRetrieval-Augmented Generation 是一种结合“外部知识检索”和“大语言模型生成”的混合架构。它先从知识库中检索相关文档再让模型基于这些文档生成回答。RAG 的好处是什么答能降低幻觉让回答更贴近事实还能节省训练成本无需让模型 “死记硬背”海量数据。RAG vs SFT 有何区别答SFT监督微调是在模型内部“灌知识”RAG 是让模型“查资料”。 一个靠记忆一个靠检索。RAG 的优势是更新快、灵活SFT 的优势是推理更自然。RAG 系统中经常出现“内容缺失”模型回答“我不知道”或胡编乱造常见原因有哪些如何解决痛点剖析1语义鸿沟Semantic Gap 用户的提问词与文档的表述不一致。例如用户搜“赚钱能力”而研报中写的是“归母净利润”或“ROE”。简单的向量检索无法精确匹配。2Embedding 模型的领域局限 开源的通用 Embedding 模型对特定垂直领域如量化金融指标、特定学术缩写的表征能力极差。3上下文割裂 暴力的文档切片Chunking可能正好把一段完整的逻辑从中间截断导致两段都缺乏独立存在的意义。解决方案1查询转换Query Transformation 引入 LLM 在检索前对用户的 Query 进行重写Rewrite、扩展Expansion或者使用 HyDE假设性文档嵌入 技术先让 LLM 生成一段虚构答案再拿虚构答案去检索。2混合检索Hybrid Search 将向量检索Dense Retrieval捕捉语义与BM25 关键词检索Sparse Retrieval捕捉精确字眼如股票代码或专有名词结合利用 Reciprocal Rank Fusion (RRF) 融合打分。3微调 Embedding 模型 使用垂直领域的正负样本对如问答对对 BGE 等开源模型进行对比学习微调。检索时错过了排名靠前的核心文档或者放入 Prompt 后被模型忽略了怎么办情况一粗排阶段排名靠后导致未被 Top-K 召回检索漏了原因 向量检索Bi-encoder为了追求速度预先计算好向量算余弦相似度这种交互是浅层的。对策 引入 Reranker重排序模型。它通常是一个 Cross-encoder 架构将 Query 和 Document 拼接在一起输入 Transformer 计算相关性分数。在混合检索召回 Top-100 后用 Reranker 进行极其精细的二次打分截断出最核心的 Top-5 喂给大模型。情况二召回成功了但大模型“视而不见”Lost in the Middle原因 研究表明当上下文窗口很长时大模型倾向于重点关注 Prompt 的开头和结尾而遗忘中间的文档内容。对策1上下文重排Context Reordering 将 Reranker 打分最高的文档放在 Prompt 的最前面和最后面把相关性偏低的文档塞在中间。2Prompt 压缩 剔除检索文档中无关的噪声句子只保留核心片段如使用 LongLLMLingua 等技术。RAG 系统中有哪些常见的文档切片Chunking策略如何选择切片策略直接决定了召回的质量。常见的策略由简单到复杂包括1固定大小切分Fixed-size Chunking做法 设定一个固定的 Token 长度如 512并设置一个滑动窗口的重叠区域Overlap如 50 Token防止句子被生硬截断。适用场景 无明显排版结构的纯长文本。2基于规则的结构化切分Recursive Character Text Splitter做法 优先按照段落\n\n、然后是句子、最后是单词进行递归切分。对于 Markdown、PDF 或 HTML会根据标题层级Header、表格、代码块等特定结构进行保留。适用场景 排版严谨的结构化文档如学术论文、财务报表、代码库。3语义切分Semantic Chunking做法 利用 Embedding 模型计算相邻两句话的余弦相似度。如果相似度突然出现“断崖式下跌”说明两句话讨论的不是同一个主题就在此处切断。适用场景 对上下文连贯性要求极高的复杂业务逻辑说明。4父子文档检索 / 句窗检索Parent Document / Sentence Window Retriever做法 检索时使用颗粒度极小的块比如单句话为了提高 Embedding 的匹配精度但在将内容喂给 LLM 时把这句命中的话所在的整个段落父文档一起带上提供充足的上下文。如何科学地评估一个 RAG 系统的好坏答案要点 不能仅凭肉眼看工业界常用 RAGAS 等自动化评估框架。核心关注四大指标1生成事实性Faithfulness LLM 的回答是否全部来源于检索到的文档检查幻觉。2回答相关性Answer Relevance LLM 的回答有没有答非所问3上下文精确度Context Precision 检索召回的文档列表中相关的文档是否排在最前面4上下文召回率Context Recall 用户的提问所需要的知识是否都被全部检索出来了总结做 RAG 就像是在做一道精细的烹饪Embedding 和 Chunking 是切菜备料Rerank 和混合检索是火候控制最后 LLM 的生成只是摆盘。前期的工程链路做不好再强的大模型也出不来好结果。四、Multi-Agent 系统与智能体开发ReAct 框架的具体执行流程是怎样的答ReActReasoning and Acting要求模型交替输出“思考Thought”和“动作Action”。Thought: 分析当前情况决定下一步需要什么信息。Action: 生成调用特定工具如 WebSearch, CodeInterpreter的指令。Observation: 获取工具返回的真实结果。循环上述步骤直到得出最终答案Finish。复杂的业务场景下如何设计多智能体协作架构如 LangGraph 实现Supervisor-Worker 架构Supervisor 节点 作为一个大脑路由负责拆解用户需求判断当前状态并将子任务分发给特定的 Worker。Worker 节点 如一个挂载了搜索引擎的 Researcher 负责资料搜集一个挂载了 Python 解释器的 Coder 负责数据处理和回测。状态图管理State Graph 这种架构能够很好地管理系统状态允许人在回路Human-in-the-loop干预比线性的 LangChain 容错率高得多。总结这一份“大模型面试全家桶”是我根据自己的面试经历以及金融 Agent 项目实操梳理而成的实战总结。大模型技术日新月异面试题库也在不断演进。我将坚持对本文进行常态化更新力求涵盖从模型基础、微调对齐到工程优化、RAG 进阶的每一个角落。如果你觉得有用请点赞收藏 若发现有博主未提及的高频考点请务必留言分享我会第一时间补充。希望这份总结能成为你面试路上的“最强辅助”我们高处见