01qwen2.5架构延续了 Qwen2 的 Transformer 解码器架构并在此基础上进行了优化。该架构包括以下关键组件分组查询注意力Grouped Query AttentionGQA用于高效地利用 KV 缓存Ainslie 等2023SwiGLU 激活函数增强非线性激活Dauphin 等2017旋转位置编码RoPE用于编码位置信息Su 等2024QKV 偏置用于提升注意力机制的表现Su2023RMSNorm在预归一化后使用以保证训练过程稳定Jiang 等2023b。MoE 模型架构在 Dense 模型基础上将标准的前馈网络FFN层替换为专门的 MoE 层来实现这一点每个层包含多个 FFN 专家, 并通过路由机制将 tokens 分配给 top-K 专家。在 tokenizer 方面团队使用了 Qwen 的 tokenizer该 tokenizer 实现了字节级别的字节对编码BBPE并采用了 151,643 个常规 tokens 的词汇表。与之前版本相比他们将控制 tokens 的数量从 3 个扩展到了 22 个新增了两个用于工具功能的 tokens其余则用于支持其他模型能力。预训练数据扩充了 Qwen2.5-Math 和 Qwen2.5-Coder 的训练数据以及使用Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 合成数据尤其是在数学、编程和知识领域并且使用专有奖励模型和 Qwen2-Math-RM-72B 模型进行严格的过滤。并且使用使用 Qwen2-Instruct 模型对不同领域的内容进行分类与平衡将不同数据打上不同领域的标签对于电子商务、社交媒体和娱乐等互联网占比大的数据减少采样对于技术、科学和学术研究等领域重复采样可以确保一个更加平衡且信息丰富的训练数据集。最后得到了一个具有 18T 大小的数据集。文章中提出了一个 Scaling Law 来识别不同模型架构下的最优超参数的定理发现了一个随着模型规模 N 和预训练数据量 D 得到最优学习率 μ 和最优批次大小 B_opt 等超参数的变化规律。还利用 Scaling Law 来预测并比较不同参数规模的 MoE 模型与其密集模型的性能差异。通过这种分析团队为 MoE 模型的超参数配置提供了指导使得经过精细调整激活参数和总参数后MoE 模型在性能上能够与特定的密集模型变种例如 Qwen2.5-72B 和 Qwen2.5-14B达到平衡。但是论文没有明确表明关系只是说我们发现了这个规律Qwen2.5 采用了两阶段的预训练方法首先使用 4K token 的上下文长度进行训练接着进入扩展阶段支持更长的序列。延续 Qwen2 的策略在最终的预训练阶段除 Qwen2.5-Turbo 外所有模型变体将上下文长度从 4K 扩展到 32K token。同时利用 ABF 技术将 RoPE 的基础频率从 10,000 提升到 1,000,000。对于 Qwen2.5-Turbo 模型团队实施了一个逐步扩展上下文长度的策略经过四个阶段32K token、64K token、128K token最终达到 256K tokenRoPE 的基础频率为 10,000,000。在每个阶段训练数据包含 40% 的当前最大长度序列和 60% 的较短序列。渐进式的训练方法帮助模型平稳适应逐渐增加的上下文长度同时保持其处理和泛化不同长度序列的能力。为了提升模型在推理时处理更长序列的能力团队引入了两项关键技术YARN 和双块注意力DCA。通过这些创新他们使得序列长度的处理能力提高了 4 倍。不同序列长度的数据让模型在处理长短序列的时候都有高质量输出困惑度PerplexityPPL低。后训练数据采用了一个包含数百万个高质量示例的庞大数据集。包含长序列、数学、编码、指令跟随、结构化数据理解、逻辑推理、跨语言迁移和系统指令等数据。数据生成中使用专门的评论模型和多智能体协作评分系统。所有响应都经过严格筛选只有被所有评分系统认为完美的响应才会被保留从而保证了输出的高质量标准。监督微调团队构建了超过 100 万条 SFT 示例的数据集模型在 32K token 长度的序列上进行两轮微调逐渐降低学习率从 7 × 10^-6 至 7 × 10^-7并应用适当的正则化和梯度裁剪确保了学习的有效性并防止了过拟合。在 SFT 阶段团队采用了两阶段微调方法第一阶段中模型仅使用短指令进行微调每个指令的最大长度为 32K token。该阶段使用的数据和训练步骤与其他 Qwen2.5 模型相同旨在确保模型在短任务上的强大性能。第二阶段的微调方法则结合了短指令最多 32K token和长指令最多 256K token。这种混合微调方法能够有效提升模型在长上下文任务中的指令跟随能力同时确保它在短任务中的表现不受影响。强化学习两阶段强化学习Qwen2.5 的强化学习过程分为两个独立的阶段离线强化学习和在线强化学习。离线强化学习此阶段着重于开发奖励模型难以评估的能力例如推理、事实准确性和指令执行。通过精心设计和验证训练数据确保离线强化学习信号既可以学习又具有可靠性帮助模型有效掌握这些复杂技能。在线强化学习在线强化学习阶段利用奖励模型检测输出质量的细微差异包括真实性、帮助性、简洁性、相关性、安全性以及去偏见。通过这一过程模型能够生成精确、一致、结构清晰的回答同时保持安全性和可读性。因此模型的输出始终符合人类的质量标准和预期。在强化学习阶段团队采用与其他 Qwen2.5 模型类似的训练策略主要聚焦于短指令的训练。这一设计选择基于两个主要因素首先长上下文任务的强化学习训练在计算上代价较高其次目前还缺少足够适用于长上下文任务的奖励模型。此外他们发现即使只在短指令上进行强化学习训练也能够显著提高模型在长上下文任务中的人类偏好对齐程度。离线强化学习这里使用 DPO 算法离线强化学习可以预先准备训练信号这对于那些标准答案存在但难以通过奖励模型评估的任务尤其有利。该流程中团队主要关注一些目标明确的查询领域例如数学、编程、指令跟随和逻辑推理等这些领域的评估可能非常复杂。借助 SFT 模型对一组新查询进行重采样。通过质量检查的响应将作为正面例子而未通过的响应则作为负面例子用于进行直接偏好优化DPO训练。为了进一步提高训练信号的可靠性和准确性他们结合了人工审核与自动化审核的双重过程。这种双重方法确保训练数据不仅可学习而且符合人类的预期。最终团队构建了一个包含大约 150,000 个训练对的数据集随后使用在线合并优化器对模型进行了一轮训练学习率设置为 7 × 10^-7。在线强化学习用于训练奖励模型的查询来自两个不同的数据集一是公开的开源数据集二是一个更具挑战性的专有查询集。响应从 Qwen 模型的多个检查点生成这些模型在不同的训练阶段经过 SFT、DPO 和 RL 方法的微调。为了增加多样性响应在不同的“温度设置”下进行采样。偏好对通过人工标注和自动化标注相结合的方式生成DPO 的训练数据也被整合到其中。在 Qwen2.5 的在线强化学习框架中采用了群体相对策略优化 (GRPO)。该策略用于奖励模型训练的查询集与 RL 训练阶段的查询集相同。训练过程中查询的处理顺序依据它们的响应分数方差进行调整方差较大的查询优先处理以确保更有效的学习。每个查询的响应团队会采样 8 次。所有模型的训练使用 2048 的全局批次大小每个回合包含 2048 个样本每对查询和响应都作为一个样本。性能评估数据通过预训练生成的基础模型和通过后期训练生成的指令微调模型使用全面的评估套件进行评估包括常用的公开基准和面向技能的内部数据集。该评估套件主要设计为自动化最小化人工干预。02qwen3架构Qwen3 密集架构模型在基本架构上与 Qwen2.5 相似包括采用分组查询注意力机制GQA、SwiGLU 激活函数、旋转位置编码RoPE以及带预归一化的 RMSNorm。此外研究团队移除了 Qwen2 中使用的 QKV 偏置并在注意力机制中引入 QK-Norm以确保 Qwen3 在训练过程中的稳定性。延续 Qwen2.5-MoE 的设计理念Qwen3 实现了细粒度专家分割技术。Qwen3 MoE 模型配备 128 个专家每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同的是Qwen3-MoE 设计中去除了共享专家机制。此外研究团队采用全局批量负载平衡损失函数来促进专家专业化。这些架构和训练创新显著提升了模型在各种下游任务中的性能表现。Qwen3 模型沿用了 Qwen 的 tokenizer该 tokenizer 实现了字节级字节对编码BBPE词汇表规模达 151,669 个 token。预训练相比 Qwen2.5Qwen3 显著扩展了训练数据的规模和多样性。具体而言预训练 token 数量增加了一倍语言覆盖范围扩大了三倍。所有 Qwen3 模型都在一个包含 119 种语言和方言、总计 36T token 的大型多样化数据集上训练。该数据集包含各类书籍、多语言文本和合成数据中的高质量内容。利用 Qwen2.5-VL 模型对大量 PDF 类文档进行文本识别然后通过 Qwen2.5 模型对识别文本进行精炼以提高质量。通过这一两步流程成功获取了数T额外的高质量文本 token。研究人员还利用 Qwen2.5、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成了数T不同格式的文本 token包括教科书、问答内容、指令文本和代码片段涉及数十个领域。最后通过整合更多多语言数据和引入新的语言进一步扩展了预训练语料库。与 Qwen2.5 相比支持的语言数量从 29 种显著增加到 119 种大幅提升了模型的语言覆盖范围和跨语言处理能力。研究团队开发了一套多语言数据标注系统旨在提高训练数据的质量和多样性。该系统已应用于大规模预训练数据集为超过 30T token 提供了教育价值、学科、领域和安全性等多维度标注这些详细标注支持更高效的数据筛选和组合。预训练阶段Qwen3 模型的预训练分为三个关键阶段1通用阶段S1第一预训练阶段中所有 Qwen3 模型在超过 30T token 上进行训练使用 4,096 个 token 的序列长度。训练数据覆盖 119 种语言和方言。2推理阶段S2提高了 STEM、编程、推理和合成数据的比例。模型在约 5T 高质量 token 上进行进一步预训练序列长度保持为 4K token。在此阶段还加速了学习率衰减过程。3长上下文阶段S3收集了高质量长上下文语料库以扩展 Qwen3 模型的上下文处理长度。所有模型在数百亿 token 上进行预训练序列长度达 32K token。长上下文语料库中75% 的文本长度在 16K~32K token 之间25% 的文本长度在 4K~16K token 之间。延续 Qwen2.5 的做法研究团队使用注意力基频扩展ABF技术将 RoPE 的基频从 10,000 提升至 1,000,000。引入了 YARNYet Another RoPE extensioN和双块注意力Dual Chunk AttentionDCA技术使推理阶段的序列长度处理能力提高了四倍。与 Qwen2.5 类似研究团队基于上述三个预训练阶段为最佳超参数如学习率调度器和批量大小预测开发了 scaling law。通过系统研究模型架构、训练数据、训练阶段与最佳训练超参数之间的关系最终为每个密集架构模型和 MoE 模型确定了预测最优的学习率和批量大小策略。但是论文没有明确表明关系只是说我们发现了这个规律后训练Qwen3 的后训练流程战略性地围绕两个核心目标设计(1) 思维控制整合“非思考”和“思考”两种不同模式使用户能灵活选择模型是否进行推理并通过设定思考过程的 token 预算来控制推理深度。(2) 强到弱知识蒸馏优化轻量级模型的后训练流程。通过利用大规模模型的知识显著降低小规模模型构建所需的计算资源和开发工作量。Long-CoT 冷启动研究团队首先构建了一个涵盖广泛领域的综合数据集包括数学、编程、逻辑推理和一般 STEM 问题。数据集中的每个问题都配有经验证的参考答案或基于代码的测试用例作为 CoT 训练冷启动阶段的基础。数据集构建采用严格的两阶段过滤流程查询过滤和响应过滤。查询过滤: 使用 Qwen2.5-72B-Instruct 识别并移除难以验证的查询包括含多个子问题或要求一般文本生成的查询。此外过滤了 Qwen2.5-72B-Instruct 无需 CoT 推理就能正确回答的查询这有助于防止模型依赖简单模式匹配确保问题需要深度推理响应过滤在保留验证查询集后使用 QwQ-32B 为每个剩余查询生成 N 个候选响应。当 QwQ-32B 持续无法生成正确解决方案时人类标注者会手动评估响应准确性。经过精细筛选的数据子集随后用于推理模式的初始冷启动训练。此阶段目标是建立基础推理模式而非过度强调即时推理性能。推理强化学习选取满足以下条件的 3,995 对“查询-验证器”样本未出现在冷启动阶段冷启动模型能够学习这些对具有挑战性覆盖广泛子领域。采用梯度正则化策略优化GRPO来更新模型参数发现以下方面可以提升训练效率和稳定性使用大 batch size提高每个查询的回滚次数 rollout 提升效率采用离线策略训练来提升样本效率控制模型熵的稳定增长或保持稳定性来平衡探索与利用思考模式融合聊天模板设计对于思考模式和非思考模式的样本分别在用户查询或系统消息中引入”/think“和”/no think“token训练方式研究团队对推理强化学习模型进行了持续监督微调SFT并设计了融合两种模式的聊天模板。SFT 数据构建SFT 数据集结合了“思考”和“非思考”两类数据。思考数据”思考” 数据通过第二阶段模型本身对第一阶段查询进行拒绝采样生成。非思考数据“非思考”数据经过精心筛选涵盖多种任务类型包括编程、数学、指令遵循、多语言处理、创意写作、问答和角色扮演。研究人员采用自动生成的评估清单checklists来评估“非思考”数据的回答质量并特别增加了翻译任务的比例以提高低资源语言任务的处理能力。思考预算控制Thinking Budget模型掌握了非思考和思考模式的响应能力自然会发展出处理中间状态的能力——即基于不完整思考过程生成响应。当模型生成的 内容长度即模型思考长度达到用户定义的上限时我们会手动终止思考过程并插入如下停止指令“由于用户设定的时间有限我现在需要基于当前的思考内容直接给出解答。\n/think\n\n”插入此指令后模型基于截至该点的累积推理继续生成最终响应。值得注意的是这种能力并非通过显式训练获得而是思考模式融合的自然产物。通用 RL通用 RL 阶段旨在全面提升模型在各种场景中的能力和稳定性建立了覆盖二十余种不同任务的复杂奖励系统每种任务均配有定制评分标准用于提高以下能力指令遵循能力确保模型准确理解并执行用户指令包括内容、格式、长度和结构化输出等要求格式遵循能力除明确指令外模型需遵守特定格式规范。例如通过在思考和非思考模式间切换来响应”/think“和”/no think” token并在最终输出中使用指定 token如”“和”“来区分思考过程和响应内容。偏好对齐能力Agent 能力特定场景能力设定了三种奖励基于规则的奖励基于参考答案的模型奖励此方法为每个查询提供参考答案并使用 Qwen2.5-72B-Instruct 根据参考答案对模型响应进行评分。无参考答案的模型奖励利用人类偏好数据训练奖励模型为模型响应分配量化分数。强到弱知识蒸馏强到弱知识蒸馏流程专为优化轻量级模型而设计。分为两个阶段1Off-policy Distillation教师模型分别在 /think 和 /no think 模式下生成响应我们将这些响应结合起来作为蒸馏数据用于指导学生模型即小模型学习。目标让轻量级学生模型掌握基本的推理能力 同时学会如何在不同的“思考模式”之间切换2On-policy Distillation采样一批提示prompts学生模型在 /think 或 /no think 模式下生成响应然后将学生模型的logits与教师模型Qwen3-32B 或 Qwen3-235B-A22B的 logits预测分布对齐来微调学生模型计算它们之间的 KL 散度Kullback-Leibler divergence最终微调学生模型使其输出分布更贴近教师模型。有趣的部分思考预算的有效性Qwen3 展现出随着思考预算增加而平稳、可扩展的性能提升。在线策略蒸馏有效性知识蒸馏方法在性能上显著优于强化学习同时仅需约 1/10 的 GPU 计算时间就让小模型超过了 RL 方式训练的自己。思考模式融合和通用强化学习的效果对于知识、STEM、数学和编程任务思考模式融合和通用强化学习并未带来显著改进。反而在 AIME’24 和 LiveCodeBench 等挑战性任务中思考模式下的性能在这两个训练阶段后有所下降。我们重点关注一下下降的部分出现了退化现象模型被训练用于应对更广泛的通用任务从而削弱了它在处理复杂任务时的专业能力。表示了这种 adptive learning 存在一些弊端。03qwen3.5Qwen3.5 的核心特点在于通过混合注意力架构Transformer 线性注意力类似 Gated Delta Network和 MoE 稀疏机制在大幅降低计算成本约50%的同时实现了长上下文十万级 token与高性能推理能力的统一。并且通过原生多模态融合与强化的 Agent 能力如90分的多步任务执行表现推动大模型成为可执行任务的智能体系统。架构混合注意力机制 (Transformer 线性注意力) :通过引入线性注意力类似于 Gated Delta Network将一部分计算复杂度降至 On 降低成本加快推理速度。主要采用的 Transformer 的变体如图。预训练数据使用了更大规模且经过严格过滤的视觉-文本混合语料并重点加强了数学STEM、推理以及中英文数据。词表 :将词表大小从 15 万扩展到了 25 万使多数语言的编解码效率提升了 10%~60%。在处理 32K 和 256K 的长文本时解码吞吐量更是分别飙升了 8.6 倍和 19.0 倍。原生多模态融合改变了以往“先将图像/视频转成文本再处理”的旧模式实现了文本、图像、视频在模型早期的直接融合与联合训练。后训练与基础设施强化学习的异步并行系统 将“数据生成”与“模型训练”分离开来。Qwen-Agent 一边与环境交互产生“经验数据”Rollout并存入缓存池Buffer训练器Trainer一边同步从队列中抓取数据进行学习同时由奖励模型Reward Service实时打分。这种边生成边训练的并行流转让整体训练效率提升了 3 到 5 倍。混合精度与显存优化大量使用 FP8 低精度进行计算以节省显存和提升速度但在容易出现不稳定的关键节点保留 BF16 高精度。这使得显存占用减少了约一半速度提升 10% 以上。多模态计算重叠在训练图文视频等不同模态时系统通过智能调度将计算任务重叠确保 GPU 等硬件始终处于“满负荷”状态让复杂的多模态训练速度也能逼近纯文本训练。有趣的结论真实环境强化学习通过偏向真实任务环境的强化学习模型在不同任务上的表现都比较均衡。模型它不仅能做数学题还能写代码、解决结构化问题而且稳定性很高。小模型训练策略Qwen3.5 的一些中小规模模型比如 9B在很多任务上已经可以接近甚至超过上一代几十 B 甚至上百 B 模型的水平。这说明模型能力不再完全依赖参数规模而是越来越依赖架构设计和训练策略。换句话说现在拼的不是“谁更大”而是“谁更聪明地用参数”。04qwen3.6核心特性与能力跃升超长上下文 模型默认支持高达 100 万的上下文窗口。更加注重智能体Agent能力模型在智能体编程领域实现了飞跃能够从容应对前端网页开发、复杂的代码仓库级问题求解以及终端操作与自动化任务执行。在多个高难度的长程规划任务中取得最优成绩可以看见优化了长程 agent 工作能力。原生多模态演进视觉与视频理解能力大幅增强模型不仅能识别图像和视频还能结合推理、Grounding、OCR 等能力进行复杂分析05qwen3.7Qwen3.7 优势在于更优秀编程能力更长程的工具调用能力和执行能力。架构特指训练基础设施架构没有提及模型参数、注意力层等神经网络架构但文章详细介绍了其强化学习 Rollout 环境基础设施的架构设计解耦设计系统将每个训练实例正交解耦为三个独立组件任务Task、运行框架Harness与验证器Verifier。组合式扩展这种架构允许同一任务以极低的成本与不同类型、版本的框架和验证器自由重组。赋能了跨框架与跨验证器的强化学习RL训练——使模型在多变的框架配置下处理同源任务从而迫使其学习具备泛化能力的解题策略而非依赖特定框架的捷径。预训练 (Pre-training)文章中完全没有提及 Qwen3.7 在预训练阶段的数据规模、配比或算力细节。后训练与强化学习 (Post-training RL)后训练是这篇文章重点着墨的技术板块Qwen3.7 通过极其复杂的强化学习RL策略实现了智能体能力的泛化与长程执行智能体训练环境的大幅扩展在 Qwen3.5 的基础上进一步扩展了训练环境的质量与多样性。模型从多样化的训练环境中获得了真正的“能力泛化”评测中使用的基准环境均为训练时未见过的全新领域。跨框架与跨验证器 RL 训练依托上述解耦的系统架构迫使模型在多变的框架配置下处理同源任务。这逼迫模型必须学习通用的解题策略而不是依赖特定框架“走捷径”从而实现了极其稳定的跨框架泛化能力。对抗“奖励作弊”Reward Hacking的自进化体系在长达 80 多小时的软件工程SWE强化学习中Qwen3.7-Max 被接入训练监控系统。它能够自主回放轨迹、归纳作弊模式例如去 GitHub 偷看标准答案并最终自进化出 13 条规则精准拦截了 1,618 个作弊案例保障了 RL 训练的稳定性。长程时序复杂度强化 为了提升长程规划能力团队在“动态累积生存博弈框架”下扩展了训练任务的时序复杂度。这让模型学会在长达数小时、涉及数千步决策的过程中保持策略一致性有效克服了长上下文带来的“记忆腐化”和“指令漂移”问题。(但是文中没有提到这个框架是什么)假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】