大模型训练中的 Upcycle 技术调研报告
大模型训练中的 Upcycle 技术调研报告执行摘要在大模型训练语境中,upcycle通常指:把一个已经训练过的稠密模型 checkpoint,通过结构改造转换成容量更大、计算更稀疏的模型(最典型是MoE),再继续预训练或后训练。这个说法借用了英语里“把旧物改造成更高价值物品”的含义;通用词典将upcycle解释为“以使结果比原物更有价值的方式再利用/再造”,并把其最早已知用法标为1994 年。在当前 dense→MoE 的机器学习语境里,Google 的Sparse Upcycling工作把这一做法系统化和明确命名,随后被 Qwen、Skywork、NVIDIA Nemotron 等公开工作广泛采用。citeturn24view0turn36search0turn31view0turn21view0turn13view0这份调研的核心结论是:upcycle 非常适合“已有较强 dense 基座 + 额外训练预算有限 + 想把模型扩成更高容量 MoE”的场景。Google 的 Sparse Upcycling 显示,上采样后的稀疏 T5/ViT 模型,在只额外投入约50% 的原始 dense 预训练沉没成本时就能优于 dense 继续训练,并在100%dense 原始预算内优于从零训练的稀疏模型;NVIDIA 2