大模型训练中的 Upcycle 技术调研报告

张

张建站

2026/5/11 1:09:53

10分钟阅读

大模型训练中的 Upcycle 技术调研报告执行摘要在大模型训练语境中，upcycle通常指：把一个已经训练过的稠密模型 checkpoint，通过结构改造转换成容量更大、计算更稀疏的模型（最典型是MoE），再继续预训练或后训练。这个说法借用了英语里“把旧物改造成更高价值物品”的含义；通用词典将upcycle解释为“以使结果比原物更有价值的方式再利用/再造”，并把其最早已知用法标为1994 年。在当前 dense→MoE 的机器学习语境里，Google 的Sparse Upcycling工作把这一做法系统化和明确命名，随后被 Qwen、Skywork、NVIDIA Nemotron 等公开工作广泛采用。citeturn24view0turn36search0turn31view0turn21view0turn13view0这份调研的核心结论是：upcycle 非常适合“已有较强 dense 基座 + 额外训练预算有限 + 想把模型扩成更高容量 MoE”的场景。Google 的 Sparse Upcycling 显示，上采样后的稀疏 T5/ViT 模型，在只额外投入约50% 的原始 dense 预训练沉没成本时就能优于 dense 继续训练，并在100%dense 原始预算内优于从零训练的稀疏模型；NVIDIA 2

Instrukt框架：构建生产级AI代理的指令操作系统实践指南

1. 项目概述：一个为AI代理量身定制的“指令操作系统”最近在折腾AI代理（Agent）开发的朋友，估计都绕不开一个核心痛点：如何让这些智能体真正理解并执行复杂的、多步骤的指令？我们常常会遇到，一个…...

2026/5/11 0:57:50 阅读更多 →

AI 术语通俗词典：内积

内积是线性代数、机器学习、深度学习和人工智能中非常基础的一个术语。它用来描述：两个向量在方向和数值上的匹配程度。换句话说，内积是在回答：两个向量有多相似，一个向量在另一个向量方向上的投影有多强。如果说向量回答的是“一…...

2026/5/11 0:51:34 阅读更多 →

NVIDIA Profile Inspector深度指南：解锁显卡隐藏性能的完整教程

NVIDIA Profile Inspector深度指南：解锁显卡隐藏性能的完整教程【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏画面撕裂、输入延迟高、帧率不稳定而烦恼吗？NVIDIA Pr…...

2026/5/11 0:46:58 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/10 0:00:42 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/10 0:01:42 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/10 0:09:21 阅读更多 →