融完500亿！DeepSeek创始人又又又亲自下场，把AI推理提速85%还全开源

张

张建站

2026/6/30 10:56:19

10分钟阅读

融完500亿！DeepSeek创始人又又又亲自下场，把AI推理提速85%还全开源

刚融完500亿创始人亲自下场写代码DeepSeek不卷参数专治AI“嘴慢”在AI圈大家似乎都患上了一种“参数焦虑症”。模型越来越大跑分越来越高但真到了用的时候那个转圈圈的光标还是让人等到心梗。就在6月中旬刚拿下500亿融资的十几天后DeepSeek没有像外界预期的那样发布一个万亿参数的新怪兽而是联合北京大学甩出了一篇硬核论文——DSpark。更让行业震动的是论文作者名单里赫然写着创始人梁文锋的名字。论文标题《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》论文链接https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf在资本狂欢的当下创始人依然亲自下场啃工程硬骨头这本身就是一个强烈的信号DeepSeek正在从“实验室刷榜”转向“解决真实世界的痛点”。为什么AI说话总是慢半拍要理解DSpark先得搞懂大模型为什么慢。大模型生成文字的方式叫“自回归”说白了就是“一个字一个字往外蹦”。每蹦出一个字大脑GPU都要完整地思考一遍。这就像一位老教授写评语必须写完上一个字才能想下一个字写得越长等得越久。为了解决这个问题业界发明了“推测解码”技术。你可以把它想象成“教授实习生”的配合模式先让一个轻量级的“实习生”草稿模型快速猜出一段话然后“教授”大模型一次性批量检查。猜对了就采纳猜错了就改。因为教授可以并行检查多个字效率自然大幅提升。听起来很完美但现有的“实习生”都有毛病串行派如Eagle3实习生一个字一个字猜依赖关系建模能力强、接受率高但猜得太慢且只能使用短候选块和浅层网络教授还是得干等。并行派如DFlash实习生一口气猜一整段速度是快了但因为每个位置独立预测、无法建模块内token依赖经常出现多模态冲突。教授检查时发现后半段全是错的接受率迅速衰减白白浪费了算力。DSpark的诞生就是为了造出一个既快又准的“完美实习生”。DSpark的两招“神技”让实习生变聪明DSpark没有改变大模型本身的智力而是通过两项互补机制把“猜测-验证”这个配合流程优化到了极致。1. 半自回归生成让实习生“边看前文边猜”以前的并行猜测是“盲猜”每个字独立生成不管前后文。DSpark保留了并行主干的高吞吐优势同时加入了一个轻量级顺序模块逐token注入前缀依赖信息。该模块提供两种实现仅依赖前一个token的马尔可夫头以及通过循环状态累积完整前缀信息的RNN头。通俗解读实习生不再闭眼瞎猜而是会瞄一眼前面已经猜好的字再决定下一个字怎么写。既保留了一口气猜一段的速度优势又因为有了上下文参考猜得更准了。实验数据很惊人仅用两层Transformer深度的DSpark在所有测试领域上都超过了五层DFlash的接受长度。以Qwen3-4B/8B/14B为例宏平均接受长度相对Eagle3提升30.9%、26.7%、30.0%相对DFlash提升16.3%、18.4%、18.3%。少量“回头看”的能力比单纯堆砌网络层数管用得多。2. 置信度调度验证教授学会“挑重点批改”以前教授是把实习生猜的所有字都从头到尾检查一遍。DSpark引入置信度头评估每个token在给定前缀下的“存活概率”并在训练完成后通过“时序温度缩放”后验校准方案修正原始置信头置信度过高的问题。在此基础上硬件感知前缀调度器根据实时引擎吞吐量动态决定最优验证长度优先将算力分配给预期回报最高的token。通俗解读教授不再傻乎乎地全批一遍而是先看实习生最有把握的那几个字。如果发现后面几个字“自信分”太低大概率是错的就直接打住不再浪费精力去验证后面的废话。系统忙的时候少查点闲的时候多查点始终让整体吞吐量保持在最优状态。值得注意的是论文实验还揭示了显著的领域差异效应结构化任务如数学推理、代码生成的可接受长度天然更高例如Qwen3-4B在数学任务上平均为5.57代码任务为5.12而开放式对话场景则明显偏低仅3.49。不止是算法更是“工业级”的系统魔改如果DSpark只停留在论文里那它顶多是个优秀的学术成果。但它真正的杀手锏是深入GPU底层的工程落地能力。在真实的高并发生产环境中“动态验证”会引发两个致命的工程灾难DeepSeek团队对此进行了底层改造工程痛点问题本质DSpark的解法通俗理解GPU流水线停滞CUDA图重放要求下一轮批处理大小提前确定同步调度会导致GPU干等。异步调度器用“两轮前的历史置信度”预测本轮截断长度隐藏调度延迟。不等当前结果出来再决定下一步干嘛而是根据“上上次的经验”提前预判并准备好让GPU永远有活干。内核利用率暴跌动态变长验证导致标准解码内核因填充和负载不均效率大减。物理解耦稀疏注意力将所有token展平为独立元素处理通过标记张量传递序列内依赖关系。不再按“句子”排队处理而是把所有字拆成“散装零件”统一加工再通过标签拼回原句彻底消除等待和浪费。除了推理阶段的魔改团队在训练阶段也做到了极致优化并行训练时仅传递目标模型的隐藏状态而非完整词表logits将通信复杂度从O(V)降至O(d)采用锚点定长序列打包策略将训练序列中随机采样的多个预测块压缩为密集批次避免传统填充带来的计算和内存开销。正是这些看不见的“脏活累活”让DSpark在真实用户流量下交出了恐怖的成绩单在V4-Flash引擎上当SLA收紧至120 token/s时单token基线MTP-1已接近运行边界DSpark在维持可用并发批处理的前提下实现了标称661%的吞吐量优势保证单用户生成速度不低于80 token/s时聚合吞吐量相比基线提升51%。在V4-Pro引擎上35 token/s的SLA下吞吐量提升52%50 token/s的SLA下提升406%。在匹配的实际吞吐量水平下V4-Flash单用户生成速度提升60%-85%V4-Pro提升57%-78%。调度器在系统并发数较低时分配4至6个token的验证长度充分利用空闲资源随并发数上升平滑缩减验证长度避免资源争用表现出负载自适应的验证预算分配能力。坦诚的局限与开源的诚意DSpark并非完美无缺。团队坦言对于本身可预测性极低、接受率偏低的复杂查询即使后缀token最终被调度器截断并行主干仍需为所有请求生成完整的初始候选块这部分前置草稿算力无法回收。未来的优化方向可在草稿模型内部引入难度感知的早退出机制使此类请求能够跳过完整块生成流程。但这恰恰体现了技术团队的务实——对短板有清晰认知且已有后续优化路线图。更重要的是DeepSeek将这套方案连同DFlash、Eagle3一起在DeepSpec项目中完全开源MIT许可。DeepSpec是一个用于训练和评估推测解码草稿模型的全栈代码库包含数据准备工具、草稿模型实现、训练代码和评估脚本。这意味着无论是缺乏底层算法团队的中小企业还是ToB服务商无需投入巨额研发就能复用这套成熟的推理优化方案。智能体、工业代码、金融舆情等场景的规模化落地门槛被大幅拉低了。写在最后在生成式AI从实验室走向商业化的下半场“更快、更省算力”正在取代单纯的模型跑分成为竞争力的关键指标。DSpark的故事告诉我们真正的技术壁垒不只是谁能训出更大的模型更是谁能把算法塞进真实的服务器里在亿万次请求中稳定、高效地跑起来。当创始人还在亲自写代码优化推理速度时我们或许该重新审视这家公司的底色它依然是一家工程师文化驱动的技术公司而非被资本裹挟的估值游戏参与者。这可能比500亿融资本身更值得行业关注。