350 tokens/秒！Step 3.5 Flash多token预测技术突破推理速度极限

张

张建站

2026/6/1 6:56:33

10分钟阅读

350 tokens/秒Step 3.5 Flash多token预测技术突破推理速度极限【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash阶跃星辰StepFun推出的Step 3.5 Flash模型凭借创新的多token预测技术将AI推理速度提升至惊人的350 tokens/秒为开发者和普通用户带来前所未有的高效智能体验。这款开源基础模型不仅具备前沿的推理能力和代理功能还通过独特的稀疏混合专家MoE架构实现了效率与性能的完美平衡。突破性的多token预测技术Step 3.5 Flash采用了创新的3路多token预测MTP-3技术这是其实现超高推理速度的核心所在。该技术通过专门设计的MTP Head结合滑动窗口注意力机制和密集前馈网络FFN能够在单次前向传递中同时预测4个token显著加速了推理过程而不降低质量。在典型使用场景中Step 3.5 Flash的生成吞吐量可达100-300 tokens/秒而在单流编码任务中更是达到350 tokens/秒的峰值。这种速度优势使得复杂的多步骤推理链能够实时响应极大提升了用户体验。高效的稀疏混合专家架构Step 3.5 Flash的高效性能源于其先进的稀疏混合专家MoETransformer架构。与传统密集模型不同它采用细粒度路由策略每层包含288个路由专家和1个共享专家始终激活每个token仅选择Top-8专家结果是模型保留了196B参数模型的记忆但执行速度却与11B模型相当这种架构设计使得Step 3.5 Flash在保持高性能的同时大幅降低了计算资源需求为本地部署创造了有利条件。全面的技术规格Step 3.5 Flash的技术规格彰显了其在性能和效率之间的精妙平衡骨干网络45层Transformer4,096隐藏维度上下文窗口256K词汇量128,896 tokens总参数196.81B196B骨干 0.81B头部激活参数约11B每token生成快速开始使用Step 3.5 Flash获取API密钥您可以在OpenRouter或StepFun平台注册账号获取API密钥。OpenRouter目前为Step 3.5 Flash提供免费试用。环境设置安装标准的OpenAI SDK与两个平台兼容pip install --upgrade openai1.0实现示例以下示例展示了如何开始与Step 3.5 Flash进行对话from openai import OpenAI client OpenAI( api_keyYOUR_API_KEY, base_urlhttps://api.stepfun.ai/v1, # 或 https://openrouter.ai/api/v1 # 可选OpenRouter headers for app rankings default_headers{ HTTP-Referer: YOUR_SITE_URL, X-Title: YOUR_SITE_NAME, } ) completion client.chat.completions.create( modelstep-3.5-flash, # OpenRouter使用 stepfun/step-3.5-flash messages[ { role: system, content: You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages., }, { role: user, content: Introduce StepFuns artificial intelligence capabilities. }, ], ) print(completion.choices[0].message.content)本地部署选项Step 3.5 Flash针对本地推理进行了优化支持多种行业标准后端vLLM部署推荐使用最新的vLLM nightly版本# 通过pip安装nightly wheels pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly启动服务器fp8模型示例vllm serve MODEL_PATH_OR_HF_ID \ --served-model-name step3p5-flash \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides {num_nextn_predict_layers: 1} \ --speculative_config {method: step3p5_mtp, num_speculative_tokens: 1} \ --trust-remote-code \ --quantization fp8SGLang部署安装SGLang# 从源码安装pip pip install sglang[all] githttps://github.com/sgl-project/sglang.git启动服务器bf16模型示例sglang serve --model-path MODEL_PATH_OR_HF_ID \ --served-model-name step3p5-flash \ --tp-size 8 \ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000总结Step 3.5 Flash通过创新的多token预测技术和稀疏混合专家架构实现了350 tokens/秒的推理速度突破。这一开源模型不仅为开发者提供了高效的AI工具也为AI应用的普及和发展开辟了新的可能。无论是复杂的编码任务还是多步骤推理Step 3.5 Flash都能以其卓越的性能和效率为用户带来流畅、快速的智能体验。要开始使用Step 3.5 Flash您可以通过以下命令克隆仓库git clone https://gitcode.com/StepFun/Step-3.5-Flash加入Step 3.5 Flash的开源社区体验新一代AI推理技术带来的无限可能【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

实景动态映射技术，打造具备进化能力的视频孪生系统

实景动态映射技术，打造具备进化能力的视频孪生系统数字孪生、视频孪生、视频融合规模化落地进程中，传统静态映射架构的局限性日益凸显。行业主流方案普遍采用预制模型人工标定固定叠加模式，虚拟场景完成部署后便进入固化状态，无法…...

2026/6/1 6:56:09 阅读更多 →

面试官追问的Python‘八股文’，我用一个爬虫项目全讲清楚了（附避坑指南）

用爬虫实战拆解Python高频面试考点：从装饰器到生成器的工程化应用最近在技术社区看到一个有趣的讨论：为什么Python面试总爱问那些看似"八股文"的概念？一位资深面试官的回答让我印象深刻——"我们不是在考背诵，而是…...

2026/6/1 6:50:58 阅读更多 →

AI如何重塑超市运营：五大核心场景与落地实践

1. 项目概述：当AI走进超市货架如果你最近几年逛过一些大型连锁超市，可能会发现一些微妙的变化：结账时，自助收银台变多了，甚至有的店你拿了东西直接走就行；在生鲜区，电子价签闪烁的频率似乎更高了…...

2026/6/1 6:48:57 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/1 1:01:46 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/5/31 0:02:02 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/5/31 0:03:05 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →