350 tokens/秒!Step 3.5 Flash多token预测技术突破推理速度极限
350 tokens/秒Step 3.5 Flash多token预测技术突破推理速度极限【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash阶跃星辰StepFun推出的Step 3.5 Flash模型凭借创新的多token预测技术将AI推理速度提升至惊人的350 tokens/秒为开发者和普通用户带来前所未有的高效智能体验。这款开源基础模型不仅具备前沿的推理能力和代理功能还通过独特的稀疏混合专家MoE架构实现了效率与性能的完美平衡。突破性的多token预测技术Step 3.5 Flash采用了创新的3路多token预测MTP-3技术这是其实现超高推理速度的核心所在。该技术通过专门设计的MTP Head结合滑动窗口注意力机制和密集前馈网络FFN能够在单次前向传递中同时预测4个token显著加速了推理过程而不降低质量。在典型使用场景中Step 3.5 Flash的生成吞吐量可达100-300 tokens/秒而在单流编码任务中更是达到350 tokens/秒的峰值。这种速度优势使得复杂的多步骤推理链能够实时响应极大提升了用户体验。高效的稀疏混合专家架构Step 3.5 Flash的高效性能源于其先进的稀疏混合专家MoETransformer架构。与传统密集模型不同它采用细粒度路由策略每层包含288个路由专家和1个共享专家始终激活每个token仅选择Top-8专家结果是模型保留了196B参数模型的记忆但执行速度却与11B模型相当这种架构设计使得Step 3.5 Flash在保持高性能的同时大幅降低了计算资源需求为本地部署创造了有利条件。全面的技术规格Step 3.5 Flash的技术规格彰显了其在性能和效率之间的精妙平衡骨干网络45层Transformer4,096隐藏维度上下文窗口256K词汇量128,896 tokens总参数196.81B196B骨干 0.81B头部激活参数约11B每token生成快速开始使用Step 3.5 Flash获取API密钥您可以在OpenRouter或StepFun平台注册账号获取API密钥。OpenRouter目前为Step 3.5 Flash提供免费试用。环境设置安装标准的OpenAI SDK与两个平台兼容pip install --upgrade openai1.0实现示例以下示例展示了如何开始与Step 3.5 Flash进行对话from openai import OpenAI client OpenAI( api_keyYOUR_API_KEY, base_urlhttps://api.stepfun.ai/v1, # 或 https://openrouter.ai/api/v1 # 可选OpenRouter headers for app rankings default_headers{ HTTP-Referer: YOUR_SITE_URL, X-Title: YOUR_SITE_NAME, } ) completion client.chat.completions.create( modelstep-3.5-flash, # OpenRouter使用 stepfun/step-3.5-flash messages[ { role: system, content: You are an AI chat assistant provided by StepFun. You are good at Chinese, English, and many other languages., }, { role: user, content: Introduce StepFuns artificial intelligence capabilities. }, ], ) print(completion.choices[0].message.content)本地部署选项Step 3.5 Flash针对本地推理进行了优化支持多种行业标准后端vLLM部署推荐使用最新的vLLM nightly版本# 通过pip安装nightly wheels pip install -U vllm --pre \ --index-url https://pypi.org/simple \ --extra-index-url https://wheels.vllm.ai/nightly启动服务器fp8模型示例vllm serve MODEL_PATH_OR_HF_ID \ --served-model-name step3p5-flash \ --tensor-parallel-size 8 \ --enable-expert-parallel \ --disable-cascade-attn \ --reasoning-parser step3p5 \ --enable-auto-tool-choice \ --tool-call-parser step3p5 \ --hf-overrides {num_nextn_predict_layers: 1} \ --speculative_config {method: step3p5_mtp, num_speculative_tokens: 1} \ --trust-remote-code \ --quantization fp8SGLang部署安装SGLang# 从源码安装pip pip install sglang[all] githttps://github.com/sgl-project/sglang.git启动服务器bf16模型示例sglang serve --model-path MODEL_PATH_OR_HF_ID \ --served-model-name step3p5-flash \ --tp-size 8 \ --tool-call-parser step3p5 \ --reasoning-parser step3p5 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --enable-multi-layer-eagle \ --host 0.0.0.0 \ --port 8000总结Step 3.5 Flash通过创新的多token预测技术和稀疏混合专家架构实现了350 tokens/秒的推理速度突破。这一开源模型不仅为开发者提供了高效的AI工具也为AI应用的普及和发展开辟了新的可能。无论是复杂的编码任务还是多步骤推理Step 3.5 Flash都能以其卓越的性能和效率为用户带来流畅、快速的智能体验。要开始使用Step 3.5 Flash您可以通过以下命令克隆仓库git clone https://gitcode.com/StepFun/Step-3.5-Flash加入Step 3.5 Flash的开源社区体验新一代AI推理技术带来的无限可能【免费下载链接】Step-3.5-Flash项目地址: https://ai.gitcode.com/StepFun/Step-3.5-Flash创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考