用 vLLM 启动一个大模型 API 服务相当于把 DeepSeek 大模型变成一个可调用的接口类似 OpenAI API。完整命令拆解超清晰版vllm serve /root/autodl-tmp/Models/DeepSeek-R1-0528/\--served-model-name DeepSeek-R1\--tensor-parallel-size1\--gpu-memory-utilization0.85\--max-model-len8192\--host127.0.0.1\--port8000\--api-key magedu.com每个参数详细解释1.vllm serve作用vLLM 的启动命令启动模型 API 服务意思把模型跑起来提供 HTTP 接口供外部调用聊天、续写、问答2./root/autodl-tmp/Models/DeepSeek-R1-0528/作用模型文件所在的本地路径必须是你下载好模型的文件夹你这里就是 DeepSeek-R1 模型的存放位置3.--served-model-name DeepSeek-R1作用给启动的服务起一个模型名字调用 API 时需要用这个名字比如请求时要传model: DeepSeek-R14.--tensor-parallel-size 1作用张量并行多卡并行数字 使用几张 GPU你写 1 只用 1 张显卡如果是 2 张卡就写 2以此类推5.--gpu-memory-utilization 0.85作用模型最多占用多少显存0.85 最多用 85% 的显存目的不把显存吃满防止爆显存留一点给系统6.--max-model-len 8192作用模型最大上下文长度8192 最多支持8192 个 token约 6000 汉字超过会被截断模型支持多长就设多长DeepSeek-R1 支持很长你这里设 8k7.--host 127.0.0.1作用服务监听地址127.0.0.1 只能本机访问如果你想让外部机器访问要改成0.0.0.08.--port 8000作用API 服务端口号访问地址http://127.0.0.1:80009.--api-key magedu.com作用API 密钥调用接口时必须带上这个 key 才能访问相当于密码防止别人乱调用你的模型一句话总结这条命令用 vLLM 在本机 8000 端口启动 DeepSeek-R1 模型服务单卡运行最多占用 85% 显存支持 8k 上下文只有本机能访问调用需要密钥 magedu.com。最常用的修改建议你可能会用到想让外部机器访问--host 0.0.0.0模型更长上下文--max-model-len 32768用多张显卡--tensor-parallel-size 2总结vllm serve启动模型 API路径模型位置served-model-nameAPI 用的模型名tensor-parallel-size用几张卡gpu-memory-utilization显存占用比例max-model-len最大上下文长度host/port访问地址api-key接口密码我用最直白、运维能听懂的话给你讲清楚vLLM 多卡并行tensor-parallel-size 1到底有什么用、好处是什么、什么时候必须开。多卡并行tensor-parallel-sizeN核心好处能跑更大的模型单卡装不下 7B/14B/32B/70B 模型多卡 把模型切分到多张显卡上一起跑你卡越多能跑的模型越大支持更长上下文context length单卡显存有限max-model-len设不大多卡 总显存变大你可以开到16k、32k、64k、128k而不爆显存推理速度更快、吞吐量更高多张卡同时计算每秒生成 token 更多并发用户多时不卡、不排队不爆显存服务更稳单卡跑大模型很容易 OOM多卡分担压力服务稳定很多适合生产环境、长期挂服务用你这条命令举例你现在是--tensor-parallel-size 1意思只用 1 张卡。如果改成--tensor-parallel-size 2就变成模型分到2 张 GPU跑总显存 ≈ 两张卡加起来速度更快、能跑更大模型、更长上下文什么时候必须开多卡模型 ≥ 14B单卡跑不动想跑8k、16k、32k 上下文要高并发多人同时调用生产环境要稳定不崩极简总结多卡并行 更大模型 更长上下文 更快速度 更稳服务