GPU运维：vllm启动大模型参数解析

张

张建站

2026/4/16 2:04:37

10分钟阅读

用 vLLM 启动一个大模型 API 服务相当于把 DeepSeek 大模型变成一个可调用的接口类似 OpenAI API。完整命令拆解超清晰版vllm serve /root/autodl-tmp/Models/DeepSeek-R1-0528/\--served-model-name DeepSeek-R1\--tensor-parallel-size1\--gpu-memory-utilization0.85\--max-model-len8192\--host127.0.0.1\--port8000\--api-key magedu.com每个参数详细解释1.vllm serve作用vLLM 的启动命令启动模型 API 服务意思把模型跑起来提供 HTTP 接口供外部调用聊天、续写、问答2./root/autodl-tmp/Models/DeepSeek-R1-0528/作用模型文件所在的本地路径必须是你下载好模型的文件夹你这里就是 DeepSeek-R1 模型的存放位置3.--served-model-name DeepSeek-R1作用给启动的服务起一个模型名字调用 API 时需要用这个名字比如请求时要传model: DeepSeek-R14.--tensor-parallel-size 1作用张量并行多卡并行数字使用几张 GPU你写 1 只用 1 张显卡如果是 2 张卡就写 2以此类推5.--gpu-memory-utilization 0.85作用模型最多占用多少显存0.85 最多用 85% 的显存目的不把显存吃满防止爆显存留一点给系统6.--max-model-len 8192作用模型最大上下文长度8192 最多支持8192 个 token约 6000 汉字超过会被截断模型支持多长就设多长DeepSeek-R1 支持很长你这里设 8k7.--host 127.0.0.1作用服务监听地址127.0.0.1 只能本机访问如果你想让外部机器访问要改成0.0.0.08.--port 8000作用API 服务端口号访问地址http://127.0.0.1:80009.--api-key magedu.com作用API 密钥调用接口时必须带上这个 key 才能访问相当于密码防止别人乱调用你的模型一句话总结这条命令用 vLLM 在本机 8000 端口启动 DeepSeek-R1 模型服务单卡运行最多占用 85% 显存支持 8k 上下文只有本机能访问调用需要密钥 magedu.com。最常用的修改建议你可能会用到想让外部机器访问--host 0.0.0.0模型更长上下文--max-model-len 32768用多张显卡--tensor-parallel-size 2总结vllm serve启动模型 API路径模型位置served-model-nameAPI 用的模型名tensor-parallel-size用几张卡gpu-memory-utilization显存占用比例max-model-len最大上下文长度host/port访问地址api-key接口密码我用最直白、运维能听懂的话给你讲清楚vLLM 多卡并行tensor-parallel-size 1到底有什么用、好处是什么、什么时候必须开。多卡并行tensor-parallel-sizeN核心好处能跑更大的模型单卡装不下 7B/14B/32B/70B 模型多卡把模型切分到多张显卡上一起跑你卡越多能跑的模型越大支持更长上下文context length单卡显存有限max-model-len设不大多卡总显存变大你可以开到16k、32k、64k、128k而不爆显存推理速度更快、吞吐量更高多张卡同时计算每秒生成 token 更多并发用户多时不卡、不排队不爆显存服务更稳单卡跑大模型很容易 OOM多卡分担压力服务稳定很多适合生产环境、长期挂服务用你这条命令举例你现在是--tensor-parallel-size 1意思只用 1 张卡。如果改成--tensor-parallel-size 2就变成模型分到2 张 GPU跑总显存 ≈ 两张卡加起来速度更快、能跑更大模型、更长上下文什么时候必须开多卡模型 ≥ 14B单卡跑不动想跑8k、16k、32k 上下文要高并发多人同时调用生产环境要稳定不崩极简总结多卡并行更大模型更长上下文更快速度更稳服务

【26最新大英赛】2012-2026年全国大学生英语竞赛ABCD类历年真题、样卷、听力音频及答案解析电子版PDF

2026年全国大学生英语竞赛（NECCS）考试信息 2026年度全国大学生英语竞赛将于4月12日上午9:00至11:00进行。考试时长为120分钟，采用标准化考场安排。备考资料包内容说明 2009-2026年完整真题库（A/B/C/D四个类别） 历年…...

2026/4/16 1:58:52 阅读更多 →

保姆级教程：Chandra OCR一键安装，小白也能搞定图片转Markdown

保姆级教程：Chandra OCR一键安装，小白也能搞定图片转Markdown 1. Chandra OCR简介 Chandra OCR是Datalab.to在2025年10月开源的一款"布局感知"OCR模型，它能将图片/PDF一键转换成保留排版信息的Markdown、HTML或JSON格式。这个工具…...

2026/4/14 4:46:08 阅读更多 →

基于python的图片去重清洗方案，专门针对相机连续采集的大量重复 / 相似图片

目录一、使用python的图片去重清洗方案，专门针对相机连续采集的大量重复 / 相似图片二、对图像进行命名排序一、使用python的图片去重清洗方案，专门针对相机连续采集的大量重复 / 相似图片读取一个文件夹内所有图片按文件名排序（适合连…...

2026/4/14 4:57:09 阅读更多 →

为了过等保，我们给200+服务器做了OpenSSH 10.0自动化升级，这是完整复盘

企业级OpenSSH 10.0自动化升级实战：从合规需求到批量落地当安全合规成为企业IT建设的刚性需求，基础组件的漏洞修复便从技术问题升级为战略任务。去年某次内部审计中，我们发现全公司237台服务器中，68%的OpenSSH版本存在高危漏洞&a…...

2026/4/15 21:21:37 阅读更多 →

用AI给显示器装上‘眼睛’：复旦博士的EyeReal方案，如何用三层LCD和RTX 4090实现桌面级裸眼3D？

EyeReal技术解析：三层LCDRTX 4090如何重构裸眼3D显示范式当24英寸显示器上跃然而出的立体影像不再需要特制眼镜时，我们或许正站在显示技术革命的临界点。复旦大学马炜杰博士团队发表在《Nature》的EyeReal方案，用三层普通LCD面板和消费级显卡…...

2026/4/15 12:30:55 阅读更多 →

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南

5步轻松打造个人离线小说图书馆：番茄小说下载器完全指南【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款功能强大的开源工具，专为…...

2026/4/14 13:25:48 阅读更多 →