目录一、原生 Python 脚本部署二、命令行直接启 API 服务无代码三、官方 Docker 镜像部署单机生产首选四、Docker Compose 部署五、Kubernetes K8s 部署企业级生产六、内网离线部署无外网环境七、多机多卡分布式部署70B超大模型八、负载均衡反向代理部署高可用线上部署方式快速选型一、原生 Python 脚本部署适用本地开发、调试、二次开发、嵌入RAG/Agent项目特点最灵活可自定义推理逻辑、接入业务代码最简用法pipinstallvllmfromvllmimportLLM,SamplingParams llmLLM(modelQwen-7B-Chat,quantizationAWQ)spSamplingParams(max_tokens512)outputsllm.generate(你好,sampling_paramssp)print(outputs[0].outputs[0].text)二、命令行直接启 API 服务无代码适用快速搭OpenAI兼容接口、临时测试、内网小服务特点一条命令启动自动暴露接口无需写代码最简命令vllm serve Qwen-7B-Chat\--port8000\--quantizationawq\--tensor-parallel-size1自动兼容 OpenAI 接口 http://ip:8000/v1三、官方 Docker 镜像部署单机生产首选适用单机GPU服务器、私有化部署、环境统一隔离特点不用装CUDA、不用配依赖镜像自带运行环境最简命令dockerpull vllm/vllm-openai:latestdockerrun-d\--gpusall\-p8000:8000\-v/本地模型目录:/model\vllm/vllm-openai:latest\--model/model/Qwen-7B-Chat\--quantizationawq四、Docker Compose 部署适用本地多服务组合vLLMRAG前端、小团队运维特点配置文件管理一键启停、方便迁移docker-compose.yml 核心services:vllm:image:vllm/vllm-openai:latestports:-8000:8000volumes:-./model:/modeldeploy:resources:reservations:devices:-driver:nvidiacount:allcapabilities:[gpu]启动 docker-compose up -d五、Kubernetes K8s 部署企业级生产适用线上高并发、多GPU节点、自动扩缩容、灰度发布特点集群化管理、故障自愈、负载均衡、多模型统一调度核心能力限制GPU显存/CPU资源多副本负载均衡自动根据QPS扩缩容模型挂载共享存储六、内网离线部署无外网环境适用政务、金融、涉密内网不能联网做法外网下载vLLM镜像、模型权重、pip离线包打包镜像导入内网Docker内网本地加载模型不走外网下载核心全程离线模型和镜像本地存量七、多机多卡分布式部署70B超大模型适用70B、110B、MoE大模型单张GPU放不下特点张量并行TP、流水线并行PP拆分模型到多卡/多机最简命令单机多卡vllm serve Qwen-72B-Chat\--tensor-parallel-size4# 用4张GPU拆分模型多机需配置分布式主机地址、节点列表。八、负载均衡反向代理部署高可用线上适用多台vLLM实例集群、对外统一服务入口架构用户请求 → Nginx/Ingress → 多台vLLM实例能力流量分发、限流、熔断、接口统一域名、隐藏后端实例部署方式快速选型个人测试/开发Python脚本 / 命令行serve单机私有化上线Docker 部署多服务组合本地运维Docker Compose超大模型70B多机多卡分布式企业生产、高并发、集群K8s 负载均衡涉密内网离线镜像部署