一、环境准备前提服务器已安装NVIDIA GPU驱动系统为Ubuntu 20.04。1. 安装Dockercurl-fsSLhttps://download.docker.com/linux/ubuntu/gpg|sudogpg--dearmor-o/usr/share/keyrings/docker-archive-keyring.gpgechodeb [arch$(dpkg --print-architecture)signed-by/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu focal stable|sudotee/etc/apt/sources.list.d/docker.list/dev/nullaptupdateaptinstall-ydocker-ce docker-ce-cli containerd.io systemctl startdockersystemctlenabledocker2. 安装NVIDIA-Dockerdistribution$(./etc/os-release;echo$ID$VERSION_ID)curl-s-Lhttps://nvidia.github.io/nvidia-docker/gpgkey|sudoapt-keyadd-curl-s-Lhttps://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list|sudotee/etc/apt/sources.list.d/nvidia-docker.listapt-getupdateapt-getinstall-ynvidia-docker2 systemctl restartdocker二、魔搭社区下载模型ModelScope1. 安装ModelScope工具pipinstallmodelscope2. 下载Qwen3-8B模型自定义路径modelscope download--modelQwen/Qwen3-8B--local_dir/hy-tmp/models/deepseek/模型将保存到/hy-tmp/models/deepseek/后续容器直接挂载此路径。三、拉取Docker镜像# 拉取Open WebUICUDA版dockerpull ghcr.io/open-webui/open-webui:cuda# 拉取vLLM推理镜像dockerpull vllm/vllm-openai四、启动vLLM容器挂载魔搭模型dockerrun-d\--gpusall\--restartunless-stopped\--namedeepseek-container\--networkhost\-v/hy-tmp/models/deepseek:/model\vllm/vllm-openai:latest\--model/model\--served-model-name qwen3-8b\--dtypehalf\--api-key OPENWEBUI123关键说明-v /hy-tmp/models/deepseek:/model挂载魔搭下载的模型路径--served-model-name qwen3-8b自定义服务模型名--api-key OPENWEBUI123接口密钥WebUI需保持一致五、启动Open WebUI容器dockerrun-d\--nameopenwebui-container\--networkhost\--gpusall\-eOPENAI_API_BASE_URLhttp://localhost:8000/v1\-eOPENAI_API_KEYSOPENWEBUI123\-eUSE_CUDA_DOCKERtrue\ghcr.io/open-webui/open-webui:cuda六、验证与访问检查容器状态dockerps浏览器访问Open WebUIhttp://服务器IP:8080首次访问创建管理员账号即可选择qwen3-8b模型对话。七、常见参数说明参数作用--gpus all容器调用全部GPU--network host复用主机网络端口直通-v 本地路径:容器路径模型目录挂载--dtype halfFP16精度降低显存占用--api-key接口鉴权密钥