离线服务器大模型日常运维命令速查手册
离线服务器大模型日常运维命令速查手册背景在内网 GPU 服务器上使用 Docker 部署了 PaddleOCR端口 6511和 Ollama Qwen2.5-7B端口 11434两个 AI 服务。本文梳理出日常操作中会用到的常用命令涵盖容器管理、模型操作、资源监控、网络排错等方面方便快速查阅和应急处理。一、Docker 容器管理1. 查看容器状态# 列出所有运行中的容器dockerps# 列出所有容器包括已停止的dockerps-a# 仅显示 ollama 和 paddleocr 容器dockerps--filternameollamadockerps--filternamepaddleocr2. 启动 / 停止 / 重启容器# 停止 ollama 容器服务不可用dockerstop ollama# 启动已存在的 ollama 容器dockerstart ollama# 重启 ollama 容器常用于修改配置后dockerrestart ollama# 强制停止容器kill 信号dockerkillollama# 对 PaddleOCR 容器也适用容器名可能不同请根据实际名称调整dockerstop paddleocr-vl-apidockerstop paddleocr-vlm-server3. 进入容器内部# 进入 ollama 容器的 bash 终端dockerexec-itollamabash# 进入 PaddleOCR 的 API 容器根据实际容器名调整dockerexec-itpaddleocr-vl-apibash4. 查看容器日志# 查看 ollama 容器的最新日志持续输出dockerlogs-f--tail100ollama# 查看 PaddleOCR API 容器日志dockerlogs-f--tail100paddleocr-vl-api# 查看推理引擎日志dockerlogs-f--tail100paddleocr-vlm-server# 显示最近 50 行并退出dockerlogs--tail50ollama5. 查看容器资源占用# 实时显示 CPU、内存、网络等信息dockerstats ollama# 查看所有容器的资源占用不加容器名dockerstats6. 容器开机自启设置# 容器创建时已通过 --restart unless-stopped 启用自启如需修改dockerupdate--restartunless-stopped ollama二、Ollama 模型管理1. 列出已安装的模型# 直接调用容器内的 ollama 命令dockerexec-itollama ollama list2. 导入新模型GGUF 格式# 假设已将 .gguf 文件放置在宿主机 /root/hjl/data/ 并已挂载为 /models/host# 进入容器dockerexec-itollamabash# 创建 Modelfilecat/tmp/ModelfileEOF FROM /models/host/your_model.gguf TEMPLATE |im_start|system {{ .System }}|im_end| |im_start|user {{ .Prompt }}|im_end| |im_start|assistant EOF# 创建模型模型名为自定义名称ollama create mymodel:latest-f/tmp/Modelfile# 退出容器exit3. 删除模型dockerexec-itollama ollamarmqwen2.5:7b4. 测试模型 API# 在宿主机上直接测试curlhttp://localhost:11434/api/generate-d{ model: qwen2.5:7b, prompt: hello, stream: false }# 如果使用内网 IP例如 10.13.13.221curlhttp://10.13.13.221:11434/api/generate-d{ model: qwen2.5:7b, prompt: hello, stream: false }三、GPU 与系统资源监控1. GPU 状态# 查看 GPU 利用率、显存占用、进程列表nvidia-smi# 持续监控每 2 秒刷新watch-n2nvidia-smi2. CPU 和内存# 查看内存总量和使用量free-h# 动态查看 CPU 和内存使用退出按 qtop# 更友好的监控工具如果安装了 htophtop3. 磁盘空间# 查看所有挂载分区的使用情况df-h# 查看某个目录的大小du-sh/root/hjl/data/四、网络和端口检查1. 查看端口监听状态# 列出所有监听的 TCP 端口ss-tlnp# 过滤特定端口ss-tlnp|grep-E6511|114342. 检查端口连通性# 在服务器本地测试curl-Ihttp://localhost:11434# 如果本地能通但外部不通可能是防火墙拦截# 临时开放端口需 root 权限重启后失效iptables-IINPUT-ptcp--dport11434-jACCEPT# 检查防火墙规则firewalld 或 iptablesfirewall-cmd --list-ports# 如果使用 firewalldiptables-LINPUT-n|grep11434# 如果使用 iptables3. 从远程机器测试# 在你的 Windows 电脑上测试PowerShellTest-NetConnection-ComputerName 10.13.13.221-Port 11434五、进程和系统服务管理1. 查看与 ollama 相关的进程psaux|grepollama2. 如果 Ollama 不是在容器中运行而是直接安装的可以用 systemd 管理本例是容器但作为参考# 启动/停止/重启sudosystemctl start ollamasudosystemctl stop ollamasudosystemctl restart ollama# 查看服务状态sudosystemctl status ollama# 设置开机自启sudosystemctlenableollama六、文件管理常用操作1. 复制和移动文件# 将宿主机文件复制到容器内dockercp/host/path/file.txt ollama:/container/path/# 将容器内文件复制到宿主机dockercpollama:/container/path/file.txt /host/path/2. 查看模型文件夹大小ls-lh/root/hjl/data/3. 清理 Docker 未使用的资源谨慎# 清理无用的镜像、容器、网络dockersystem prune-a七、快速排错组合命令1. 检查整个服务健康# 查看两个核心容器是否在运行dockerps--filternameollamadockerps--filternamepaddleocr# 检查两个 API 是否响应curl-shttp://localhost:6511/healthcurl-shttp://localhost:11434/api/generate-d{model:qwen2.5:7b,prompt:ping,stream:false}2. 查看容器启动失败的原因dockerlogs--tail50ollama21|head-50# 或者用 journalctl如果是原生安装3. 如果堡垒机突然失联紧急释放资源# 停止 ollama 容器释放显存和内存dockerstop ollama# 如果整个系统卡死可通过服务器本地控制台输入# 或者强制重启服务器不推荐八、注意事项端口开放6511和11434都需要内网防火墙允许访问否则外部调用失败。显存余量定期执行nvidia-smi确保总显存占用不超过 46 GB。日志空间Docker 日志默认无大小限制建议在启动容器时添加--log-opt max-size10m参数防止日志占满磁盘。模型更新更换模型文件后需要进入容器重新ollama create文件名不要冲突。本文档覆盖了日常运维中最常用的命令可当作速查表贴在桌边。如有新需求可继续补充。