Phi-4-mini-reasoning vLLM服务监控PrometheusGrafana指标采集配置教程1. 前言在AI模型服务化部署中监控是确保服务稳定运行的关键环节。本文将详细介绍如何为使用vLLM部署的Phi-4-mini-reasoning文本生成模型配置PrometheusGrafana监控系统帮助开发者实时掌握模型服务的运行状态。Phi-4-mini-reasoning是一个基于合成数据构建的轻量级开源模型专注于高质量、密集推理的数据处理支持128K令牌的上下文长度。通过vLLM部署后配合chainlit前端调用可以构建完整的文本生成服务。2. 环境准备2.1 确认vLLM服务运行状态在开始配置监控前首先需要确认vLLM服务已正常运行# 检查服务日志 cat /root/workspace/llm.log如果看到类似以下输出表示服务已成功启动INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete.2.2 安装必要组件确保系统中已安装以下组件Prometheus最新稳定版Grafana最新稳定版vLLM exporter用于暴露vLLM指标3. Prometheus配置3.1 安装vLLM exportervLLM exporter是一个专门用于收集vLLM服务指标的组件pip install vllm-exporter3.2 配置vLLM exporter创建配置文件/etc/vllm_exporter/config.ymlvllm: endpoint: http://localhost:8000 # vLLM服务地址 metrics_path: /metrics # 指标路径 interval: 15s # 采集间隔3.3 启动vLLM exportervllm_exporter --config.file/etc/vllm_exporter/config.yml3.4 配置Prometheus采集编辑Prometheus配置文件/etc/prometheus/prometheus.yml添加以下内容scrape_configs: - job_name: vllm static_configs: - targets: [localhost:8001] # vLLM exporter默认端口重启Prometheus服务使配置生效systemctl restart prometheus4. Grafana仪表板配置4.1 添加Prometheus数据源登录Grafana控制台导航到Configuration Data Sources选择Add data source选择Prometheus配置URL为http://localhost:9090Prometheus默认地址点击Save Test4.2 导入vLLM监控仪表板Grafana社区提供了专门的vLLM监控仪表板模板导航到Dashboards Import输入仪表板ID18678vLLM官方仪表板选择之前添加的Prometheus数据源点击Import4.3 关键指标说明仪表板将展示以下关键指标请求速率模型每秒处理的请求数响应时间请求的平均响应时间错误率失败请求的百分比GPU利用率GPU计算资源使用情况内存使用显存和系统内存占用队列长度等待处理的请求数量5. 监控指标详解5.1 性能指标vllm_requests_total总请求数vllm_request_duration_seconds请求处理时间vllm_tokens_generated_total生成的token总数5.2 资源指标vllm_gpu_utilizationGPU利用率百分比vllm_gpu_memory_usedGPU显存使用量vllm_cpu_usageCPU使用率5.3 业务指标vllm_prompt_tokens_total输入token总数vllm_generated_tokens_total输出token总数vllm_request_errors_total错误请求数6. 告警配置6.1 Prometheus告警规则在/etc/prometheus/rules.yml中添加以下告警规则groups: - name: vllm-alerts rules: - alert: HighErrorRate expr: rate(vllm_request_errors_total[5m]) / rate(vllm_requests_total[5m]) 0.05 for: 10m labels: severity: warning annotations: summary: High error rate on vLLM service description: Error rate is {{ $value }} (threshold: 0.05) - alert: HighGPUTemperature expr: vllm_gpu_temperature 85 for: 5m labels: severity: critical annotations: summary: High GPU temperature description: GPU temperature is {{ $value }}°C6.2 Grafana告警配置在仪表板中找到需要监控的图表点击图表标题 Edit Alert配置告警条件和通知渠道保存告警规则7. 总结通过本文的配置我们为Phi-4-mini-reasoning vLLM服务建立了完整的监控系统数据采集层使用vLLM exporter收集服务指标存储处理层Prometheus存储和聚合指标数据可视化层Grafana提供直观的仪表板展示告警层配置关键指标的告警规则这套监控方案可以帮助开发者实时了解服务运行状态快速定位性能瓶颈及时发现并处理异常情况优化资源配置和请求调度对于生产环境部署建议进一步配置多实例监控和高可用方案定期审查和优化告警规则建立指标数据的长期存储和分析机制获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。