Phi-3-mini-128k-instruct部署教程:WSL2环境下vLLM+Chainlit轻量开发环境搭建
Phi-3-mini-128k-instruct部署教程WSL2环境下vLLMChainlit轻量开发环境搭建1. 环境准备与快速部署在开始之前请确保您已经准备好以下环境Windows 10/11操作系统已启用WSL2功能已安装Ubuntu 20.04或更高版本的WSL2发行版1.1 安装必要依赖首先我们需要在WSL2环境中安装必要的依赖项。打开WSL2终端执行以下命令sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-venv git1.2 创建Python虚拟环境为了避免依赖冲突我们创建一个独立的Python虚拟环境python3 -m venv phi3-env source phi3-env/bin/activate1.3 安装vLLM和Chainlit在激活的虚拟环境中安装所需的Python包pip install vllm chainlit2. 模型下载与部署2.1 下载Phi-3-mini-128k-instruct模型我们可以直接从Hugging Face下载模型git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct2.2 使用vLLM启动模型服务使用vLLM部署模型服务非常简单只需一条命令python -m vllm.entrypoints.api_server --model ./Phi-3-mini-128k-instruct --tensor-parallel-size 1这个命令会启动一个本地API服务默认监听8000端口。您可以通过查看日志确认服务是否启动成功tail -f /root/workspace/llm.log3. 创建Chainlit前端应用3.1 编写Chainlit应用代码创建一个名为app.py的文件内容如下import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/v1/completions, json{ model: Phi-3-mini-128k-instruct, prompt: message.content, max_tokens: 512, temperature: 0.7 } ) result response.json() await cl.Message(contentresult[choices][0][text]).send()3.2 启动Chainlit应用在终端中运行以下命令启动Chainlit前端chainlit run app.py -w启动后Chainlit会自动打开浏览器窗口显示交互界面。您可以在界面中输入问题模型会实时生成回答。4. 验证与测试4.1 验证模型服务确保模型服务正常运行后您可以通过简单的提问来测试在Chainlit界面中输入介绍一下你自己观察模型生成的回答是否符合预期尝试不同类型的问题验证模型的各项能力4.2 性能优化建议如果发现响应速度较慢可以尝试以下优化方法增加vLLM的--tensor-parallel-size参数根据GPU显存大小调整调整Chainlit的-w参数控制工作线程数在WSL2设置中分配更多内存资源5. 常见问题解决5.1 模型加载失败如果模型无法加载请检查模型文件是否完整下载WSL2是否有足够的磁盘空间显存是否足够至少需要8GB5.2 API连接问题如果Chainlit无法连接到vLLM API请确认vLLM服务是否正常运行端口8000是否被占用防火墙设置是否允许本地连接5.3 性能问题如果遇到性能问题可以尝试降低max_tokens参数值调整temperature参数0.1-1.0之间使用更简单的提示词6. 总结通过本教程我们成功在WSL2环境下搭建了一个轻量级的Phi-3-mini-128k-instruct开发环境使用vLLM作为推理后端Chainlit作为交互前端。这套方案具有以下优势轻量高效适合个人开发者和研究者使用易于部署只需简单几步即可完成环境搭建交互友好通过Web界面与模型交互体验良好对于想要进一步探索的开发者可以考虑尝试不同的模型参数配置开发更复杂的前端应用将服务部署到云平台获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。