Phi-3-mini-128k-instruct部署教程：WSL2环境下vLLM+Chainlit轻量开发环境搭建

张

张建站

2026/5/12 9:43:15

10分钟阅读

Phi-3-mini-128k-instruct部署教程WSL2环境下vLLMChainlit轻量开发环境搭建1. 环境准备与快速部署在开始之前请确保您已经准备好以下环境Windows 10/11操作系统已启用WSL2功能已安装Ubuntu 20.04或更高版本的WSL2发行版1.1 安装必要依赖首先我们需要在WSL2环境中安装必要的依赖项。打开WSL2终端执行以下命令sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-venv git1.2 创建Python虚拟环境为了避免依赖冲突我们创建一个独立的Python虚拟环境python3 -m venv phi3-env source phi3-env/bin/activate1.3 安装vLLM和Chainlit在激活的虚拟环境中安装所需的Python包pip install vllm chainlit2. 模型下载与部署2.1 下载Phi-3-mini-128k-instruct模型我们可以直接从Hugging Face下载模型git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct2.2 使用vLLM启动模型服务使用vLLM部署模型服务非常简单只需一条命令python -m vllm.entrypoints.api_server --model ./Phi-3-mini-128k-instruct --tensor-parallel-size 1这个命令会启动一个本地API服务默认监听8000端口。您可以通过查看日志确认服务是否启动成功tail -f /root/workspace/llm.log3. 创建Chainlit前端应用3.1 编写Chainlit应用代码创建一个名为app.py的文件内容如下import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/v1/completions, json{ model: Phi-3-mini-128k-instruct, prompt: message.content, max_tokens: 512, temperature: 0.7 } ) result response.json() await cl.Message(contentresult[choices][0][text]).send()3.2 启动Chainlit应用在终端中运行以下命令启动Chainlit前端chainlit run app.py -w启动后Chainlit会自动打开浏览器窗口显示交互界面。您可以在界面中输入问题模型会实时生成回答。4. 验证与测试4.1 验证模型服务确保模型服务正常运行后您可以通过简单的提问来测试在Chainlit界面中输入介绍一下你自己观察模型生成的回答是否符合预期尝试不同类型的问题验证模型的各项能力4.2 性能优化建议如果发现响应速度较慢可以尝试以下优化方法增加vLLM的--tensor-parallel-size参数根据GPU显存大小调整调整Chainlit的-w参数控制工作线程数在WSL2设置中分配更多内存资源5. 常见问题解决5.1 模型加载失败如果模型无法加载请检查模型文件是否完整下载WSL2是否有足够的磁盘空间显存是否足够至少需要8GB5.2 API连接问题如果Chainlit无法连接到vLLM API请确认vLLM服务是否正常运行端口8000是否被占用防火墙设置是否允许本地连接5.3 性能问题如果遇到性能问题可以尝试降低max_tokens参数值调整temperature参数0.1-1.0之间使用更简单的提示词6. 总结通过本教程我们成功在WSL2环境下搭建了一个轻量级的Phi-3-mini-128k-instruct开发环境使用vLLM作为推理后端Chainlit作为交互前端。这套方案具有以下优势轻量高效适合个人开发者和研究者使用易于部署只需简单几步即可完成环境搭建交互友好通过Web界面与模型交互体验良好对于想要进一步探索的开发者可以考虑尝试不同的模型参数配置开发更复杂的前端应用将服务部署到云平台获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Lenovo Legion Toolkit全方位硬件性能优化指南

Lenovo Legion Toolkit全方位硬件性能优化指南【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit 一、问题定位：精准…...

2026/5/9 21:30:55 阅读更多 →

ROS新手必看：5分钟搞定KITTI数据集在RVIZ中的可视化（附常见问题解决）

ROS实战：从KITTI数据集到RVIZ可视化的全流程解析第一次接触ROS和KITTI数据集时，最让人头疼的就是如何把那些看似神秘的二进制文件变成可视化窗口中的动态场景。作为自动驾驶领域最经典的公开数据集之一，KITTI包含了丰富的传感器数据&#x…...

2026/5/9 21:41:25 阅读更多 →

Termius直连本地虚拟机：从零搭建SSH通道的完整指南

1. 为什么你需要Termius连接本地虚拟机？ 作为一个常年和虚拟机打交道的开发者，我太理解那种在虚拟机自带控制台里憋屈的感觉了。字体模糊、复制粘贴失灵、窗口大小固定，简直像是戴着镣铐跳舞。直到三年前我开始用Termius连接本地虚拟机&#…...

2026/5/9 21:51:48 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/11 10:49:24 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/12 8:30:03 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/11 23:43:42 阅读更多 →