Quansloth 本地 AI 服务器使用手册
Quansloth 本地 AI 服务器使用手册📋 目录项目简介系统要求安装指南配置说明使用教程多 GPU 配置故障排除性能优化项目简介什么是 Quansloth?Quansloth 是一个基于 Google TurboQuant (ICLR 2026) 技术构建的本地 AI 服务器,专为消费级 GPU 设计。它通过 KV 缓存压缩技术,可以在有限的显存上运行大规模上下文的大型语言模型。核心特性特性说明75% 显存节省通过 TurboQuant 技术将 KV 缓存从 16-bit 压缩到 4-bit超长上下文在 6GB GPU 上运行 32k+ token 上下文实时硬件监控UI 实时显示 VRAM 分配和节省情况文档注入支持 PDF/TXT/CSV/MD 文档直接输入Cyberpunk UI暗色主题 Gradio 界面技术架构┌─────────────────────────────────────────────────────────┐ │ Gradio Web UI │ │ (Port 7860) │ ├─────────────────────────────────────────────────────────┤ │ OpenAI API Client │ │ (http://127.0.0.1:8080/v1) │ ├─────────────────────────────────────────────────────────┤ │ llama.cpp TurboQuant Backend │ │ (Port 8080, CUDA Accelerated) │ └─────────────────────────────────────────────────────────┘核心优势防止 OOM 崩溃: 标准 LLM 推理在处理长文档时会遇到"内存墙",Quansloth 通过压缩 AI 的"记忆"(KV 缓存)从 16-bit 到 4-bit 来防止崩溃硬件级稳定性: 界面监控 CUDA 后端,确保模型在 GPU 物理限制内运行适合预算 GPU: 在 RTX 3060 6GB 上运行需要 RTX 4090 24GB 的任务系统要求硬件要求组件最低要求推荐配置实验配置GPUNVIDIA RTX 3060 6GBRTX 4090 24GB双卡 RTX 5060 Ti 16G✅显存6GB16GB+32GB (16G×2)✅内存16GB RAM32GB RAM建议 32GB+存储10GB 可用空间50GB+ SSD建议 NVMe SSD软件要求软件版本要求安装命令操作系统Ubuntu 20.04+ / WSL2-NVIDIA 驱动535+nvidia-smi检查CUDA Toolkit12.0+sudo apt install nvidia-cuda-toolkitPython3.10conda create -n quansloth python=3.10Git2.30+sudo apt install gitCMake3.20+sudo apt install cmakeBuild Essential-sudo apt install build-essential