️ quasivision给 LLM 装上一双廉价的眼睛让它先看见再说一句话总结quasivision 是一个用 Rust 写成的本地视觉理解引擎。它不跟你谈 AGI不跟你比 VLM——它只做一件事把图片里的文字、物体、UI 组件、图标含义快速提取出来喂给 AI。纯本地运行零 Python 依赖编译完一个二进制就能跑。 先讲一个不对劲的现象你有没有发现——现在的 AI 圈有一个普遍的认知偏差只要提到给 AI 看图片所有人的第一反应就是——“用 VLM 啊GPT-4VClaude Vision”但冷静想想绝大多数场景真的需要大模型来理解图片吗举个常见的例子——场景 A一张截图里有一段文字你懒得手动复制想直接发给 AI 让它读。VLM 方案上传图片 → 多模态大模型推理 → 理解图片 → 提取文字 → 返回结果quasivision 方案本地 OCR → 文字提取 → 返回结果场景 B你有一千张 PDF 截图想批量转成 Markdown。VLM 方案传一千张图 → API 调用一千次 → 烧掉几百块钱 → 等半小时quasivision 方案cargo run -- -i ./screenshots/ --recursive→ 几秒钟出完结果 → 零成本场景 C你想让 AI 知道这个页面有哪些按钮、分别在什么位置。VLM 方案大模型看图 → 它可能看对也可能看错 → 输出不稳定 → 每次都花钱quasivision 方案本地结构化提取 → 稳定的坐标 分类 → 喂给 LLM 当上下文发现没很多场景根本不需要理解只需要看见。就像你不需要一个哈佛毕业的博士帮你读路牌上的字——你需要的是一个视力 5.0 的路人看一眼然后告诉你前方 500 米右转。quasivision 就是这个视力 5.0 的路人。 核心定位给 LLM 装一双廉价的眼睛现在大模型圈最火的方向之一就是MCPModel Context Protocol和AI Tools——让 AI 有手能调用工具有眼睛能感知世界。但问题来了VLM视觉语言模型太贵了。每次调用都是钱需要网络传输图片隐私风险响应延迟以秒计不适合批量场景而 quasivision 想做的是——开源一套AI Tools级别的视觉感知层。┌─────────────────────────────────────────┐ │ LLMGPT/Claude/本地模型 │ ├─────────────────────────────────────────┤ │ MCP / AI Tools 层 │ ├─────────────────────────────────────────┤ │ ️ quasivision本地视觉感知引擎 │ │ ├─ 文字识别OCR │ │ ├─ UI 组件检测按钮/输入框/图标... │ │ ├─ 物体检测860 类日常物体 │ │ ├─ Icon 含义分类81 种常见图标 │ │ └─ 颜色提取 │ ├─────────────────────────────────────────┤ │ 输入一张图片 │ │ 输出结构化JSON/Tree │ └─────────────────────────────────────────┘quasivision 的眼睛是假的——它看不懂这个按钮的设计风格很现代、“这张照片的情绪很悲伤”。它只能看到表面这里有文字“提交”这里有按钮坐标 [100,200, 300,250]这里有物体人87%置信度戴着帽子这里有图标搜索但很多时候看见了表面就已经够了。 为什么是 Rust为什么不是 Python如果这只是一个调一下 OpenCV的小工具用 Python 写也行。但 quasivision 的野心不止于此——它想做的是系统级的 AI Tools 基础设施。 零依赖部署你部署一个 Python 视觉服务需要什么Python 3.x → pip install torch → pip install opencv → pip install onnxruntime → pip install paddleocr → ... 可能还要解决 CUDA 版本冲突 ...你部署一个 quasivision 需要什么cargorun ----input图片.png或者编译完扔过去一个二进制文件。没有 Python 环境依赖、没有 Node.js 依赖、没有pip install地狱、没有环境冲突。编译完一个文件到处跑。️ 性能与体积YOLOE-26n 物体检测模型只有11.1 MB——比上一代 YOLO-World 的 49.5 MB 小了77%。模型小意味着加载快、推理快、内存占用低。再加上 Rust 的零成本抽象和 ONNX Runtime 的原生绑定推理性能与 C 持平但内存安全由编译器保障。 编译期搞定跨平台[target.cfg(target_os windows).dependencies] oar-ocr { version 0.6, features [directml] } [target.cfg(target_os macos).dependencies] oar-ocr { version 0.6, features [coreml] }Windows 用 DirectML 加速macOS 用 CoreML 加速Linux 走 CPU 优化——全是编译期自动选择你只管写cargo run。 quasivision 的五感如果说人靠五感感知世界那 quasivision 也给自己装了五套感知器1️⃣ UI 元素检测主视觉把一张截图拆碎成组件树——类别说明Block容器区块卡片、列表项、导航栏Button可点击按钮Text文字标签Icon图标小方形元素Image图片区域Input输入框List Item列表项带勾选标记输出示例tree 格式Root (1280×800) ├── Block: 导航栏 │ ├── Icon: logo │ ├── Text: 首页 │ └── Button: 登录 ├── Block: 搜索区域 │ ├── Input: 搜索框 │ └── Button: 搜索 └── Block: 结果列表 ├── Block: 结果项1 │ ├── Text: 标题文字... │ └── Text: 描述文字... └── Block: 结果项22️⃣ OCR 文字识别识字能力基于 PaddleOCR PP-OCRv5支持中英文识别。在 UI 结构检测完成后将识别到的文字合并到对应的 UI 元素中。3️⃣ 物体检测看物能力YOLOE-26n 识别 860 类日常物体自动构建父子包含关系Objects — 6 found: └─ person (87%) ├─ cap (39%) → hat (82%) │ └─ glasses (65%) ├─ glove (21%) └─ jacket (20%)4️⃣ Icon 含义分类看图识字81 种常见 UI 图标含义识别——设置、搜索、分享、返回、菜单、收藏……不是图像分类而是语义理解层面的图标分类。5️⃣ 颜色检测辨色能力自动提取每个元素的前景色/背景色输出十六进制值。 输出JSON 文本双格式不搞花里胡哨quasivision 的输出设计走的是实用主义路线——没有--format参数选择、没有 5 种格式排列组合。每个图片的处理结果就两套文件 UI 检测结果文件用途elements.tree.jsonJSON 树结构id/parent/children 全层级像素级坐标elements.tree.txt纯文本树人类一眼能看懂的 DOM 结构也能直接粘贴到 prompt 里 物体检测结果文件用途objects.tree.json物体包含关系树JSONobjects.tree.txt物体包含关系树文本️ 可视化标注图文件用途visualization.jpgUI 组件边框标注不同颜色区分类型objects.jpg物体检测可视化带标签和置信度就两套格式JSON 给程序吃TXT 给人/AI 吃。坐标就是原始像素坐标简单直接。如果你需要归一化坐标喂给 LLM下游自己除一下图片宽高就行一行代码的事。这种设计取舍背后的理念是——少一个选择少一个心智负担。固定输出用户拿到就能直接用不需要先纠结我该用哪个格式。 实战quasivision 的黄金场景 场景 1懒得复制文字 → 截个图发给 AI这是最常见的偷懒场景——你在网页上看到一段文字想发给 AI 处理但文字不能直接复制比如截图里的代码、付费文档、视频字幕。常规做法手动打字 → 太累 | 用 OCR 工具 → 还得装软件quasivision 做法cargo run -- --input 截图.png→ 文字自动提取 → 喂给 LLM 场景 2批量图片转文字一百张 PDF 截图要提取文字cargorun ---i./docs/--recursive不用一张张上传云端 OCR 服务不用花一分钱 API 费用。本地一次跑完结构化数据直接喂给下游。 场景 3把 quasivision 做成 MCP Tool这是我最看好的用法——将 quasivision 封装成一个MCP Server或 AI Tool让 LLM 在需要看图时自动调用用户这个页面的按钮在哪里 LLM 调用 quasivision → 获取结构化 UI 树 → 告诉你按钮的坐标和文字 用户这张照片里有什么 LLM 调用 quasivision → 获取物体检测结果 → 告诉你照片里的人和物关键优势调用 quasivision 不需要网络、不需要 API Key、没有速率限制。LLM 可以免费地、无限次地调用本地的视觉能力。 场景 4系统级 AI Tools因为 quasivision 是一个纯粹的 Rust 二进制它可以直接集成到操作系统层面全局快捷键截图→ 自动 OCR 提取文字 → 粘贴到剪贴板窗口内容监控→ 实时提取 UI 结构 → 驱动自动化脚本文件管理器右键菜单→ “一键提取图片中的文字”这些场景如果依赖 VLM延迟和成本都不可接受。但 quasivision 可以——它足够轻、足够快、足够便宜。⚖️ 诚实地说quasivision 不是 VLM 的替代品我必须要说清楚这一点——quasivision 从来不打算替代 VLM它们俩根本不在一个赛道上。直接看对比对比维度 VLM视觉语言模型️ quasivision理解深度✅ 能看懂含义情绪、风格、隐喻、图表逻辑❌ 只能看到表面文字、物体、UI 组件、颜色输出形式❌ 自然语言描述灵活但有幻觉风险✅结构化数据JSON/Tree精确、稳定、无幻觉识别精度❌ 坐标模糊依赖模型推理能力结果不稳定✅像素级坐标每次运行结果一致运行环境❌ 云端 API 或超大本地模型✅纯本地一个 Rust 二进制无需网络依赖成本❌ 需要 Python 环境、GPU、CUDA、大量依赖✅零外部依赖无 Python、无 Node.js调用成本❌ API 按 token 计费批量场景烧钱✅一次编译无限使用边际成本为零处理速度❌ 秒级响应批量时要排队✅毫秒级UI 检测批量一键跑完隐私安全❌ 图片需上传云端有泄露风险✅完全离线数据不出本机可编程性❌ 输出自然语言下游解析麻烦✅结构化数据可直接被程序消费零样本适应✅ 没见过的场景也能理解❌ 依赖规则和训练数据有边界语义理解✅ 懂上下文、懂潜台词❌ 只做检测和分类不做理解适合场景❌ 需要深度理解的复杂视觉任务✅快速、批量、精确的视觉感知任务翻译成人话场景选谁“这张图表达了什么情绪”VLM“把这个截图里的文字提取出来”quasivision“分析这个图表的数据趋势”VLM“这一千张图片里有哪些按钮”quasivision“这张设计稿的风格是什么”VLM“这个按钮的精确坐标和颜色是什么”quasivision“给我描述一下这张照片”VLM“把这张照片里的物体全部列出来带坐标”quasivision结论VLM 是博士生看图写作文quasivision 是视力 5.0 的路人指路。博士生能写诗但指路这件事——又快又准还便宜的路人才是日常刚需。最好的架构是用 VLM 做大脑做推理决策用 quasivision 做眼睛做精确感知各司其职。 写在最后quasivision 这个项目最让我心动的地方不是它的技术深度虽然确实不浅而是它的战略定位。在 AGI 狂热的当下所有人都在往上走——更大模型、更强理解、更通用的智能。但 quasivision 选择往下走去做最基础的视觉感知层。它清楚自己的边界看不懂深层含义 → 没关系先把表面信息精准提取比不过 VLM 聪明 → 没关系比 VLM 快 100 倍、便宜 1000 倍不能理解复杂场景 → 没关系90% 的场景只需要看见这是一个工具该有的清醒。如果你在做 MCP Tools、AI Agents、UI 自动化、或者只是想让你的 LLM 有双眼睛来感知这个世界——试试 quasivision。它不一定最聪明但它一定是最务实的选择。 项目地址github.com/WeiChens/quasivision 一行命令体验gitclone https://github.com/WeiChens/quasivision.gitcdquasivisioncargorun ----inputdemo/ui.jpg☁️ 国内用户设置镜像加速模型下载setQUASIVISION_MODELS_URLhttps://hf-mirror.com/WeiChens/quasivision-models/resolve/maincargorun ----inputdemo/ui.jpg