OpenClaw 额外配置 OCR 能力的免费可行方案
OpenClaw 额外配置 OCR 能力免费可行方案详解很多小伙伴配置好 OpenClaw 后发现默认的大模型不具备图像分析能力无法识别图片中的文字或内容。今天就给大家分享几个免费且可行的解决方案 问题现状OpenClaw 默认配置的大模型如 GPT-4o、Claude 等如果你的 API 版本不支持 vision或者模型本身不具备多模态能力就无法分析图片。常见场景❌ 无法识别截图中的文字❌ 无法分析上传的图片内容❌ 无法读取证件、文档照片✅ 解决方案一使用 ocr-local 技能推荐推荐理由100% 本地运行完全免费无需 API Key支持中文和英文安装步骤# 安装 tesseract.jsnpminstalltesseract.js# 或者使用 OpenClaw 技能市场安装openclaw skillsinstallocr-local使用方法# 识别中文截图nodescripts/ocr.js screenshot.png# 识别英文文档nodescripts/ocr.js document.jpg--langeng# 混合中英文nodescripts/ocr.js mixed.png--langchi_simeng# JSON 格式输出nodescripts/ocr.js image.jpg--json支持语言代码语言chi_sim简体中文chi_tra繁体中文eng英文优缺点✅ 完全免费✅ 本地运行隐私安全✅ 无需 API Key⚠️ 首次运行需下载语言包~20MB⚠️ 手写体识别效果一般✅ 解决方案二使用免费的多模态模型如果你需要识别图片内容而不仅是文字可以配置支持 Vision 的免费模型方案 A使用 Ollama 本地模型# 安装 Ollama# 下载地址https://ollama.com# 拉取支持 vision 的模型ollama pull llava ollama pull moondream配置文件{ env: { OLLAMA_BASE_URL: http://localhost:11434 }, agents: { defaults: { model: { primary: ollama/llava } } } }方案 B使用免费的 API 服务1. GLM-4V-Flash推荐{ env: { ZHIPU_API_KEY: 你的API Key }, agents: { defaults: { model: { primary: zhipu/glm-4v-flash } } } } GLM-4V-Flash 每月有免费额度足够个人使用2. Moonshot AI (Kimi){ env: { MOONSHOT_API_KEY: 你的API Key }, agents: { defaults: { model: { primary: moonshot/kimivl-v1.8k-vision } } } }3. MiniMax Vision{ env: { MINIMAX_API_KEY: 你的API Key }, agents: { defaults: { model: { primary: minimax/abab6.5s-chat } } } }✅ 解决方案三ecloud-paper-grading 技能高级 OCR如果你是教育行业或者需要高精度的印刷体 OCR推荐使用ecloud-paper-grading技能核心能力✅PaddleOCR- 印刷体识别效果领先中文识别准确率高✅多模态大模型- 手写体识别需配置 API Key✅全学科支持- 语文/数学/英语/物理/化学等安装openclaw skillsinstallecloud-paper-grading环境要求Python 3.11Visual C 运行库Windows 必装首次运行自动安装 PaddleOCR手动安装命令# 安装 Visual C 运行库# 下载: https://aka.ms/vs/17/release/vc_redist.x64.exe# 安装 Python 依赖pip install numpy1.26.4 pip install protobuf3.20.2 pip install paddlepaddle2.6.2 pip install paddleocr2.8.1# 国内镜像pip install numpy1.26.4 protobuf3.20.2 paddlepaddle2.6.2 paddleocr2.8.1-i https://pypi.tuna.tsinghua.edu.cn/simple 方案对比方案费用隐私难度适用场景ocr-local✅ 免费✅ 本地⭐ 简单文字识别、中英文Ollama 本地✅ 免费✅ 本地⭐⭐ 中等需要本地部署GLM-4V-Flash✅ 免费额度❌ 云端⭐ 简单图片分析理解Moonshot/Kimi❌ 付费❌ 云端⭐ 简单图片分析理解PaddleOCR✅ 免费✅ 本地⭐⭐⭐ 较复杂高精度印刷体 快速上手推荐场景 1只需要识别图片文字# 安装 ocr-local 技能openclaw skillsinstallocr-local# 使用nodescripts/ocr.js your_image.png场景 2需要分析图片内容// 在配置文件中添加 { env: { ZHIPU_API_KEY: 你的免费API Key }, agents: { defaults: { model: { primary: zhipu/glm-4v-flash } } } }场景 3教育行业高精度 OCR# 安装 ecloud-paper-grading 技能openclaw skillsinstallecloud-paper-grading 常见问题Q1为什么模型不能识别图片检查配置文件中模型是否支持 vision如glm-4v-flash、moondream等。Q2OCR 识别结果不准确怎么办确保图片清晰度高选择合适的语言参数chi_sim/eng对于手写体建议使用多模态大模型方案Q3API Key 哪里获取智谱 AIhttps://open.bigmodel.cnMoonshothttps://platform.moonshot.cnMiniMaxhttps://platform.minimax.io 总结需求推荐方案纯文字识别免费ocr-local 技能图片理解分析免费额度GLM-4V-Flash高精度印刷体PaddleOCR (ecloud-paper-grading)完全本地隐私Ollama llava希望这篇方案能帮到你如果觉得有用欢迎收藏转发有任何问题评论区见