把一堆 PDF、Word 变成一份报告:国内模型也能干
前面你已经会安装Claude code、也学会了如何有效跟Claude Code对话了。今天我们开始让Claude Code执行一些对话以外的工作。第一个场景让我们选择了最多人有共鸣的——资料整理。你电脑里是不是有一些想看却一直没时间看的资料比如一堆行业报告 PDF会议纪要、合同 Word、Excel 报表几十篇参考文献现在有了Claude Code你可以把这些资料喂给 Claude Code让它替你读、替你提炼。以下教程重点照顾用 DeepSeek、智谱 GLM 等国产模型的你。因为这里有个大坑不讲清楚你会一头雾水。一、先说个反直觉的真相国产模型不能直接读取 PDF 和图片文件你可能以为把 PDF 拖进去AI 直接看一眼就读懂了。用 Claude 原版模型确实可以。但用国产模型DeepSeek / 智谱 GLM不行。为什么因为国产模型接入 Claude Code 走的是Anthropic 兼容接口而这个接口——DeepSeek 官方明确写了不支持图片、不支持 PDF 文档[^1]智谱 GLM-4.6最常用的那个是纯文本模型也吃不了 PDF[^2]那国产模型用户就没法整理资料了吗当然不是。有个万能解法而且更稳。当然并不是说一定需要走以下步骤我在最新版本的Claude Code里已经试过不用安装它已经聪明到自己写脚本或者自动去下载三方工具来对PDF提取内容了。以下步骤供大家参考。二、万能第一步把资料变成纯文本用 markitdown 把办公文件转成 Markdown所有 AI 模型——不管 Claude 还是 DeepSeek、GLM——读纯文字都没问题。问题只出在直接看 PDF/Word 这种特殊格式上。所以思路很简单先把 PDF、Word、Excel 统统转成纯文本Markdown再交给 AI。转换是在你电脑本地做的完全不需要模型有什么多模态能力DeepSeek、GLM 都照样顺畅。转换神器叫markitdown微软开源的免费工具[^4]专门干这个。好消息是——你不用自己学怎么用它让 Claude Code 替你装、替你转。进到你的资料文件夹启动 claude直接说这个文件夹里有一堆 PDF 和 Word 文件。请先帮我装好 markitdown 工具然后把所有这些文件转成 Markdown 纯文本转好的文本放到一个 converted 子文件夹里。它会自己跑 pip install ‘markitdown[all]’[all] 很关键带上才能转 PDF/Word/Excel 全套格式再一个个转换。转完converted 文件夹里就是一堆 AI 能轻松读的 .md 文件了。如果它转某个格式时报缺依赖提醒它用 pip install ‘markitdown[all]’ 装全套即可。 markitdown 能转PDF文字版、Word、Excel、PPT、HTML、CSV——常见办公格式基本全包[^4]。三、第二步让它综合成报告让 AI 综合 Markdown 文件生成报告文本就位开始派活。直接说人话读 converted 文件夹里所有的 .md 文件帮我1. 提炼每份的核心观点2. 找出它们的共识和分歧3. 汇总成一份报告存成 报告.md这一步读的是纯文本DeepSeek、GLM 完全胜任。你出去倒杯水的工夫报告.md 就静静躺在文件夹里了。关键心法任务越具体结果越好。总结一下太空泛“提炼核心观点 找共识分歧 存成报告”——它就知道该交付什么。偷懒版其实你也可以把第二、第三步合成一句话——“把这个文件夹里的 PDF 和 Word 整理成一份综合报告”——它会自己想到要先转文本再读。但分步说更可控新手建议先分步。四、先让它列清单你再决定先列资料清单再选择重点处理如果资料很多、很杂别一上来就让它全做完。先让它列个清单给你看转成文本之后converted 文件夹里每个文件大概讲什么用一句话告诉我。它会给你一张资料地图1. 2025行业白皮书.md —— 讲市场规模和增长预测2. 竞品分析.md —— 对比了 5 家主要厂商 3. 会议纪要0512.md —— 上次战略会的决议...看完这张图你再挑重点重点把第 1、2 份的数据提炼出来做成一张对比表。这种先勘探、再下手的方式比一股脑全扔给它更可控。五、几个让结果更靠谱的小技巧资料整理结果更可靠的四个检查点1. 让它标出处。加一句每个结论后面注明来自哪份文件方便你回头核对。2. 扫描版 PDF 要特殊处理。如果你的 PDF 是拍照/扫描的图片不是文字版markitdown 转不出文字——这种得先用 OCR 工具文字识别转成文字。纯文字版 PDF 没这问题。3. 一定要核对关键数据。AI 提炼大体可靠但涉及金额、日期、关键数字自己回原文件核一遍。它是帮你省时间的助手不是甩手不管的理由。4. 让它存成文件。加一句存成 xxx.md结果就落地成文件不会聊完就没。六、隐私我的资料会被上传吗本地转换和模型处理的隐私边界很多人最担心这个——“我把合同、报告喂进去会不会泄露”说清楚转文本markitdown是在你电脑本地做的这一步不联网、不上传。但 AI理解内容时相关文字会发给模型处理这是所有 AI 工具的共性。所以一般工作资料、公开报告、学习材料 → 放心用高度敏感的身份证、银行流水、未公开核心机密→ 自己掂量想最稳妥用本地模型数据完全不离开你的电脑。退一步用 DeepSeek/GLM 等国产后端数据至少不发往国外。七、练手任务资料整理练手任务四步流程找一个你真实存着没空看的资料堆今天就处理掉建个文件夹把 PDF / Word 拖进去cd 进去claude 启动让它装 markitdown → 把文件转成 Markdown → 综合成报告回原文件核对关键数据做完你会有种积压清空的爽感。写在最后先转纯文本再让 AI 整理的万能路线资料整理是 Claude Code 最容易出效果的场景——因为读和提炼正是 AI 的强项而这恰恰是最耗你时间的体力活。国产模型用户记住这条万能路线先转纯文本markitdown再让 AI 整理。绕开了国产模型读不了 PDF/Word的坑DeepSeek、GLM 都能顺畅干活。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】