RAG 系列（二十三）：多模态 RAG——图片、表格也能检索

张

张建站

2026/5/21 0:32:51

10分钟阅读

文本 RAG 看不见的东西上传一份年报 PDF，里面有营收走势图、产品对比表格、架构示意图。传统 RAG 怎么处理？用 PDF 解析器提取文本对文本分块、Embedding、存入向量库用户问"第三季度营收环比增长多少"问题是：营收走势图是一张图片，PDF 解析器只会把它的 alt text（通常是空的）或者图片文件名提取出来。数字在图里，不在文本里，RAG 永远找不到。表格情况稍好，但也有问题：解析器可能把表格拉平成一行行文字，原来的行列结构丢失，语义变得混乱。这是真实的业务痛点。文档里 30%–50% 的信息通常以非纯文本形式存在。三条处理路线路线一：提取 + 文本化最直接、最成熟的方案：把图片和表格转换成文字描述，再走标准的文本 RAG 流程。图片处理：用视觉语言模型（VLM）生成描述fromopenaiimportOpenAIimportbase64defdescribe_image(image_path:str)-str:withopen(image_path,"rb")asf:image_data=base64.b64encode(f.read()).decode("utf-8")client=OpenAI()response=client.chat.completions.create(model="gpt-4o",messages=[{"role":"user","content":[{"type":"image_url","image_url":{"url":f"data:image/png;base64,{image_data}"}},{"type":"text","text":"详细描述这张图片的内容，包括所有数字、标签、趋势和关键信息。如果是图表，列出所有数据点。"}]}])returnresponse.choices[0].message.content表格处理：用pdfplumber保留结构，转成 Markdownimportpdfplumberdefextract_tables_as_markdown(pdf_path:str)-list[str]:tables_md=[]withpdfplumber.open(pdf_path)aspdf:forpage_num,pageinenumerate(pdf.pages):fortableinpage.extract_tables():ifnottable:continue# 第一行作表头header=table[0]rows=table[1:]md="| "+" | ".join(str(hor"")forhinheader)+" |\n"md+="| "+" | ".join("---"for_inheader)+" |\n"forrowinrows:md+="| "+" | ".join(str(cor"")forcinrow)+" |\n"tables_md.append(f"[第{page_num+1}页表格]\n{md}")returntables_md整合进 RAG 流程：fromlangchain_core.documentsimportDocumentdefprocess_document(pdf_path:str)-list[Document]:docs=[

长期使用Taotoken聚合API的稳定性与路由体验总结

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度长期使用Taotoken聚合API的稳定性与路由体验总结在持续数月的项目开发中，我们团队将多个AI模型服务统一接入了Taotoke…...

2026/5/21 0:31:14 阅读更多 →

GitLab分支管理避坑指南：从‘摘樱桃’到高效协作，我的团队这样用Cherry-pick

GitLab分支管理实战：用Cherry-pick打造高效协作流程在代码协作的世界里，分支管理就像一场精心编排的交响乐。每个开发者都是乐手，而技术负责人则是指挥家。当团队规模扩大、功能迭代加速时，如何让代码变更像音符一样精准地落在该…...

2026/5/21 0:22:14 阅读更多 →

别只用基础框了！深度玩转CVAT属性注释模式：从人物分析到零售商品标注

别只用基础框了！深度玩转CVAT属性注释模式：从人物分析到零售商品标注在计算机视觉项目的生命周期中，数据标注往往是决定模型上限的关键环节。当大多数团队还在使用基础边界框标注时，领先的企业已经通过属性注释模式（…...

2026/5/21 0:14:43 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/19 12:48:20 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →