核心聚焦开放域多模态多跳检索任务。针对现有方法检索粒度固定、多跳推理能力有限的核心痛点论文提出了融合 “分层组件图” 与 “晚期交互子图检索” 的 LILaC 框架通过双粒度组件建模与动态推理实现了多模态检索精度的显著提升在五大基准数据集上均达到 SOTA 性能。一、研究背景与核心问题1.1 研究动机多模态文档检索需从包含文本、表格、图像等元素的文档中精准定位与查询相关的组件广泛应用于网页检索、PDF 分析等场景。现有方法存在两大关键局限检索粒度僵化VisRAG 类方法将文档转化为页面截图进行检索但单张截图通常包含多个无关组件导致嵌入质量下降TextRAG 类方法将视觉元素转化为文本摘要易丢失关键信息如图像中的 “尖塔” 等细节多跳推理薄弱现有方法多独立处理单个组件页面 / 片段忽略组件间的语义关联如文档内表格与文本的互补关系、跨文档超链接关联无法支持复杂多跳推理。1.2 核心问题如何设计灵活的粒度表示机制同时兼顾检索效率与精准度避免无关内容干扰如何显式建模组件间的语义关系支撑跨模态、跨文档的多跳推理如何在不额外微调的前提下利用预训练多模态编码器实现高效检索1.3 研究贡献提出分层组件图Layered Component Graph, LCG通过粗粒度 - 细粒度双层结构建模多模态组件既保留全局上下文又支持精准细节定位设计晚期交互子图检索方法基于查询分解与组件细粒度交互动态计算相关性高效实现多跳推理实证验证优势在 5 个基准数据集上均超越 SOTA 方法平均 Recall3 提升 14.24%MRR10 提升 15.75%且无需额外微调开源资源代码与相关工具开源https://github.com/joohyung00/lilac为领域研究提供标准化参考。二、核心方法LILaC 框架设计LILaC 的核心设计理念是 “分层建模 动态推理”框架分为离线分层组件图构建与在线晚期交互子图检索两大阶段流程如图 2 所示。2.1 阶段 1离线分层组件图构建Layered Component Graph Construction将多模态文档语料建模为双层图结构显式编码组件间的层级关系与语义关联为多跳推理奠定基础。1图结构定义分层组件图G(V,E,λ,τ)包含节点集V、边集E、层映射λ标记节点属于粗粒度 / 细粒度层与类型映射τ标记节点模态类型节点集V分为两层覆盖三种核心模态粗粒度层V0​包含段落Vpara​、完整表格Vtbl​、完整图像Vimg​用于快速筛选候选组件细粒度层V1​包含句子Vsent​、表格行Vrow​、图像检测对象Vobj​用于精准匹配细节边集E包含两类关键边层级包含边E↓​连接粗粒度节点与其细粒度子节点如段落→句子、表格→表格行语义关联边E0​包含文档内边Eintra​同一文档内所有粗粒度组件形成全连接 clique与跨文档边Einter​基于超链接连接不同文档的组件。2组件与子组件提取规则针对不同模态设计差异化的细粒度子组件提取逻辑确保信息完整性表格模态类型粗粒度组件细粒度子组件提取方式文本段落Paragraph句子Sentence基于 Sentence-aware TransformerSaT拆分表格完整表格Table表头 数据行片段HeaderRow保留表头上下文每一行数据与表头组合为子组件图像完整图像Image视觉对象Visual Object利用多模态 LLM 检测图像中的关键对象输出边界框对应的图像块3节点嵌入生成所有节点粗粒度 细粒度通过预训练多模态编码器如 MM-Embed、UniME生成嵌入向量无需额外微调直接复用预训练模型的跨模态对齐能力。2.2 阶段 2在线晚期交互子图检索Late-interaction-based Subgraph Retrieval通过 “查询分解→图遍历→晚期交互评分” 的流程动态检索与查询相关的子图实现多跳推理与精准匹配。1LLM 驱动的查询分解Query Decomposition针对复杂查询通过零样本提示让 LLM 完成两项核心操作子查询生成将原始查询分解为 1-5 个模态特异性子查询确保每个子查询对应单个可检索组件如 “泰姬陵的建造时间”“泰姬陵的尖塔数量”且覆盖原始查询的所有实体与约束模态分类为每个子查询标注模态类型文本 / 表格 / 图像例如 “建造时间” 标注为 “表格”“尖塔外观” 标注为 “图像”嵌入生成子查询按标注模态生成模态特异性嵌入原始查询生成粗粒度嵌入用于初始候选筛选。2晚期交互引导的图遍历采用束搜索Beam Search策略遍历分层组件图动态筛选相关子图核心步骤如下初始候选筛选基于原始查询的粗粒度嵌入检索粗粒度层V0​中相关性最高的 Top-b 个节点默认b30作为遍历起点迭代图扩展从初始候选节点出发通过语义关联边E0​扩展相邻节点形成候选边集合晚期交互评分针对每条候选边e(Cα​,Cβ​)聚合其关联的所有细粒度子组件Se​S(Cα​)∪S(Cβ​)计算子查询与子组件的相似度最终边得分公式为s(e;Qsub​)∑q∈Qsub​​maxc∈Se​​sim(f(c),q)即每个子查询匹配最优子组件所有子查询得分求和作为边的最终相关性候选更新保留 Top-b 条高分边其关联节点作为下一轮遍历的候选迭代 1-2 次后停止结果输出从最终子图中提取 Top-k 个组件默认k3作为检索结果。3特殊场景处理孤立节点若组件无关联边引入虚拟边避免遗漏单端匹配若边的得分仅来自一端节点仅返回该节点作为结果。三、实验设计与结果3.1 实验设置1数据集覆盖 5 个开放域多模态检索基准包含工业文档、幻灯片、信息图表、网页等多种场景表格数据集核心特点文档类型查询数量模态覆盖MP-DocVQA工业文档检索工业报告591文本 表格 图像SlideVQA多跳幻灯片检索演示幻灯片556文本 表格 图像InfoVQA信息图表检索信息图表718文本 图表 图像MultimodalQA开放域网页检索网页PDF 转化2441文本 表格 图像MMCoQA多轮会话检索多模态文档5753文本 表格 图像2对比方法TextRAG 方法NV-Embed-v2文本化多模态组件后检索VisRAG 方法VisRAG-Ret页面截图检索、ColPali视觉晚期交互检索消融变体LILaCw/o QD无查询分解、LILaCw/o LCG QD无分层图与查询分解。3评估指标检索指标Recall3Top-3 检索结果包含真实组件的比例、MRR10前 10 名结果的平均倒数排名端到端指标EM精确匹配、F1生成答案与真实答案的相似度将检索结果输入 Qwen2.5-VL 7B 生成答案。3.2 核心实验结果1检索性能对比LILaC 在所有数据集上均达到 SOTA核心结果如下平均性能表格方法Recall3MRR10相对提升vs VisRAG-RetNV-Embed-v2TextRAG65.8162.32-VisRAG-RetVisRAG66.1560.03-ColPaliVisRAG68.7663.94-LILaCw/ MM-Embed80.3975.78Recall3 14.24%MRR10 15.75%关键发现多跳推理场景优势显著在 MultimodalQA 和 MMCoQA 上LILaC 的 Recall3 分别提升 60.68% 和 31.49%证明语义关联边建模的有效性模态适配性强在图像密集型数据集InfoVQA和表格密集型数据集MP-DocVQA上均表现最优避免了 TextRAG 的视觉信息丢失与 VisRAG 的粒度僵化问题。2端到端 QA 性能对比检索结果输入多模态 LLM 生成答案LILaC 仍保持 SOTA表格方法平均 EM平均 F1相对提升vs VisRAG-RetQwen2.5-VLVisRAG-RetQwen2.5-VL44.2949.62-ColPaliQwen2.5-VL42.8348.15-LILaCw/ MM-EmbedQwen2.5-VL52.5659.36EM 18.67%F1 19.62%特殊发现LILaCw/mmE5的检索精度虽比 NV-Embed-v2 低 8.97%但端到端 EM 高 19.71%证明保留多模态原始信息比文本化转化更有利于下游生成。3消融实验验证核心组件有效性通过移除关键组件验证其贡献结果如下平均 Recall3/MRR10表格模型变体Recall3MRR10核心结论LILaCw/o LCG QD65.3357.21分层组件图 查询分解是性能提升的核心LILaCw/o QD68.5261.91分层组件图单独贡献 7.33%R3、10.13%MRR10LILaC完整71.7166.61查询分解 晚期交互额外贡献 3.19%R3、4.7%MRR10多跳场景提升更显著4效率分析整体耗时LILaC 比 VisRAG 慢 20.76%但比 ColPali 快 18.24%主要瓶颈在于 LLM 查询分解占总耗时 46.7%可通过轻量级 LLM 优化检索耗时晚期交互评分仅占总耗时 1.5%图遍历效率较高存储开销因包含细粒度节点存储量比单粒度方法高 3-5 倍但可通过增量索引优化。5参数敏感性分析束宽b束宽从 1 增至 30 时Recall3 提升 34.6%而耗时仅增加 2.8%证明宽束搜索的性价比迭代次数ni​迭代 1 次比 0 次无多跳提升 2.93%迭代 2 次无显著增益默认设置 1 次即可平衡性能与效率。四、相关工作对比表格研究方向代表工作核心差异TextRAG 方法文本化多模态NV-Embed-v2、Yang et al. (2023)需将视觉元素转化为文本易丢失信息无多跳推理支持VisRAG 方法视觉截图检索VisRAG、ColPali检索粒度固定为页面 / 区域无关内容干扰忽略组件间关联多粒度文本检索DenseXRetrieval、RAPTOR仅支持文本模态不涉及多模态组件与跨模态推理多模态嵌入模型MM-Embed、UniME仅关注组件级嵌入未建模组件间关系不支持多跳检索本研究LILaC-双粒度分层建模 显式关系编码 晚期交互推理兼顾精准度与多跳能力五、局限性与未来方向5.1 局限性子组件提取依赖工具精度文本拆分、图像对象检测的误差会影响细粒度匹配效果端到端生成仍有提升空间检索精度领先但生成性能与人类水平仍有差距需优化检索结果与生成模型的适配查询分解耗时较高依赖大参数量 LLM如 Qwen2.5-72B轻量级模型会导致分解精度下降。5.2 未来方向优化子组件提取结合领域自适应工具提升跨模态子组件提取的准确性轻量化查询分解探索小模型蒸馏或提示优化降低分解耗时增量图更新支持文档动态添加时的增量索引构建提升实用性跨语言扩展将框架扩展至多语言场景验证多模态检索的泛化性。六、结论LILaC 通过分层组件图建模多模态组件与语义关联结合晚期交互子图检索实现动态多跳推理有效解决了现有方法粒度僵化、多跳能力薄弱的核心痛点。实验证明LILaC 在五大基准数据集上均显著超越 SOTA 方法且无需额外微调仅依赖预训练多模态编码器即可实现高效跨模态对齐。其分层建模与动态推理的设计思路为开放域多模态检索提供了全新范式对网页检索、长文档分析等真实场景具有重要的实践价值。