InViC: Intent-aware Visual Cues for Medical Visual Question AnsweringAuthors:Zhisong Wang, Ziyang Chen, Zanting Ye, Hongze Zhu, Yefeng Zheng, Yong XiaDeep-Dive Summary:InViC用于医疗视觉问答的意图感知视觉提示摘要医疗视觉问答Med-VQA旨在根据医学图像回答临床相关问题。然而现有的多模态大语言模型MLLMs往往表现出“捷径回答”行为即利用语言先验或数据集偏差产生看似合理的回答而对视觉证据关注不足。这种行为削弱了临床可靠性特别是在细微的影像学发现具有决定性作用时。我们提出了一种轻量级插件框架称为意图感知视觉提示InViC旨在显式增强医疗 VQA 中基于图像的答案生成。InViC 引入了一个提示标记提取CTE模块将密集的视觉标记蒸馏为一组精简的K KK个问题条件提示标记这些标记作为结构化视觉中介注入 LLM 解码器以促进与意图对齐的视觉证据。为了防止模型绕过视觉信息我们进一步设计了一种带有提示瓶颈注意力掩码cue-bottleneck attention mask的两阶段微调策略。在第一阶段我们使用注意力掩码阻断 LLM 直接查看原始视觉特征从而使所有视觉证据都通过提示路径传输。在第二阶段恢复标准因果注意力以训练 LLM 共同利用视觉和提示标记。我们在三个公开的 Med-VQA 基准测试VQA-RAD、SLAKE 和 ImageCLEF VQA-Med 2019上跨多个代表性 MLLMs 对 InViC 进行了评估。结果表明InViC 一致优于零样本推理和标准的 LoRA 微调证明了带有瓶颈训练的意图感知视觉提示是提高 Med-VQA 可信度的一种实用且有效的策略。关键词Med-VQA · 意图感知视觉提示 · 视觉感知1 引言医疗视觉问答Med-VQA将视觉问答扩展到临床成像领域要求模型根据医学图像如放射线照相、CT 或 MRI回答有关解剖结构、发现和异常的自然语言问题。尽管取得了显著进展但一个关键的可靠性问题仍然存在捷径回答。模型可能会利用语言先验或数据集偏差在没有充分结合图像的情况下产生答案。目前缓解捷径回答的策略包括(1) 外部知识和智能体推理(2) 偏差感知训练目标(3) 预训练与 Med-VQA 监督之间的对齐。尽管如此从图像表示到答案生成的内部证据路径仍可能被绕过。在当前的 MLLM 架构中密集的视觉标记通常与文本标记拼接缺乏结构约束。在视觉证据微妙或数据集捷径显著时解码器可能会优先考虑问题线索而非图像特征。本研究认为Med-VQA 不仅需要更好的目标或提示还需要对视觉信息的消耗方式进行显式的架构约束。为此我们提出了 InViC 框架。它通过 CTE 模块将视觉标记提取为K KK个提示标记并引入两阶段训练策略。第一阶段通过瓶颈注意力掩码强制视觉证据仅通过提示标记流动第二阶段恢复标准注意力以优化生成质量。2 方法2.1 概述给定图像和问题视觉编码器产生视觉标记文本编码器产生问题标记。InViC 在主干表示和 LLM 解码器之间插入 CTE 模块生成K KK个问题引导的提示标记。这些标记被注入解码序列参与答案生成。为了减少捷径回答我们采用两阶段微调策略其流程如图 1 所示。图 1. InViC 概述。左CTE 模块其可学习的提示槽位由池化的问题表示初始化随后是对问题标记和视觉标记的交叉注意力以及适配器风格的校准。中两阶段训练策略视觉标记在第一阶段仅对提示标记可见在第二阶段完全可见。右序列构建和带有交叉熵损失的 LLM 训练。2.2 CTE 模块提示提取器将主干表示转换为K KK个提示标记该过程包含三个步骤问题条件槽位初始化令{ q i } i 1 N d \{q_{i}\}_{i 1}^{N_{d}}{qi​}i1Nd​​表示问题标记嵌入。我们使用从池化问题表示导出的偏移量来初始化K KK个可学习的种子槽位S seed ∈ R K × d S_{\text{seed}} \in \mathbb{R}^{K \times d}Sseed​∈RK×dS 0 S seed tanh ⁡ ( γ ) MLP ( MeanPool ( { q i } ) ) , ( 1 ) S_{0} S_{\text{seed}} \tanh (\gamma)\text{MLP}(\text{MeanPool}(\{q_{i}\})), \quad (1)S0​Sseed​tanh(γ)MLP(MeanPool({qi​})),(1)其中γ \gammaγ是控制偏移幅度的可学习标量。跨模态检索器通过顺序交叉注意力细化提示槽位槽位先关注问题标记再关注视觉标记。S 1 XBlock ( S 0 , Q ) , S 2 XBlock ( XBlock ( S 1 , V ) , V ) , ( 2 ) S_{1} \text{XBlock}(S_{0},Q), \qquad S_{2} \text{XBlock}(\text{XBlock}(S_{1},V),V), \quad (2)S1​XBlock(S0​,Q),S2​XBlock(XBlock(S1​,V),V),(2)其中XBlock ( ⋅ , ⋅ ) \text{XBlock}(\cdot ,\cdot)XBlock(⋅,⋅)表示交叉注意力 Transformer 块。带有缩放门控的残差提示校准应用适配器风格的残差更新以稳定提示精炼。C 0 LN ( S 2 W P ) , ( 3 ) C_{0} \text{LN}(S_{2}W_{P}), \quad (3)C0​LN(S2​WP​),(3)C C 0 tanh ⁡ ( α ) ( w ⊙ Δ ) , w σ ( Δ ) , ( 4 ) C C_{0} \tanh (\alpha)\left(w\odot \Delta\right),\qquad w \sigma (\Delta), \quad (4)CC0​tanh(α)(w⊙Δ),wσ(Δ),(4)其中W P W_{P}WP​是线性投影Δ MLP ( C 0 ) \Delta \text{MLP}(C_{0})ΔMLP(C0​)σ ( ⋅ ) \sigma (\cdot)σ(⋅)是 sigmoid 函数。2.3 带有提示瓶颈的两阶段训练第一阶段提示瓶颈训练。强制执行瓶颈掩码使原始视觉标记V VV仅对提示标记C CC可见。LLM 输入序列为[ V ; Q ; C ; A ] [V; Q; C; A][V;Q;C;A]。注意力掩码定义为M bn ( i , j ) { − ∞ , i ∉ C ∧ j ∈ V , 0 , otherwise , ( 5 ) M_{\text{bn}}(i,j) \begin{cases} -\infty , i\notin C\wedge j\in V, \\ 0, \text{otherwise}, \end{cases} \quad (5)Mbn​(i,j){−∞,0,​i∈/C∧j∈V,otherwise,​(5)这阻断了非提示标记即Q QQ和A AA直接访问V VV迫使图像证据仅通过提示标记到达解码器。第二阶段全上下文精炼。保持相同的输入序列但移除瓶颈掩码使用标准因果注意力继续训练以减少硬约束引入的训练-测试不一致性。2.4 训练目标我们在答案位置上优化标准的下一标记交叉熵损失L − 1 ∣ Ω ∣ ∑ t ∈ Ω log ⁡ p ( y t ∣ X , y t ) , ( 6 ) \mathcal{L} -\frac{1}{|\Omega|}\sum_{t\in \Omega}\log p(y_{t}\mid X,y_{ t}), \quad (6)L−∣Ω∣1​t∈Ω∑​logp(yt​∣X,yt​),(6)其中Ω \OmegaΩ表示答案标记索引的集合。图 2. Lingshu-7B 和 Qwen3-VL-4B 在 SLAKE 数据集上的定性对比。可视化了零样本推理、LoRA 微调和集成 InViC 架构后的模型预测。蓝色突出显示正确预测红色表示错误预测。3 实验与结果3.1 数据集与评估指标我们在三个公开基准上评估 InViCVQA-RAD放射学相关、SLAKE涵盖 CT、MRI、X射线等多模态且包含中英双语和ImageCLEF VQA-Med 2019开放式医疗 VQA。评估指标包括准确率封闭式问题使用精确匹配开放式问题使用 GPT-4o-mini 作为评判者以及文本重叠指标Recall 和 BLEU。3.2 实现细节设置K 16 K 16K16个提示标记LoRA 秩r 8 r 8r8。在 8 张 NVIDIA GeForce RTX 4090 GPU 上进行训练。第一阶段训练 CTE 模块 2 个 epoch第二阶段联合训练 CTE 和 LoRA 适配器 3 个 epoch。3.3 结果与代表性 MLLMs 对比如表 1此处略参考原文描述所示InViC 一致提高了精度。例如在 Qwen3-VL-4B 上InViC 将 SLAKE 的准确率从 0.592零样本提高到 0.849并超过了 LoRA0.826。消融实验如表 2 所示第一阶段的瓶颈训练显著提高了性能从 0.609 提高到 0.799。使用 CTE 模块生成的提示标记优于简单的可学习标记0.849 vs 0.799。表 2. Qwen3-VL-4B 在 SLAKE 上的消融结果。左不同训练方案下可学习标记与提示标记的对比 (K 16 K16K16)。右提示标记数量K KK的影响。指标可学习标记 (II)可学习标记 (III)提示标记 (II)提示标记 (III)K4K8准确率0.6090.7990.7700.8490.7850.832召回率0.4480.7450.6990.8320.7330.809BLEU0.4490.7470.7010.8350.7350.8114 结论我们提出了 InViC这是一种用于 Med-VQA 的意图感知视觉提示接口。通过将密集视觉标记蒸馏为紧凑的问题引导提示标记并引入两阶段瓶颈训练策略有效地缓解了捷径回答问题。在三个基准测试和多个 MLLM 主干上的实验证明了其有效性。未来工作将扩展到更多临床数据集并探索更具解释性的提示设计。Original Abstract:Medical visual question answering (Med-VQA) aims to answer clinically relevant questions grounded in medical images. However, existing multimodal large language models (MLLMs) often exhibit shortcut answering, producing plausible responses by exploiting language priors or dataset biases while insufficiently attending to visual evidence. This behavior undermines clinical reliability, especially when subtle imaging findings are decisive. We propose a lightweight plug-in framework, termed Intent-aware Visual Cues (InViC), to explicitly enhance image-based answer generation in medical VQA. InViC introduces a Cue Tokens Extraction (CTE) module that distills dense visual tokens into a compact set of K question-conditioned cue tokens, which serve as structured visual intermediaries injected into the LLM decoder to promote intent-aligned visual evidence. To discourage bypassing of visual information, we further design a two-stage fine-tuning strategy with a cue-bottleneck attention mask. In Stage I, we employ an attention mask to block the LLM’s direct view of raw visual features, thereby funneling all visual evidence through the cue pathway. In Stage II, standard causal attention is restored to train the LLM to jointly exploit the visual and cue tokens. We evaluate InViC on three public Med-VQA benchmarks (VQA-RAD, SLAKE, and ImageCLEF VQA-Med 2019) across multiple representative MLLMs. InViC consistently improves over zero-shot inference and standard LoRA fine-tuning, demonstrating that intent-aware visual cues with bottlenecked training is a practical and effective strategy for improving trustworthy Med-VQA.PDF Link:2603.16372v1部分平台可能图片显示异常请以我的博客内容为准