论文结构化摘要:GITA:面向视觉-语言图推理的图到视觉与文本集成1. 核心研究问题 (PICO/T)P (问题/群体):当前基于大型语言模型(LLM)的图推理方法仅使用文本描述来表示图结构,忽略了直观的视觉模态。现有的图神经网络(GNN)虽然擅长图推理,但泛化性、灵活性和用户友好性不足。因此,核心问题是:视觉信息能否以及如何被有效引入到通用的图推理任务中?I (干预/新方法):提出了一个端到端框架GITA (Graph to vIsual and Textual IntegrAtion),系统地将视觉信息融入基于指令的图推理。其创新在于:图可视化器 (Graph Visualizer):将结构化图渲染为自定义的视觉图像(称为“视觉图”)。图描述器 (Graph Describer):生成图结构的文本描述。任务化提问器 (Task-based Questioner):将任务需求和描述组织成提示指令。视觉-语言模型 (VLM) 推理器:接收视觉图和文本查询,执行视觉-语言图推理。此外,还提出了四种视觉图增强策略(布局、