论文阅读:Retrieval-based objects and relations prompt for image captioning
Retrieval-based objects and relations prompt for image captioningRORPCap/基于检索的对象和关系提示图片说明相似图片的描述句子里隐含丰富语义此论文先把这些语义检索出来再抽取其中最关键的对象词和关系词作为 prompt 去引导语言模型生成描述。代码地址https://github.com/jinjinggu00/RORPCap创新点1. 用“检索到的关键词”替代“完整检索句子”不同于以往一些检索式图像描述方法会直接把检索到的整句文本作为辅助信息输入模型RORPCap 不直接吃整句而是只提取对象词和关系词把真正对图像描述有帮助的信息留下来2. 设计了 OREM 模块专门提取对象与关系此模块不只适用于本文模型。3. 用 Mamba 代替传统 Transformer 做映射网络在保证表示能力的同时提高序列建模效率进一步压缩训练时间。主要框架图1 RORPCap方法的整体示意图先检索相似文本并抽取对象词/关系词形成 prompt再把图像特征经过 CLIP 和 Mamba 映射成视觉-文本向量然后把这两部分拼成 prefix最后用 GPT-2 根据这个 prefix 生成图像描述。1.OREMObjects and relations extraction model图2 OREM结构图此检索模块并不是简单地“检索一下文本”而是做了更细的筛选先通过 CLIP 把图像和文本映射到共享空间检索 top-k 相似句子使用 NLTK 做词性标注只保留名词、动词、动名词、介词等更有用的词再结合高频词打分、对象词与图像相似度阈值、关系词频率等规则做二次筛选。补充NLTK 是一个 Python 的自然语言处理工具包简单说它是做文本处理时很常用的一个库能做这些事1.分词把一句话拆成一个个单词2.词性标注判断一个词是名词、动词、形容词等3.去停用词去掉 like、the、is 这类高频但信息量低的词4.词干提取 / 词形还原把不同形式的词归一5.句法分析、文本分类等基础 NLP 操作2.Mamba映射网络此模块主要作用是把“看见的内容”翻译成“语言模型能理解的前缀表示”,使用的经典Mamba模块在 RORPCap 中Mamba 映射网络用于将 CLIP 提取的图像嵌入映射为适配 GPT-2 的 图像-文本编码对。其核心机制是针对序列中每个位置先通过线性投影生成输入相关的动态参数再将连续状态空间模型离散化随后通过递推公式融合历史状态与当前输入得到隐藏状态最后通过动态读出和残差项生成输出。该输出作为视觉分支的前缀表示与文本 prompt embedding 拼接后形成 prefix用于条件化 GPT-2 的自回归生成。本周内容将此片论文中的OREM模块加入了BLIP模型之中并得到了论文中的效果对象词比关系词更稳定、更容易进入生成文本进而又将原有变电站数据集采用此模型进行训练得到的相关结果展示如下但对齐方面还不太完善因为原始的图片无描述用大模型生成的描述格式上对不上后续还需改进。