论文阅读：Retrieval-based objects and relations prompt for image captioning

张

张建站

2026/4/25 23:01:47

10分钟阅读

论文阅读：Retrieval-based objects and relations prompt for image captioning

Retrieval-based objects and relations prompt for image captioningRORPCap/基于检索的对象和关系提示图片说明相似图片的描述句子里隐含丰富语义此论文先把这些语义检索出来再抽取其中最关键的对象词和关系词作为 prompt 去引导语言模型生成描述。代码地址https://github.com/jinjinggu00/RORPCap创新点1. 用“检索到的关键词”替代“完整检索句子”不同于以往一些检索式图像描述方法会直接把检索到的整句文本作为辅助信息输入模型RORPCap 不直接吃整句而是只提取对象词和关系词把真正对图像描述有帮助的信息留下来2. 设计了 OREM 模块专门提取对象与关系此模块不只适用于本文模型。3. 用 Mamba 代替传统 Transformer 做映射网络在保证表示能力的同时提高序列建模效率进一步压缩训练时间。主要框架图1 RORPCap方法的整体示意图先检索相似文本并抽取对象词/关系词形成 prompt再把图像特征经过 CLIP 和 Mamba 映射成视觉-文本向量然后把这两部分拼成 prefix最后用 GPT-2 根据这个 prefix 生成图像描述。1.OREMObjects and relations extraction model图2 OREM结构图此检索模块并不是简单地“检索一下文本”而是做了更细的筛选先通过 CLIP 把图像和文本映射到共享空间检索 top-k 相似句子使用 NLTK 做词性标注只保留名词、动词、动名词、介词等更有用的词再结合高频词打分、对象词与图像相似度阈值、关系词频率等规则做二次筛选。补充NLTK 是一个 Python 的自然语言处理工具包简单说它是做文本处理时很常用的一个库能做这些事1.分词把一句话拆成一个个单词2.词性标注判断一个词是名词、动词、形容词等3.去停用词去掉 like、the、is 这类高频但信息量低的词4.词干提取 / 词形还原把不同形式的词归一5.句法分析、文本分类等基础 NLP 操作2.Mamba映射网络此模块主要作用是把“看见的内容”翻译成“语言模型能理解的前缀表示”,使用的经典Mamba模块在 RORPCap 中Mamba 映射网络用于将 CLIP 提取的图像嵌入映射为适配 GPT-2 的图像-文本编码对。其核心机制是针对序列中每个位置先通过线性投影生成输入相关的动态参数再将连续状态空间模型离散化随后通过递推公式融合历史状态与当前输入得到隐藏状态最后通过动态读出和残差项生成输出。该输出作为视觉分支的前缀表示与文本 prompt embedding 拼接后形成 prefix用于条件化 GPT-2 的自回归生成。本周内容将此片论文中的OREM模块加入了BLIP模型之中并得到了论文中的效果对象词比关系词更稳定、更容易进入生成文本进而又将原有变电站数据集采用此模型进行训练得到的相关结果展示如下但对齐方面还不太完善因为原始的图片无描述用大模型生成的描述格式上对不上后续还需改进。

Weka特征选择实战：提升机器学习模型性能的关键步骤

1. 项目概述在机器学习项目中，特征选择是一个至关重要的预处理步骤。使用Weka这一开源机器学习工具进行特征选择，能够帮助我们识别并保留数据集中最具预测性的特征，同时剔除无关或冗余的特征。这不仅能够提高模型的准确率，还能减少…...

2026/4/25 23:00:50 阅读更多 →

我的工作日常：带着销售团队重新过了一遍流程，立马见效

我今天去了一个附近县城的团队，做抖音本地生活的。去之前我心里其实已经有预期了，这个月大概率是完不成任务的。原因很简单，任务压得很重，但负责人是典型的业务型选手，擅长出镜、拍视频、带节奏，一上镜就有…...

2026/4/25 22:50:48 阅读更多 →

D2RML终极教程：暗黑2重制版一键多开神器，告别繁琐登录！

D2RML终极教程：暗黑2重制版一键多开神器，告别繁琐登录！ 【免费下载链接】D2RML Diablo 2 Resurrected Multilauncher 项目地址: https://gitcode.com/gh_mirrors/d2/D2RML 想要在《暗黑破坏神2：重制版》中同时操作多个角色…...

2026/4/25 22:49:49 阅读更多 →