香港科技大学联合多家机构打造AI记忆力测试场
这项由香港科技大学计算机科学与工程系主导、联合香港中文大学、OmniMemory深圳智能科技有限公司以及英伟达人工智能技术中心共同完成的研究于2026年5月14日以预印本形式发布在arXiv平台编号为arXiv:2605.14906v1。感兴趣的读者可通过该编号查阅完整论文。你有没有过这样的经历和某位朋友聊了一整晚第二天他却连你说过我不喜欢香菜这件事都忘了干净换成AI助手这个问题其实更严重。当你今天告诉AI你换了新工作明天问它我现在在哪里上班它还记得吗当你上周发给它一张照片问它照片里那家店的营业时间它能把图片和对话结合起来回答吗这篇论文要解决的正是这个困扰所有人工智能助手的核心难题——**长期多模态记忆能力**也就是AI如何在包含图片和文字的长期对话中真正记住并用好过去的信息。为了搞清楚现有AI到底有多健忘研究团队从零开始造了一套名为**MEMLENS**的专用考试系统。这套系统包含789道精心设计的题目覆盖五种不同的记忆能力并且在从32K到256K不同长度的对话背景下进行测试。研究团队最终评测了27个大型视觉语言模型也就是能同时理解图片和文字的AI和7个配备专门记忆模块的AI智能体得出了一系列颇为令人清醒的结论。一、为什么AI的记性是个大问题每一个人工智能助手在实际使用中都面临着一个根本性的挑战它处理的信息不是一次性送达的而是像流水一样一点点积累起来的。你今天问它一个问题明天再问另一个后天提起上周的对话——这些信息散布在一条越来越长的时间线上。更麻烦的是现代对话往往不只有文字还有图片、截图、收据、日历照片等视觉内容。AI助手必须把这些东西都装进脑袋里还要在需要的时候准确调取出来。目前业界应对这个挑战主要有两条路。第一条是长上下文方案直接把AI处理信息的窗口做得足够大让它能一口气把整个对话历史全部看完就像给人一个超大桌子把所有资料摊开来找。第二条是记忆增强智能体方案给AI配一个外部记忆库AI把重要信息压缩存进去需要的时候再检索出来就像给人配一个秘书平时整理归档有事才去翻卷宗。这两条路各有拥趸各自也有专门的研究论文和评测基准。然而研究团队发现现有的评测工具有一个共同的致命盲区没有一个基准能在同一套题目上同时公平地考查这两类系统更重要的是现有题目绝大多数都没有真正依赖视觉信息——换句话说即使完全忽略图片光靠文字也能答题。这就好比考察厨师却从来不让他们真正切菜只问食材名称自然测不出真实水平。MEMLENS就是为填补这个空缺而生的。它是第一个同时满足真正需要图片才能回答、覆盖多种记忆能力、控制对话长度、同台比较两类系统这四个条件的评测基准。二、MEMLENS是怎么造出来的造这套考试系统的工程量相当惊人团队为此设计了一条四阶段的流水线最终从约两万个候选题目中筛选出了789道通过人工审核的最终题目。整个系统的核心设计哲学是一个叫做跨模态依赖的原则每道题的答案都必须同时依赖图片和文字才能得出缺少任何一方都无法解答。为了验证这一点研究团队做了一个颇为直观的消融实验——把所有证据图片都移除只留文字让两个顶尖AIGPT-5.4和Gemini-3.1-Pro来作答。结果是灾难性的两个模型的准确率双双跌破2%。这有力地证明了MEMLENS的题目确实不能靠猜或靠纯文字推理来蒙混过关。具体来说建造这套系统分四步走。第一步是生成对话场景研究团队首先建立了一个覆盖约400个话题的层次化主题库涵盖从超市货架到周末徒步、从餐厅收据到健身日志等各种日常场景。对于每个话题系统会从网络上检索相关图片经过多重质量过滤后用GPT-5.1扮演用户、Gemini-3-Pro扮演助手生成一段包含图文交织的自然对话。第二步是制造藏宝题对于每道评测题团队会先生成一段包含具体命名实体比如金门大桥的背景段落然后把这个名字替换成一个指向图片的模糊指代词比如图片里那座桥。这样一来光看文字完全无法知道说的是哪座桥必须看图片才行。这个置换过程覆盖了55个实体类别配有约170种不同的替换短语确保语言多样性。第三步是把答案藏进对话里研究团队刻意不把关键证据直接摆在显眼的地方而是把它埋进一段自然的对话场景里用间接的方式提及。比如要嵌入上个月换了新工作这条信息对话里可能会从询问税务扣缴问题开始在闲聊中顺带提到职业变化——就像真实对话里人们说话的方式。第四步是拼装长对话把证据对话、干扰对话话题相关但与答案无关以及从ShareGPT和UltraChat两个真实用户对话数据集里抽取的填充对话按时间顺序混合拼装并通过调整干扰对话数量生成32K、64K、128K、256K四个标准长度的版本。为了确保AI无法靠检测对话风格来找到藏在其中的证据段落比如证据段落语气特别正式团队还专门训练了一个风格分辨器来做自测。结果这个分辨器的准确率只有57.92%几乎和随机猜测差不多——证明证据段落和干扰段落在文字风格上几乎无法区分。三、五种记忆能力从记住一件事到更新旧认知MEMLENS考察的五种记忆能力覆盖了一个AI助手在真实使用中可能面对的几乎所有记忆挑战每种能力背后都有精妙的设计逻辑。第一种叫**信息提取**占全部题目的31.2%是最基础的记忆考察AI能不能从过去的某次对话里找到一条具体信息这里分为两个子类型。实体子类型要求AI先从图片里认出是什么东西再从文字里找到相关信息——这是一个两步跳的过程既考视觉识别又考文字检索。比如图片里有一个体温计显示24度问题问的是那次检查时的温度读数是多少AI必须先认出图片是个体温计再读出数字。历史信息子类型则更直接你之前分享过一张照片问的是照片里的某个视觉细节。第二种叫**多会话推理**占18.1%是难度最高的类型。AI不只需要找到一条信息而是要把散布在三到八段不同对话里的信息全部收集起来然后综合计算。子类型包括计数你总共提过几只猫、算术所有购买记录加起来花了多少钱和实体解析之前提到的那只鸟和现在这只是同一只吗。这考察的是AI的大数据汇总能力而且每一条数据都可能藏在不同的图片或文字里。第三种叫**时间推理**占24.6%。时间信息在真实对话里出现的形式五花八门有的是文字里明确写的日期有的是对话系统自动打的时间戳还有的直接以视觉形式呈现——比如一张模拟时钟的照片或者日历截图。AI需要综合这些线索来比较两个时间段的长短或者确定某件事发生的具体日期。第四种叫**知识更新**占14.7%。在真实生活里人的喜好和信息会不断更新——今天说喜欢咖啡下个月说改喝茶了再下个月又换成了抹拿铁。每道知识更新题都包含四次连续的属性更新每次更新都由一张图片来锚定比如四张不同的饮料图片AI必须找到最新的那条而不是被早期版本带偏。这考察的是AI的信息时效性管理能力。第五种叫**答案拒绝**占11.4%。这类题目有点反其道而行之——它把所有证据信息都从对话里移除了让问题变得根本无法回答然后考察AI是否能识别出这个问题无法从现有对话中得出答案并拒绝作答而不是编造一个看起来合理的答案。这考察的是AI的自我校准能力即它知不知道自己不知道什么。四、27个AI和7个记忆智能体的大考研究团队把这27个视觉语言模型和7个记忆增强智能体全部拉上考场结果呈现出了一幅既有规律又充满意外的图景。在AI模型阵营里闭源的顶尖系统包括OpenAI的GPT-5.4、Anthropic的Claude Sonnet 4.5和谷歌的Gemini-3.1-Pro开源阵营则有Moonshot的Kimi-K2.5、阿里巴巴的Qwen3.5系列、智谱的GLM-4.6V、谷歌的Gemma3系列等共计27个模型。在最短的32K对话长度下排名前八的AI模型之间的总体准确率差距不超过6.34个百分点几乎是难以区分的状态。然而当对话长度拉长到128K局势就开始分化Gemini-3.1-Pro的准确率从54.10%只下滑到51.99%跌幅仅2.11个百分点成为衰退最小的模型而一些开源模型则跌去了超过13个百分点。从具体能力来看答案拒绝是最容易的类型顶尖模型在32K下能达到97.78%的准确率——但这个看似稳固的优势在长对话下急速崩塌GLM-4.6V的答案拒绝准确率从32K时的93.33%跌到128K时的30%跌幅超过60个百分点。时间推理排第二容易因为对话里的时间戳提供了天然的检索锚点。信息提取和知识更新位于中间难度段。多会话推理则是所有类型里最难攻克的堡垒即使是表现最好的Kimi-K2.5在32K下的准确率也只有44.06%只有Kimi-K2.5和Gemini-3.1-Pro能超过30%几乎所有系统都栽在了这道坎上。研究团队还发现了一个引人深思的现象没有任何一个模型能在所有五种记忆能力上同时表现优秀。GLM-4.6V在时间推理上拿下最高分却在知识更新上一塌糊涂Qwen3.5在知识更新上很强时间推理却反过来。Kimi-K2.5在32K下的多会话推理相对最强但优势随着对话变长而消失。Gemini-3.1-Pro是唯一在128K下同时在信息提取、知识更新和多会话推理三个维度都保持竞争力的模型。这一发现揭示出一个关键事实这五种记忆能力之间是相对独立的擅长一种不代表擅长其他必须分开评估而不能用一个总分来概括。五、记忆智能体稳是稳了但代价不小七个记忆增强智能体的表现走出了和AI模型完全不同的轨迹这里面有三类多模态智能体M3-Agent、M2A、M3C和四类纯文本智能体Mem0、MemOS、MemAgent-7B、Memory-T1。由于纯文本智能体本身不能处理图片研究团队按照标准做法用BLIP-2图片描述生成器把图片转成文字描述再输入。首先记忆智能体的确实现了长度稳定性。六个智能体中有六个在32K到256K的跨度内准确率波动不超过正负7个百分点——而AI模型在同样区间内往往要掉十几个百分点。这种稳定性来自于它们的工作方式把信息预先压缩存储检索时按需调取处理32K和256K的代价几乎相同。然而代价是沉重的。记忆智能体在几乎所有题目类型上都落后于直接使用完整对话的AI模型差距最大的地方恰恰是信息提取和知识更新——也就是最依赖原始图片细节的那些题目。原因很清晰无论是把图片转成文字描述还是把图片编码成向量存入数据库都是一种有损压缩。细节丢了数量关系丢了空间位置关系丢了到了需要回答图片里有几个颜色是什么右边那个写的什么之类的问题时一概答不出来。文本智能体Memory-T1在时间推理上展现了一个有趣的补偿策略它靠BM25关键词检索来匹配日期信息在时间推理题上表现出色准确率甚至超过了部分AI模型。但这种靠关键词匹配的方式一碰到需要看图片的信息提取题就完全失去作用了。研究团队还发现了一个令人担忧的副作用那些经过强化学习或LoRA微调来优化记忆管理能力的智能体包括M2A、M3-Agent、M3C、MemAgent-7B和Memory-T1在答案拒绝这道题上的表现极差准确率只有9%到22%。而保持底层模型冻结不动的Mem077.27%和MemOS68.18%则好得多。M2A的情况最能说明问题它用的底层模型是Qwen3-VL-8B这个模型在直接使用时的答案拒绝准确率是81.82%但套上M2A的记忆框架并经过训练后这个数字跌到了22.73%。原因是这些记忆智能体的训练目标集中在检索正确和回答正确上没有任何信号告诉它拒绝回答一个无法确认的问题也是正确的。训练把模型磨成了总想给出答案的状态这在面对没有证据支撑的问题时就变成了一个危险的缺陷。六、为什么多会话推理这么难一个关键实验揭示真相多会话推理几乎让所有被测系统集体碰壁于是研究团队做了一个开卷考试实验把每道多会话推理题所需的证据对话全部直接提供给AI不需要它在茫茫长对话里自己去找——相当于直接把答案页附近的段落递到手边只考能不能算出来。结果出乎意料地整齐GPT-5.4在这种条件下的多会话推理准确率达到了100%Gemini-3.1-Pro也达到了90.21%。换句话说这些AI模型完全有能力完成跨会话的汇总计算——计数、算术、实体匹配它们都做得来。问题根本不在于算不算得对而在于找不找得到。这个发现把多会话推理的失败归因从推理能力转移到了检索能力上在一段包含几十甚至上百段对话的长历史里模型无法可靠地把三到八段散布其中的证据对话全部识别并提取出来。一旦遗漏了其中一段整个计算结果就错了但这个错误会被记录为推理错误而实际上它的根源是检索失败。七、错误类型分析失败有迹可循研究团队对所有错误答案进行了系统性的分类分析把每一条错误答案标上七个标签之一定位到了证据但细节读错了定位失败、找到了数字但算错了计算失误、答案类型对但选错选项了闭集选择错误、找到了正确的信息但是旧版本过时检索、答案和正确答案毫无关联像是凭空编的无支撑答案、对无法回答的问题给出了实质性答案可答性失败、生成了一堆推理过程但没有给出明确答案非答案病理。在128K对话长度下对于信息提取和知识更新这两类题目将近90%的错误都属于定位失败——也就是模型根本没有找到证据图片或者找到后没有正确读取其中的视觉信息。一旦图片被成功定位答案通常是对的。时间推理的错误则在混合模式和推理错误之间各占一半反映的是时间信息来源多样文字日期、时间戳、图片时钟带来的复杂性。多会话推理的错误里有高达73%属于推理类但结合前述开卷考试实验我们知道这个推理错误的背后其实是检索失败——因为收集到的证据是错误或不完整的后续计算才跟着出错。从32K到128K的变化趋势也很明显随着对话变长无支撑答案这个类别的比例急剧上升而定位失败的比例在下降——这说明模型并非越来越保守而是越来越多地倾向于在没有找到证据的情况下编造答案。这种越来越自信地胡说的趋势比单纯的找不到更令人担忧。八、两类系统的互补缺陷与未来方向把所有发现放在一起两类系统的失败模式形成了一个近乎完美的对称结构它们各自在对方的强项上表现最差。直接使用长上下文的AI模型在短对话下依赖视觉信息直接定位准确率高但随着对话变长证据图片淹没在大量干扰内容里视觉信息越来越难找到准确率急剧下滑尤其是答案拒绝能力在长对话里几乎崩塌——越来越多的无支撑答案意味着模型在没有证据的情况下也开始脑补。记忆增强智能体在对话长度上几乎免疫但付出的代价是在存储阶段就损失了大量视觉细节在需要这些细节的题目上无能为力而且经过任务训练的智能体还损失了基础模型原本具备的拒绝回答能力。两条路线的失败轴是相互正交的AI模型输在了时间维度上对话越长越失忆记忆智能体输在了信息质量维度上压缩存储时丢失了精度。这意味着单独沿着任何一个方向继续推进——无论是把上下文窗口做得更大还是把记忆库做得更精细——都无法同时解决两个问题。研究团队认为未来真正有效的方案应该是混合架构把长上下文的直接视觉感知能力与结构化的多模态检索机制结合起来让系统在直接看和精准检索之间根据需要灵活切换。此外在评测过程中使用了基于大语言模型的自动评分系统主裁判是Qwen3-VL-235B并用GPT-5.4-mini进行了交叉验证。两者在800道题上的逐题一致性达到96.40%斯皮尔曼等级相关系数为0.97模型排名几乎完全吻合说明评分系统本身是可靠的。归根结底MEMLENS揭示的不是某个AI比另一个更聪明的问题而是整个领域在多模态长期记忆这一能力上距离真正可用还有多远的问题。最强的AI模型在最短的对话里也只有58.68%的总体准确率这意味着超过四成的问题都答不对——而这还是在题目经过精心设计、答案有据可查的情况下。当对话拉长到真实使用的规模或者证据信息散布得更分散结果只会更差。这份成绩单不是判决而是一张路线图告诉研究者和工程师下一步应该把力气用在哪里不是继续堆参数或扩大窗口而是真正解决视觉证据在检索和存储过程中的保真度问题。毕竟一个忘记你说过什么的助手无论多么博学都很难称之为一个好的助手。对这项研究感兴趣的读者可以通过arXiv编号2605.14906查阅完整论文也可以访问项目代码库github.com/xrenaf/MEMLENS获取评测工具和数据集。QAQ1MEMLENS基准测试包含哪些具体的记忆能力类型AMEMLENS覆盖五种记忆能力信息提取从单次对话中找出特定事实需结合图片识别、多会话推理汇总三到八段对话中的信息进行计算或计数、时间推理综合文字日期、系统时间戳和时钟日历图片判断事件时序、知识更新追踪用户属性经过四次更新后的最新状态、以及答案拒绝识别出证据缺失时应拒绝回答而非编造答案。这五种能力之间相关性较低擅长一种并不代表擅长其他类型。Q2记忆增强智能体在答案拒绝任务上为什么表现这么差A经过强化学习或LoRA微调来优化记忆管理的智能体如M2A、MemAgent-7B等在答案拒绝准确率上只有9%到22%远低于保持底层模型冻结的Mem077.27%。原因是这类训练只优化检索正确和回答正确没有给模型任何拒绝不可回答问题的训练信号导致模型被训练成了总想给出答案的状态在遇到无证据支撑的问题时反而会主动编造答案。Q3多会话推理为什么是MEMLENS中难度最高的任务A多会话推理要求AI把散布在三到八段不同对话里的证据全部找到并汇总计算这对检索能力要求极高。研究团队做的开卷实验证明当证据直接提供给模型时GPT-5.4能达到100%准确率说明模型完全有计算能力真正的瓶颈在于无法在数十乃至上百段长对话里可靠地识别并提取所有相关证据段落。一旦遗漏任何一段最终计算结果就会出错因此几乎所有被测系统都无法超过44%的准确率。