微软:构建自进化知识库实现测试时学习
标题Test-Time Learning with an Evolving Library来源arXiv, 2605.14477v1️文章简介研究问题如何在无需更新模型参数且缺乏外部监督信号的黑盒场景下让大语言模型在测试阶段跨任务积累并演化通用知识主要贡献论文提出了 EVOLIB 框架通过维护一个包含模块化技能和反思性见解的动态进化库利用信息增益机制实现知识的自监督积累与复用。重点思路构建双重抽象知识库从模型推理轨迹中自动提取两类知识单元一是可复用的模块化技能如代码函数、推理子步骤二是记录常见错误与修正策略的反思性见解。设计动态加权演化机制引入信息增益IG衡量知识对当前任务的即时效用并利用未来信息增益Future IG评估其生成有价值新知识的潜力据此动态调整库中条目的采样权重。实施知识合并与巩固利用嵌入相似度检索库中现有条目通过大模型将语义相似的新旧知识合并为更通用的抽象形式防止库膨胀并促进知识泛化。执行自监督闭环流程在无真实标签情况下利用模型自我评估解法质量基于评估结果提取新知识、更新权重并巩固库内容实现持续的测试时学习。分析总结EVOLIB 在数学推理、代码生成及多轮智能体任务等多个基准测试中性能显著优于现有的测试时缩放方法及依赖线性记忆更新的测试时学习方法。消融实验证明同时使用模块化技能和反思性见解比单一类型效果更好且跨任务共享知识库比分例独立建库能带来更大的性能提升。知识合并机制至关重要它不仅有效控制了知识库规模的增长还促使特定任务的具体经验演变为适用于多任务的通用抽象。该方法在持续学习设定下表现出极强的鲁棒性即使在任务顺序随机打乱的情况下仍能稳定积累知识克服了传统方法对课程学习顺序的依赖。个人观点论文突破了测试时学习依赖梯度更新或外部奖励的限制引入了“未来信息增益”概念。这使得系统不仅能利用现有知识解决问题还能主动筛选出具有长远演化潜力的知识单元。