KG与LLM:大模型时代的智能规划
这些文章给出的“推荐思路”可以浓缩成一句话先用 Planner 产出 subgoal dependency acceptance criteria。再让 Router 判断每个子任务该走 向量RAG、KG、数据库还是工具。对需要关系、多跳、时序、因果的问题用 KG / event graph 做结构化检索而不是只做 chunk similarity。执行后必须有独立 Verifier失败时做 localized repair不要整条链重跑。长任务加 memory把约束、证据、失败模式、已完成状态显式保存。如果你现在要落地我最推荐的架构单 Planner输出任务 DAG 和每步验收条件。RAG Router简单事实走文本检索复杂关系走 KG计算/执行走工具。Graph Memory至少保留 entity-event 或 entity-relation 图不一定一开始就上重型知识图谱。Verifier每步检查格式、事实覆盖、约束满足和跨 agent 交接。Repair Loop只重做失败子任务不全局重规划。推理方式LLM可以利用自然语言指令利用海量常识知识生成类人的推理过程。1.思维链Chain-of-Thought, CoT核心思想引导大模型显式输出中间推理步骤而不是直接给出答案最简单实现在提示词中加入 让我们一步步思考2.思维树Tree-of-Thought, ToTNeurIPS 2023核心思想将单一的推理链扩展为树状结构在每个步骤生成多个候选思路通过评估和剪枝选择最优路径四大关键环节思维拆解将问题分解为多个中间推理步骤候选生成在每个步骤生成多个可能的思维状态评估评估每个思维的可行性和前景搜索剪枝保留有希望的分支剪枝无希望的分支https://arxiv.org/abs/2305.106013.思维图Graph-of-Thought, GoT核心思想将推理结构从树进一步扩展为图支持思维的合并、循环和跳转https://arxiv.org/abs/2308.096874.Plan-and-Solve 方法ACL 2023核心思想将任务分为两个独立阶段规划阶段一次性生成完整的任务计划包括所有步骤和依赖关系执行阶段按照计划逐步执行每步验证结果https://arxiv.org/abs/2305.040915.ReAct方法ICLR 2023边想边做时用https://arxiv.org/abs/2210.036296.图上的推理忠实且可解释的大语言模型推理Reasoning on Graphs (RoG)ICLR 2024知识图谱KGs以结构化格式捕捉大量事实为推理提供了可靠的知识来源。然而现有的基于KG的LLM推理方法仅将KG视为事实知识库忽视了其结构信息在推理中的重要性。在本文中我们提出了一种新方法称为图上推理RoG它将LLMs与KGs协同作用以实现忠实且可解释的推理。具体而言我们提出了一个规划-检索-推理框架其中RoG首先生成由KGs支撑的关系路径作为忠实的计划。这些计划随后用于从KGs检索有效的推理路径以便LLMs进行忠实的推理。此外RoG不仅通过训练从KGs中提炼知识以提高LLMs的推理能力还允许在推理过程中与任何任意的LLMs无缝集成。在两个基准KGQA数据集上的广泛实验表明RoG在KG推理任务上达到了最先进的性能并生成了忠实且可解释的推理结果。https://aclanthology.org/2023.acl-long.557/7.StructGPTEMNLP 2023大语言模型的能力边界能否扩宽到结构化数据通过利用和理解结构化知识完成用户需求我们的答案是Yes本文首次提出了一套统一通用的推理框架「StructGPT」以支持大语言模型在结构化数据上进行推理。https://arxiv.org/abs/2305.096458.RAP论文的框架通过重新利用LLM同时充当世界模型和推理agent使LLM能够模拟世界状态并预测行动结果并通过蒙特卡罗树搜索在探索和利用之间实现有效平衡。https://arxiv.org/abs/2305.149929.LATSICML 2024Language Agent Tree SearchLATS是一个综合了LLM在规划、执行和推理方面的能力的通用框架利用了LLM的潜在优势以提高决策能力并通过外部反馈的环境实现更加深思熟虑和适应性强的问题解决机制。【方法】LATS借鉴了模型驱动强化学习中的蒙特卡洛树搜索方法将LLM用作agent价值函数和优化器。https://openreview.net/forum?idnjwv9BsGHF10.MindMapACL 2024我们提出了一种名为 MindMap 的新型提示管道它利用知识图谱 KG 来增强LLMs的推理和透明度。我们的方法使LLMs能够理解 KG 输入并结合隐性和外部知识进行推断。https://aclanthology.org/2024.acl-long.558/RAG1.GraphRAGRAG由于存在相似度阈值一次检索时一般很难把三条文档全部都找到所以大模型无法把这些信息都串起来最终依旧会胡说八道。GraphRAG 诞生了它将知识图谱引入 RAG 流程把知识表示成“节点 边”的形式把不同文档中的实体及其关系连接起来。在查询时不仅会查询出相似度最高的文档还会基于知识图谱查询出与其关联的文档因此大模型就能够拥有更加完整的上下文来回答问题。先进行文本切分实体与关系提取构建图社区检测与报告生成再进行检索局部检索全局检索https://www.microsoft.com/en-us/research/publication/from-local-to-global-a-graph-rag-approach-to-query-focused-summarization/2.Self-RAGSelf-RAG的诞生就是为了解决这个核心矛盾让模型自己判断什么时候需要查资料什么时候不需要。https://arxiv.org/abs/2310.115113.Retrieve-Plan-GenerationEMNLP 2024尽管大型语言模型LLMs在各种任务中取得了显著进步但由于内部知识有限它们常常产生事实错误。检索增强生成RAG通过外部知识源增强大型语言模型提供了一个有前景的解决方案。然而这些方法可能被检索文件中无关段落误导。由于LLM生成本身存在不确定性输入整个文档可能会引入非主题信息导致模型偏离中心主题影响生成内容的相关性。为解决这些问题我们提出了检索-计划-生成RPG框架。https://aclanthology.org/2024.emnlp-main.270/4.DeepSieveFindings of EACL 2026DeepSieve是一个检索增强生成RAG框架其设计旨在解决传统RAG模型难以应对的三大挑战处理结构完全不同异构的知识源如SQL表、JSON日志和维基百科、需要多步骤推理的复杂组合式问题以及处理无法合并的隐私感知数据源。为了应对这些挑战DeepSieve引入了一套新颖的“信息筛选”流水线。该流程首先将一个复杂问题分解为多个具体的子问题然后利用大语言模型LLM作为一个智能“知识路由器”为每个子问题匹配最合适的工具和知识库组合进行查询如果某次检索失败系统会启动反思机制并进行重试最后它将所有检索到的零散答案融合生成一个全面的最终回复。这个框架的所有核心组件都是模块化的允许用户根据具体需求开启或关闭提供了高度的灵活性。https://aclanthology.org/2026.findings-eacl.160/5.DAVISFindings of EMNLP 2025与传统的检索增强生成RAG方法不同DAVIS结合了结构化和时间记忆支持基于模型的规划。此外DAVIS实现了一个智能的多回合检索系统类似于人类的内心独白允许对过去经历进行更强的推理。https://aclanthology.org/2025.findings-emnlp.895/Agent1. Verification-Aware Planning for Multi-Agent Systems EACL 2026大型语言模型LLM代理越来越多地被用于处理复杂任务通常需要多个专业代理之间的协作。然而多智能体协作在规划、协调和验证方面带来了新的挑战。执行失败往往不仅仅源于推理错误还源于任务解释、输出格式或代理间切换的细微错位。为3https://aclanthology.org/2026.eacl-long.353/2.PlanGENEMNLP 2025由于验证生成计划或推理的局限性以及单一任务中实例复杂度的不同最新的代理框架和推理算法常常面临自然规划问题的困难。许多现有的这些任务方法要么在不考虑约束的情况下进行任务级验证要么应用推理时间算法而不适应实例级复杂性。为解决这些局限性我们提出了PlanGEN一个模型无关且易于扩展的代理框架包含三个关键组成部分约束、验证和选择代理。具体来说我们的方法提出了约束引导迭代验证以提升推理时间算法——最佳N、思维树和REBASE等算法的性能。https://aclanthology.org/2025.emnlp-main.1042/3.LRPLANFindings of EMNLP 2025把 LLM 和更擅长约束推理的模型/agent 组合起来。我们的目标是构建基于语言模型的多智能体系统用于涉及多个显式和隐性约束的复杂规划问题其中一些可能是常识。初步研究显示大型语言模型LLMs往往无法在规划过程中保持一致性而大型推理模型LRM则难以处理隐含的常识约束。为此我们引入了LRPlan一种新型的领域无关、基于语言的多智能体架构LLM和基于LRM的智能体在训练时协作抽象重要的模式、启发式和领域的洞察。在测试阶段他们协作实现这些学习到的模式和洞见用于新的规划实例。我们在两个数据集TravelPlanner和TimeArena-Static上进行实验并使用来自GPT和DeepSeek家族的两种LLM-LRM组合。我们发现LRPlan优于多种多代理和单代理基线获得了显著更高的准确性和成本效益。我们将代码公开。https://aclanthology.org/2025.findings-emnlp.440/4. SYMPHONYNeurIPS 2025 不同 agent 负责不同搜索分支或不同推理风格。近年来越来越多的进展聚焦于利用大型语言模型LLMs构建用于复杂问题解决任务的自主智能体。然而现有方法主要采用单智能体框架来生成搜索分支并在蒙特卡洛树搜索MCTS规划过程中估算奖励。这种单代理范式本质上限制了探索能力常导致生成分支之间多样性不足规划性能不理想。为克服这些限制我们提出了与异构语言模型组装的协同多代理规划SYMPHONY这是一种新型多代理规划框架集成了基于异构语言模型的代理池。通过利用不同代理间的多样推理模式SYMPHONY增强了推广的多样性促进了更有效的探索。多项基准测试任务的实证结果表明即使SYMPHONY与可部署于消费级硬件上的开源LLM实例化也能实现强劲性能。通过API访问云端LLM增强后SYMPHONY进一步提升超越现有最先进的基线凸显异构多智能体协调在规划任务中的有效性。https://arxiv.org/abs/2601.226235.EvoMem长程任务里把约束、失败经验、时序状态显式存起来。规划一直是人工智能解决复杂问题的基石基于LLM的多智能体框架的最新进展开始扩展这一能力。然而类人记忆在这些框架中的作用仍大多未被充分探讨。理解智能体如何通过记忆协调对自然语言规划至关重要迭代推理、约束跟踪和纠错是成功的关键。受认知心理学工作记忆模型启发我们提出了EvoMem这是一个基于双重进化记忆机制的多智能体框架。该框架由三个代理约束提取器、验证器和演员和两个内存模块组成约束内存CMem通过在查询中固定存储任务特定的规则和约束来演进;以及查询反馈内存QMem通过在迭代中累积反馈以优化解决方案。两个内存模块在每次查询会话结束时都会重置。关于行程规划、会议规划和日程安排的评估显示了持续的性能提升凸显了EvoMem的有效性。这一成功凸显了记忆在增强多智能体规划中的重要性。https://arxiv.org/abs/2511.019126.CausalPlan长程任务里把约束、失败经验、时序状态显式存起来。大型语言模型LLM代理——尤其是较小的开源模型——由于依赖表层关联而非扎实的因果推理在协作任务中常常产生因果无效或不连贯的行为。这一限制削弱了他们在动态环境中的协调和规划表现。我们通过CausalPlan解决了这一挑战这是一个两阶段框架将显式结构性因果推理整合进LLM规划过程。CausalPlan的核心是结构性因果行为SCA模型该模型从代理轨迹中学习因果图以捕捉先前行动和当前环境状态如何影响未来决策。该结构随后通过为LLM生成的提案分配因果分数、相应权重或在需要时回归因果基础的替代方案来指导行动选择。通过将因果知识直接嵌入决策循环CausalPlan将规划限制为干预一致的行为而无需对LLM本身进行微调。我们在 Overcooked-AI 基准测试中评估了 CausalPlan涵盖五个多智能体协调任务和四个不同规模的大型语言模型Gemma-7B、Llama-8B、Qwen-14B 和 Llama-70B。实验结果显示CausalPlan在AI-AI和人-AI环境中持续减少无效行为并提升协作能力优于强强化学习基线。我们的发现凸显了因果驱动规划在部署高效、可解释且可推广的多智能体LLM系统中的价值。https://arxiv.org/abs/2508.13721RAG与KG结合1. Knowledge Graph-Guided Retrieval Augmented GenerationNAACL 2025KG 不再只是附属索引而是参与 chunk 扩展、组织、时序/因果约束。检索增强生成RAG已成为解决大型语言模型LLMs反应中幻觉问题的有前景技术。现有关于RAG的研究主要聚焦于应用语义方法检索孤立的相关片段这些片段忽略了其内在关系。本文提出了一种新的知识图谱引导增强生成KG2利用知识图KG提供块之间的事实层级关系提升检索结果的多样性和连贯性。具体来说在进行语义检索以提供种子块后KG2RAG采用KG引导的块扩展过程和基于KG的块组织过程以结构良好的段落传递相关且重要的知识。对HotpotQA数据集及其变体进行的广泛实验展示了HotpotQA的优势2在响应质量和检索质量方面RAG与现有基于RAG的方法相比。https://aclanthology.org/2025.naacl-long.449/2.FRAGFindings of ACL 2025为了缓解大型语言模型LLM中的幻觉和知识缺失基于知识图谱KG的检索增强生成RAG通过利用知识图谱作为外部资源来增强LLM推理展现出有前景的潜力。然而现有的KG-RAG方法在灵活性与检索质量之间存在权衡。模块化方法通过避免在检索过程中使用KG微调模型来优先考虑灵活性导致固定检索策略和次优检索质量。相反耦合方法在模型中嵌入 KG 信息以提升检索质量但代价是灵活性。本文提出了一种新型灵活模块化的KG-RAG框架称为FRAG结合了两种方法的优势。FRAG仅基于查询估计推理路径的跳跃范围并将其分为简单或复杂。为匹配查询的复杂性采用定制化的流程确保推理路径检索高效且准确从而促进最终推理过程。通过使用查询文本而非 KG 推断推理路径的结构信息并采用可适应的检索策略FRAG 提高了检索质量同时保持了灵活性。此外FRAG无需额外的LLM微调或调用显著提升效率并节省资源。大量实验表明FRAG实现了最先进的性能同时高效且资源消耗低。我们方法的代码公开于 https://github.com/gzy02/FRAG。https://aclanthology.org/2025.findings-acl.321/3.Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graph for Retrieval-Augmented GenerationEACL 2026基于大型语言模型的检索增强生成RAG在具有固有时间结构的叙述文档中常常表现不佳。标准的非结构化RAG方法仅依赖嵌入相似性匹配缺乏编码或利用时间顺序信息的通用机制而知识图谱RAGKG-RAG框架则将每个实体提及压缩到单一节点抹去驱动众多查询的不断演变的上下文。为了形式化这一挑战并引起社区关注我们构建了ChronoQA一个稳健且具有判别性的QA基准衡量RAG框架下叙事文档如小说中时间、因果和人物一致性的理解。然后我们引入实体-事件RAGE2RAG是一种双图框架通过二分映射将独立的实体和事件子图连接起来从而保留了细粒度推理所需的时间和因果方面。在ChronoQA中我们的方法优于最先进的非结构化和基于KG的RAG基线在因果和字符一致性查询方面取得了显著提升。E2因此RAG为需要基于时间顺序信息的精确答案的任务提供了一条更具上下文感知性的实用路径。