“代码漏洞检测作为一项高度专业且需要准确逻辑推断的任务大语言模型LLM的判断容易受到代码长度、上下文噪声、推理幻觉等因素影响。为此研究团队提出DeepVulHunter一种基于多轮推理、相似代码检索和验证机制的漏洞检测框架通过将 LLM 的推理引导为循证分析显著提升漏洞检测的准确率与稳定性。”论文标题A transformer-based framework for software vulnerability detection using attention-driven convolutional neural networks发表时间2025Journal of Intelligent Information Systems作者单位四川大学01—方法介绍DeepVulHunter 由五个阶段构成通过“示例学习→推理解耦→结果验证”逐步减少 LLM 的推理偏差。① 漏洞知识库构建基于Big-Vul 构建包含源代码、CVE 信息、补丁、描述的结构化数据库。② 相似代码检索利用CodeT5P进行语义嵌入通过 Faiss 检索最相似的两个漏洞相关代码片段。③ 相似代码分析第一轮LLM 对所检索样例分析漏洞成因、触发条件与修复方式。④ 目标代码分析第二轮在相似样例及其分析结果的辅助下LLM 对目标代码进行漏洞判断。⑤ 结果验证第三轮对初判“无漏洞”的样本再进行独立验证有效减少漏报图 1. DeepVulHunter 多轮分析框架小结DeepVulHunter 通过“检索 推理 验证”的方式为 LLM 建立了一个更稳定、可靠的漏洞检测全过程显著降低误判与漏判。02—关键机制基于示例的外部知识注入通过相似代码检索让 LLM 具备“类比推理”能力。三轮推理结构将分析拆解成“学习—判断—复核”的流程。代码长度偏差发现论文指出 LLM 更倾向将长代码误判为漏洞代码并提出解决办法。与模型无关框架适用于 Llama、Deepseek 等不同 LLM。模块实现方式主要作用漏洞知识库整合 Big-Vul 代码、漏洞标签、CVE 信息、补丁内容提供检索与推理所需的基础知识相似代码检索CodeT5P Embedding Faiss 最近邻召回提供与目标代码最接近的漏洞模式相似代码分析Round 1LLM 分析漏洞类别、触发路径、补丁原理形成可供推理的“示例知识”目标代码分析Round 2在样例分析基础上进行推理减少幻觉提高判断准确度独立验证Round 3再次分析初判为“无漏洞”的样本降低漏报提升稳健性小结 多轮推理机制让 LLM 从“一次性判断者”进化为“循证分析者”降低不确定性带来的错误。03—实验结果研究团队在真实的 1,937 条漏洞样本上评估了不同模型的表现包含Llama-3.1-8B / 70B / 405B以及 Deepseek-V3、Deepseek-R1。最高准确率达到了 75.3%Llama 405B相比当前方法显著提升。模型AccuracyVul_F1NoVul_F1LLMVD(no CoT)0.5250.6820.065LLMVD(CoT)0.7410.7970.640VulACLLM0.5200.0000.690Llama-70B0.6080.7000.435Llama-405B75.30.7660.689Deepseek-V30.7040.7250.679小结DeepVulHunter在不同模型上均带来了不同幅度的提升且论文中给出的最优实验配置Llama-405B R3达到了 75.3% 的检测准确率显著优于仅使用单轮 LLM 判断的基线方法。 总结DeepVulHunter 展示了利用外部知识 多轮推理强化 LLM 漏洞检测能力的新范式。该框架无需修改模型结构即可应用于不同规模的 LLM适合在企业级代码审计系统中落地。 欢迎留言讨论你认为未来漏洞检测的关键在于更大的模型能力还是更精细的推理框架多轮分析是否会成为 LLM 在安全领域的主流趋势 点赞 收藏 分享你的支持是我们持续解析高水平软件安全论文的最大动力