DeepVulHunter：面向 LLM 的多轮分析漏洞检测增强框架

张

张建站

2026/5/6 21:10:52

10分钟阅读

“代码漏洞检测作为一项高度专业且需要准确逻辑推断的任务大语言模型LLM的判断容易受到代码长度、上下文噪声、推理幻觉等因素影响。为此研究团队提出DeepVulHunter一种基于多轮推理、相似代码检索和验证机制的漏洞检测框架通过将 LLM 的推理引导为循证分析显著提升漏洞检测的准确率与稳定性。”论文标题A transformer-based framework for software vulnerability detection using attention-driven convolutional neural networks发表时间2025Journal of Intelligent Information Systems作者单位四川大学01—方法介绍DeepVulHunter 由五个阶段构成通过“示例学习→推理解耦→结果验证”逐步减少 LLM 的推理偏差。① 漏洞知识库构建基于Big-Vul 构建包含源代码、CVE 信息、补丁、描述的结构化数据库。② 相似代码检索利用CodeT5P进行语义嵌入通过 Faiss 检索最相似的两个漏洞相关代码片段。③ 相似代码分析第一轮LLM 对所检索样例分析漏洞成因、触发条件与修复方式。④ 目标代码分析第二轮在相似样例及其分析结果的辅助下LLM 对目标代码进行漏洞判断。⑤ 结果验证第三轮对初判“无漏洞”的样本再进行独立验证有效减少漏报图 1. DeepVulHunter 多轮分析框架小结DeepVulHunter 通过“检索推理验证”的方式为 LLM 建立了一个更稳定、可靠的漏洞检测全过程显著降低误判与漏判。02—关键机制基于示例的外部知识注入通过相似代码检索让 LLM 具备“类比推理”能力。三轮推理结构将分析拆解成“学习—判断—复核”的流程。代码长度偏差发现论文指出 LLM 更倾向将长代码误判为漏洞代码并提出解决办法。与模型无关框架适用于 Llama、Deepseek 等不同 LLM。模块实现方式主要作用漏洞知识库整合 Big-Vul 代码、漏洞标签、CVE 信息、补丁内容提供检索与推理所需的基础知识相似代码检索CodeT5P Embedding Faiss 最近邻召回提供与目标代码最接近的漏洞模式相似代码分析Round 1LLM 分析漏洞类别、触发路径、补丁原理形成可供推理的“示例知识”目标代码分析Round 2在样例分析基础上进行推理减少幻觉提高判断准确度独立验证Round 3再次分析初判为“无漏洞”的样本降低漏报提升稳健性小结多轮推理机制让 LLM 从“一次性判断者”进化为“循证分析者”降低不确定性带来的错误。03—实验结果研究团队在真实的 1,937 条漏洞样本上评估了不同模型的表现包含Llama-3.1-8B / 70B / 405B以及 Deepseek-V3、Deepseek-R1。最高准确率达到了 75.3%Llama 405B相比当前方法显著提升。模型AccuracyVul_F1NoVul_F1LLMVD(no CoT)0.5250.6820.065LLMVD(CoT)0.7410.7970.640VulACLLM0.5200.0000.690Llama-70B0.6080.7000.435Llama-405B75.30.7660.689Deepseek-V30.7040.7250.679小结DeepVulHunter在不同模型上均带来了不同幅度的提升且论文中给出的最优实验配置Llama-405B R3达到了 75.3% 的检测准确率显著优于仅使用单轮 LLM 判断的基线方法。总结DeepVulHunter 展示了利用外部知识多轮推理强化 LLM 漏洞检测能力的新范式。该框架无需修改模型结构即可应用于不同规模的 LLM适合在企业级代码审计系统中落地。欢迎留言讨论你认为未来漏洞检测的关键在于更大的模型能力还是更精细的推理框架多轮分析是否会成为 LLM 在安全领域的主流趋势点赞收藏分享你的支持是我们持续解析高水平软件安全论文的最大动力

AUTOSAR存储栈排错指南：NvM_GetErrorStatus返回值全解析与故障恢复实战

AUTOSAR存储栈排错指南：NvM_GetErrorStatus返回值全解析与故障恢复实战当ECU的非易失性存储系统出现读写异常时，NvM模块的状态反馈机制成为诊断的第一道防线。作为AUTOSAR架构中存储栈的核心控制器，NvM_GetErrorStatus返回的每个错误码都像是…...

2026/5/6 21:09:13 阅读更多 →

在企业知识库项目中利用多模型能力进行内容理解与生成

在企业知识库项目中利用多模型能力进行内容理解与生成 1. 企业知识库的典型 AI 需求构建企业级知识库时，通常需要处理大量非结构化文档数据。这些文档可能包括技术手册、会议纪要、产品说明书等多种类型。传统的关键词检索已无法满足复杂查询需求，而 …...

2026/5/6 21:01:38 阅读更多 →

从奶茶浓度到水质检测：朗伯比尔定律在生活与工业中的5个硬核应用实例

从奶茶浓度到水质检测：朗伯比尔定律在生活与工业中的5个硬核应用实例走进便利店拿起一瓶果汁时，包装上标注的"糖度12%"并非来自人工品尝，而是光学传感器对透光率的精确计算。这种看似简单的数字背后，隐藏着一个统治光学…...

2026/5/6 21:01:36 阅读更多 →

环境配置与基础教程：2026自动化标注黑科技：使用 Segment Anything (SAM) 零样本辅助标注 YOLO 分割与检测数据集

编者按在计算机视觉项目中，数据标注一直是最让人头疼的环节。根据社区普遍反馈（源自多个CSDN项目经验和公开技术报告），传统人工标注一张包含精细多边形掩码的图像需要3到10分钟，而一个完整的实例分割数据集往往需要上千张图片。如果你曾经带领团队连续加班数周只为了完成…...

2026/5/5 4:30:13 阅读更多 →

如何3步完成TikTok评论数据采集：开源工具的高效实战指南

如何3步完成TikTok评论数据采集：开源工具的高效实战指南【免费下载链接】TikTokCommentScraper 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokCommentScraper TikTokCommentScraper是一个专为抖音内容创作者、市场分析师和社区运营者设计的开源数据…...

2026/5/5 4:28:39 阅读更多 →