一个从零实现的 CUDA 大模型推理引擎

张

张建站

2026/5/20 17:20:40

10分钟阅读

我写了一个从零实现的 CUDA 大模型推理引擎最近我在做一个比较硬核的小项目用 C / CUDA 从零实现一个大模型推理引擎。项目地址https://github.com/luogantt/LLM-inference-engine这个项目当前主要面向 DeepSeek-R1-Distill-Qwen-7B 的单 batch 推理。它不是在 PyTorch、Transformers、vLLM 或 llama.cpp 上套一层接口而是尽量把推理核心路径自己写出来直接用 CUDA 实现模型 forward 和 decode。为什么做这个项目现在大模型推理框架已经很多vLLM、TensorRT-LLM、llama.cpp 都非常成熟。但如果想真正理解一个大模型在 GPU 上是怎么跑起来的只会调用框架还不够。我想做的是一个可以拆开看的推理引擎权重怎么加载RMSNorm 怎么算RoPE 怎么处理GQA Attention 怎么做KV Cache 怎么管理MLP / SwiGLU 怎么执行decode 每一步的耗时在哪里CUDA kernel 怎么一步一步优化这个项目就是围绕这些问题写出来的。项目特点不依赖 PyTorch、Transformers、vLLM、llama.cpp使用 C / CUDA 实现核心推理路径手写 RMSNorm、RoPE、GQA Attention、SwiGLU、KV Cache、decode支持 HuggingFace safetensors 权重加载提供 Python tokenizer CUDA 动态库推理入口当前mma版本针对 A100 / A800 的单步 decode 做了多轮优化当前性能测试模型DeepSeek-R1-Distill-Qwen-7B当前记录max_seq800 max_new_tokens512 512 tokens 65.6845 tok/s max forward_ms 16.1768这个速度是在单 batch、单步 decode 场景下测到的。它不是靠 batching 堆总吞吐也不是 speculative decoding而是比较直接地看每一步 target model forward 的速度。如何运行make-fMakefile.cuda_lib libAsm_80CUDA_VISIBLE_DEVICES4python python_infer.py\--model/data3/ledi/models/DeepSeek-R1-Distill-Qwen-7B\--lib./build/libllm_cuda.so\--prompt你好 deepseek 介绍一下黑格尔的思想\--max-new-tokens512\--max-seq800后续方向目前这个项目已经完成了基础推理链路和多轮 CUDA 优化。后面如果继续往上冲主要会看几个方向CUDA Graph减少 decode 阶段的 kernel launch 开销重写 decode GEMV / MLP 路径更激进的 kernel fusion量化推理speculative decoding欢迎交流这个项目更偏研究和实验性质适合对 CUDA、大模型推理、底层性能优化感兴趣的人一起看、一起改、一起 benchmark。如果你也对从零写推理引擎感兴趣欢迎 star、fork 或交流https://github.com/luogantt/LLM-inference-engine

Taotoken在容灾与路由方面的能力如何保障服务连续性

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken在容灾与路由方面的能力如何保障服务连续性当线上业务的核心功能深度集成大模型能力时，API服务的稳定性直接关…...

2026/5/20 17:19:31 阅读更多 →

auditd：Linux 系统审计日志，记录谁动了你的服务器

auditd：Linux 系统审计日志，记录谁动了你的服务器服务器被入侵后，管理员面临的第一个问题往往不是"怎么修复"，而是"到底发生了什么"——攻击者登录了哪个账号？修改了哪些文件？执行了什…...

2026/5/20 17:18:48 阅读更多 →

企业AI算力工作站/深度学习推理工作站DLTM零代码私有化重塑智慧农业AI模型训练体系

在智慧农业加速普及的今天，AI大模型正成为驱动农业生产管理升级的核心引擎。但农业场景数据分散、技术门槛高、数据安全难保障等痛点，始终制约着AI技术从“示范试点”走向“规模化普及”。AI大模型训练工作站DLTM以零代码操作、私有化部署、训推一体三大…...

2026/5/20 17:15:23 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/19 12:48:20 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →