SGLang 在 ROCm 上的深度调优，把 batch 推理延迟砍半的 3 个参数

张

张建站

2026/5/22 9:05:09

10分钟阅读

SGLang 在 ROCm 上的深度调优，把 batch 推理延迟砍半的 3 个参数

先跑个 baseline210 ms 的“出厂”成绩周五晚上我把 SGLang 0.1.4 塞进 AMD Instinct MI250 的 Docker 镜像里只改了三行 YAML# config.yamlmodel_id:meta-llama/Llama-2-7b-chat-hftensor_parallel_size:2dtype:float16然后用 wrk 灌 512 条长度 512 的 promptbatch32测得 P99 延迟210 ms。rocminfo 截图里GPU 利用率像心电图——峰值 92%谷底 34%内存碎片 27%。一句话能跑但远没吃饱。参数 1max_num_batched_tokens先让队列“吃饱”SGLang 的调度器默认max_num_batched_tokens4096在 7B 模型 512 长度场景下只能塞 8 条 prompt。调到16384一次就能吞 32 条GPU 立即从“间歇性打盹”变成“连轴转”。改法只需环境变量无需重编exportSGLANG_MAX_NUM_BATCHED_TOKENS16384日志里schedule_core.cc的Batching decision从batch_size8 → 32延迟直接掉到145 ms利用率拉到 78% 并稳住。rocminfo 截图内存占用从 27 GB → 29 GB碎片降到 18%。参数 2schedule 策略把“抢占”换成“连续批”SGLang 默认continuous_batchingfalse新请求必须等旧 batch 全部解码完。打开后解码阶段也能把新 prompt 插进来GPU 无空转。exportSGLANG_CONTINUOUS_BATCHINGtrueexportSGLANG_SCHEDULER_POLICYlpm# Longest Prefix Match重跑同一批流量延迟再降 25 ms120 ms。日志里insert_request与decode_step开始交错出现GPU-Util 在 85% 画一条直线。内存几乎不变碎片继续降到 12%。参数 3hipFFT 工作区缓存省掉 10 ms 的“Plan 时间”MI250 的 hipFFT 每次遇到新 seq_len 都会重新做 plan单卡 10 ms 起步。SGLang 在server/fft_utils.py里留了一个缓存钩子只是默认关着。把下面这行取消注释os.environ[HIPFFT_CACHE_SIZE]128# 最多缓存 128 种长度重新打镜像延迟再掉15 ms压到95 ms。rocminfo 里看不到明显内存上涨但rocproftraces 显示 FFT kernel 启动时间从 9.8 ms → 0.3 ms。碎片最终定格在 9%基本把“坑”填平。把三步串起来一条命令复现我把上面三板斧写进tune.sh一键跑完 baseline 三步优化顺带把 rocminfo、sglang.log 和 wrk 结果落盘#!/usr/bin/env bashset-eMODEL${1:-meta-llama/Llama-2-7b-chat-hf}BENCH_FILE${2:-prompts_512.jsonl}# 0. baselineecho baseline dockerrun--rm-it\--device/dev/kfd--device/dev/dri\-v$(pwd):/bench\sgmi:0.1.4\python-msglang.server--model$MODEL\21|teelog.baseline.txt# 1. 放大 batchecho max_num_batched_tokens16k dockerrun--rm-it\-eSGLANG_MAX_NUM_BATCHED_TOKENS16384\--device/dev/kfd--device/dev/dri\-v$(pwd):/bench\sgmi:0.1.4\python-msglang.server--model$MODEL\21|teelog.batch16k.txt# 2. 连续批 lpmecho continuous lpm dockerrun--rm-it\-eSGLANG_MAX_NUM_BATCHED_TOKENS16384\-eSGLANG_CONTINUOUS_BATCHINGtrue\-eSGLANG_SCHEDULER_POLICYlpm\--device/dev/kfd--device/dev/dri\-v$(pwd):/bench\sgmi:0.1.4\python-msglang.server--model$MODEL\21|teelog.continuous.txt# 3. hipFFT cacheecho hipFFT cache dockerbuild-tsgmi:fft -f-.EOF FROM sgmi:0.1.4 RUN sed -i s/^#os.environ/os.environ/ /sglang/server/fft_utils.py EOFdockerrun--rm-it\-eSGLANG_MAX_NUM_BATCHED_TOKENS16384\-eSGLANG_CONTINUOUS_BATCHINGtrue\-eSGLANG_SCHEDULER_POLICYlpm\-eHIPFFT_CACHE_SIZE128\--device/dev/kfd--device/dev/dri\-v$(pwd):/bench\sgmi:fft\python-msglang.server--model$MODEL\21|teelog.fft.txt# 4. 压测wrk-t4-c32-d60s-sbench.lua http://localhost:8000/generate\--latency|teelatency.txt跑完四组日志用grep P99 latency*.txt一眼就能看到 210 → 95 ms 的阶梯。把rocminfo --showtopo分别在四阶段快照拼成一张利用率对比图贴进内网 Wiki第二天就被同事拿去汇报。小结别急着写算子先把“开关”拧到位很多同学习惯性把 ROCm 调优等价于“手写 Triton kernel”其实框架层还有不少“免费午餐”。今天这三个环境变量零编译、零算子就把 MI250 的 batch 推理延迟砍了一半。下阶段再玩hiprtc也不迟——先把 SGLang 的日志读透比盲写 kernel 性价比高得多。立即加入 AI 开发者计划免费领取 100 小时算力添加微信小助手 csdn-01 还可额外领取「Openclaw 实战秘籍」

Midjourney拍立得风格失效预警：当--stylize值＞800时，胶片颗粒算法将触发不可逆失真（附修复补丁）

更多请点击： https://intelliparadigm.com 第一章：Midjourney拍立得风格失效的本质洞察当用户在 Midjourney 中反复使用 --style raw 或添加 Polaroid、 Instax、 instant film 等关键词却无法稳定生成具有真实拍立得质感的图像时，问题并…...

2026/5/22 9:04:20 阅读更多 →

ZIP文件怎么加密？3种方法可行

如果你想给ZIP文件设置密码保护，那就一定要安装解压缩软件，因为Windows自带的ZIP压缩，点右键选“发送到”→“压缩文件夹”——这个功能不支持加密。那么我们可以选择常用的软件来给ZIP文件加密，方法都很简单，下面分…...

2026/5/22 9:04:19 阅读更多 →

Sunshine游戏串流终极方案：打造你的私人云游戏服务器

Sunshine游戏串流终极方案：打造你的私人云游戏服务器【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一款强大的开源游戏串流服务器，专为Moonlig…...

2026/5/22 9:01:58 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/21 5:49:52 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/21 9:16:32 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/21 14:56:19 阅读更多 →