深入解析SGLang调度器：从源码看Cache-Aware与Cache-Agnostic策略的设计哲学

张

张建站

2026/5/14 19:23:12

10分钟阅读

深入解析SGLang调度器从源码看Cache-Aware与Cache-Agnostic策略的设计哲学在分布式系统与高性能计算领域调度算法的设计往往决定了整个系统的吞吐量与响应效率。SGLang作为新兴的编程语言运行时环境其调度器设计融合了两种截然不同的策略范式——Cache-Aware缓存感知与Cache-Agnostic缓存无关。这两种策略看似对立实则共同构成了一个动态自适应的调度体系。本文将带您深入源码层面剖析这两种策略背后的设计哲学与工程取舍。1. 调度策略的双重人格缓存感知与缓存无关调度器的核心使命是决定任务执行的优先级顺序。在SGLang的schedule_policy.py源码中我们看到了两种策略类型的明确划分class CacheAwarePolicy(Enum): Scheduling policies that are aware of the tree cache. LPM lpm # 最长前缀匹配 DFS_WEIGHT dfs-weight # 深度优先搜索加权 class CacheAgnosticPolicy(Enum): Scheduling policies that are not aware of the tree cache. FCFS fcfs # 先来先服务 LOF lof # 最长输出优先 RANDOM random # 随机调度这两种策略的根本区别在于是否考虑缓存状态策略类型依赖因素典型应用场景性能特征Cache-Aware缓存命中率、前缀匹配度高重复请求环境低延迟、高缓存命中Cache-Agnostic请求到达时间、输出长度多样化请求或高负载环境高吞吐、公平性提示实际系统中往往采用混合策略如SGLang在队列过长时会自动从LPM切换为FCFS这种动态调整体现了工程实践的智慧。2. 缓存感知策略的深度优化技术2.1 最长前缀匹配(LPM)的实现细节LPM策略的核心思想是优先调度与缓存内容匹配度最高的请求。在源码中这通过_sort_by_longest_prefix方法实现staticmethod def _sort_by_longest_prefix(waiting_queue: List[Req], temporary_deprioritized: Set[int]) - None: waiting_queue.sort( keylambda r: ( -len(r.prefix_indices) if r.rid not in temporary_deprioritized else float(inf) ) )关键优化点包括前缀索引缓存通过prefix_indices记录匹配的缓存位置临时降级机制对匹配度过低的请求进行降级处理Radix树加速使用waiting_queue_radix_tree实现快速前缀查询2.2 深度优先权重(DFS_WEIGHT)的递归计算DFS_WEIGHT策略通过递归计算节点权重来实现负载均衡staticmethod def _calc_weight(cur_node: TreeNode, node_to_weight: Dict[TreeNode, int]) - None: for child in cur_node.children.values(): SchedulePolicy._calc_weight(child, node_to_weight) node_to_weight[cur_node] node_to_weight[child]这种策略的优势在于避免热点节点过载保持缓存树的平衡性减少内存访问冲突3. 缓存无关策略的适用场景与实现3.1 先来先服务(FCFS)的兜底价值当系统处于高负载状态时SGLang会自动切换到FCFS策略def _determine_active_policy(self, waiting_queue: List[Req]) - Policy: if len(waiting_queue) 128 and self.policy CacheAwarePolicy.LPM: return CacheAgnosticPolicy.FCFS return self.policy这种设计体现了重要的工程权衡队列长度阈值128这个魔法数的选择需要基准测试支持计算复杂度前缀匹配在长队列中可能成为瓶颈公平性保障避免某些请求被长期饥饿3.2 最长输出优先(LOF)的吞吐量优化LOF策略通过优先处理大请求来提高系统吞吐staticmethod def _sort_by_longest_output(waiting_queue: List[Req]) - None: waiting_queue.sort(keylambda x: -x.sampling_params.max_new_tokens)这种策略特别适合批量生成任务流式输出场景后端处理能力过剩的情况4. 策略选择的动态适应机制SGLang的调度器不是静态的策略集合而是一个能根据系统状态动态调整的智能体系。在_validate_and_adjust_policy方法中我们可以看到这种自适应逻辑def _validate_and_adjust_policy(self, policy: str, tree_cache: BasePrefixCache) - Policy: try: policy_enum CacheAwarePolicy(policy) if tree_cache.disable: return CacheAgnosticPolicy.FCFS return policy_enum except ValueError: try: return CacheAgnosticPolicy(policy) except ValueError: raise ValueError(fUnknown schedule_policy: {policy})这种设计体现了几个精妙的工程考量缓存可用性检测当缓存被禁用时自动降级策略兼容性支持用户自定义策略扩展错误隔离明确的异常处理路径在实际项目中这种动态适应性往往比单一策略的绝对性能更重要。我曾在一个高并发自然语言处理系统中实现类似的调度器当缓存命中率低于60%时自动切换到LOF策略使得系统吞吐量提升了近40%。

你的创业公司，可能已经死了，只是你还不知道

如果你的公司成立超过两年，你的商业计划大概率已经过时了。你的技术栈过时了。你的团队结构也过时了。你只是还不知道而已。钱去哪了？先说一个让人清醒的数字。2025 年，AI 项目拿走了风投总投资额的三分之二。三分之二。不是一半。不是"…...

2026/5/12 18:49:38 阅读更多 →

SAM3实战体验：如何用简单英文提示，实现复杂图像的分割？

SAM3实战体验：如何用简单英文提示，实现复杂图像的分割？ 1. 认识SAM3：从几何分割到语义理解在计算机视觉领域，图像分割一直是一项基础而重要的任务。传统的分割方法通常需要用户手动绘制边界框或点选目标区域&#x…...

2026/5/12 18:49:38 阅读更多 →

信捷XDH Ethercat A_MOVER指令详解：从参数配置到运动控制实战

信捷XDH Ethercat A_MOVER指令深度解析与工业运动控制实战在工业自动化领域，精确的运动控制是实现高效生产的关键环节。信捷XDH系列PLC凭借其强大的EtherCAT总线通信能力和丰富的运动控制指令，成为众多设备制造商的首选方案。其中，A_MOVER指…...

2026/5/12 18:49:40 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/14 15:34:04 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/13 16:10:23 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/13 22:17:10 阅读更多 →