Test-Time Compute Scaling 深度解析:从 Best-of-N 到 GRPO 的推理时计算扩展技术目录摘要一、引言:大模型扩展的第三条轴线二、推理时计算扩展的理论基础三、核心技术范式四、GRPO:群组相对策略优化的数学原理