学习率退火学习率退火指在训练过程中逐渐降低学习率的策略。其核心思想是训练初期使用较大学习率快速收敛训练后期使用较小学习率精细调整避免在最优解附近震荡余弦调度策略顾名思义通过余弦函数进行学习率衰减余弦函数ycos⁡xy\cos xycosx会在x∈[0,π2]x\in [0,\frac{\pi}{2}]x∈[0,2π​]时逐渐从 1 衰减为 0我们想要学习率从初始的ηmax\eta_{max}ηmax​随着时间步ttt衰减经过TTT步后衰减到ηmin\eta_{min}ηmin​即ηtηmin(ηmax−ηmin)cos⁡(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos(\frac{\pi}{2}\frac{t}{T})ηt​ηmin​(ηmax​−ηmin​)cos(2π​Tt​)而论文 SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS 给出的方案是ηtηmin12(ηmax−ηmin)(1cos⁡πtT) \eta_t \eta_{min}\frac{1}{2}(\eta_{max}-\eta_{min})(1\cos\frac{\pi t}{T})ηt​ηmin​21​(ηmax​−ηmin​)(1cosTπt​)由三角函数公式12(1cos⁡θ)cos⁡2θ2\frac{1}{2}(1\cos\theta)\cos^2\frac{\theta}{2}21​(1cosθ)cos22θ​可得ηtηmin(ηmax−ηmin)cos⁡2(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos^2(\frac{\pi}{2}\frac{t}{T})ηt​ηmin​(ηmax​−ηmin​)cos2(2π​Tt​)其实是以余弦函数的平方衰减以下是从 0.9 衰减到 0.1 的图像也可用于增大ηmaxηmin\eta_{max}\eta_{min}ηmax​ηmin​时)以及从 0.1 增大到 0.9 的图像