余弦调度策略
学习率退火学习率退火指在训练过程中逐渐降低学习率的策略。其核心思想是训练初期使用较大学习率快速收敛训练后期使用较小学习率精细调整避免在最优解附近震荡余弦调度策略顾名思义通过余弦函数进行学习率衰减余弦函数ycosxy\cos xycosx会在x∈[0,π2]x\in [0,\frac{\pi}{2}]x∈[0,2π]时逐渐从 1 衰减为 0我们想要学习率从初始的ηmax\eta_{max}ηmax随着时间步ttt衰减经过TTT步后衰减到ηmin\eta_{min}ηmin即ηtηmin(ηmax−ηmin)cos(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos(\frac{\pi}{2}\frac{t}{T})ηtηmin(ηmax−ηmin)cos(2πTt)而论文 SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS 给出的方案是ηtηmin12(ηmax−ηmin)(1cosπtT) \eta_t \eta_{min}\frac{1}{2}(\eta_{max}-\eta_{min})(1\cos\frac{\pi t}{T})ηtηmin21(ηmax−ηmin)(1cosTπt)由三角函数公式12(1cosθ)cos2θ2\frac{1}{2}(1\cos\theta)\cos^2\frac{\theta}{2}21(1cosθ)cos22θ可得ηtηmin(ηmax−ηmin)cos2(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos^2(\frac{\pi}{2}\frac{t}{T})ηtηmin(ηmax−ηmin)cos2(2πTt)其实是以余弦函数的平方衰减以下是从 0.9 衰减到 0.1 的图像也可用于增大ηmaxηmin\eta_{max}\eta_{min}ηmaxηmin时)以及从 0.1 增大到 0.9 的图像