余弦调度策略

张

张建站

2026/7/14 9:05:51

10分钟阅读

学习率退火学习率退火指在训练过程中逐渐降低学习率的策略。其核心思想是训练初期使用较大学习率快速收敛训练后期使用较小学习率精细调整避免在最优解附近震荡余弦调度策略顾名思义通过余弦函数进行学习率衰减余弦函数ycos⁡xy\cos xycosx会在x∈[0,π2]x\in [0,\frac{\pi}{2}]x∈[0,2π]时逐渐从 1 衰减为 0我们想要学习率从初始的ηmax\eta_{max}ηmax随着时间步ttt衰减经过TTT步后衰减到ηmin\eta_{min}ηmin即ηtηmin(ηmax−ηmin)cos⁡(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos(\frac{\pi}{2}\frac{t}{T})ηtηmin(ηmax−ηmin)cos(2πTt)而论文 SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS 给出的方案是ηtηmin12(ηmax−ηmin)(1cos⁡πtT) \eta_t \eta_{min}\frac{1}{2}(\eta_{max}-\eta_{min})(1\cos\frac{\pi t}{T})ηtηmin21(ηmax−ηmin)(1cosTπt)由三角函数公式12(1cos⁡θ)cos⁡2θ2\frac{1}{2}(1\cos\theta)\cos^2\frac{\theta}{2}21(1cosθ)cos22θ可得ηtηmin(ηmax−ηmin)cos⁡2(π2tT) \eta_t \eta_{min}(\eta_{max}-\eta_{min})\cos^2(\frac{\pi}{2}\frac{t}{T})ηtηmin(ηmax−ηmin)cos2(2πTt)其实是以余弦函数的平方衰减以下是从 0.9 衰减到 0.1 的图像也可用于增大ηmaxηmin\eta_{max}\eta_{min}ηmaxηmin时)以及从 0.1 增大到 0.9 的图像

基于File-Based App开发MVP项目诤

Issue 概述先来看看提交这个 Issue 的作者是为什么想到这个点子的，以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成，将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

2026/7/14 9:12:01 阅读更多 →

帆软新增/编辑后带参数刷新页面（超详细）

通过超链接方式新增或编辑数据（页面绘制工作省略）。新增网络报表，选择要跳转到目标报表、携带特定的参数，para1为该行数据id，新增写个不存在的id即可，或者不传也行，根据自己需求而定&#xff0c…...

2026/7/14 9:59:24 阅读更多 →

基于File-Based App开发MVP项目簇

2026/7/13 22:35:05 阅读更多 →

Go 微服务 API 版本管理：URL、Header 和 GraphQL 的演进策略

Go 微服务 API 版本管理：URL、Header 和 GraphQL 的演进策略一、改了 API 格式，App 没升级的用户全部崩溃移动端 App 的升级率是长期问题。API v1 发布半年后，仍有 15% 的用户在用 v1.0.0 版本。如果直接上线 v2 API 并下线 v1。这 15% 的…...

2026/7/14 7:50:03 阅读更多 →

一键解决DLL缺失问题：Visual C++运行库全家桶完整指南

一键解决DLL缺失问题：Visual C运行库全家桶完整指南【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 还在为"应用程序无法启动"、"缺少…...

2026/7/13 9:25:31 阅读更多 →