机器学习_03_线性回归
线性回归一、概念与定位类型监督学习、回归任务定义用于建模【特征 X】与【连续标签 y】之间的【线性关系】核心思想找一条直线或超平面让预测值 ŷ 与真实值 y 的【误差最小】二、模型形式一元线性回归ŷ wx bw权重斜率b偏置截距多元线性回归多个特征ŷ w₁x₁ w₂x₂ ... wₙxₙ b矩阵写法ŷ WᵀX b线性回归的“线性”指【参数 w 线性】特征 x 可以做多项式变换参数解释符号含义x特征y目标w权重b偏置三、损失函数衡量预测值 ŷ 与真实值 y 之间的差距。差距越大损失越大。损失函数公式特点均方误差MSEMSE (1/n)·Σ(yᵢ - ŷᵢ)²对大误差惩罚重处处可导对异常值敏感本质线性回归的优化目标就是让 MSE 最小平均绝对误差MAEMAE (1/n)·Σ|yᵢ - ŷᵢ|对异常值不敏感但在0点不可导Huber LossMSE MAE 的折中小误差用MSE大误差用MAEMSE 计算示例假设数据x [1, 2, 3]真实 y [2, 4, 6]随机参数w 1, b 0x真实 yŷ 1·x 0y - ŷ(y - ŷ)²121112422436339MSE (1 4 9) / 3 14 / 3 ≈ 4.67四、求解方法正规方程最小二乘法原理对损失函数求导令导数为0直接解出最优w公式w (XᵀX)⁻¹ Xᵀy优点一步到位不需要调参缺点计算量 O(n³)特征多时极慢(XᵀX)⁻¹ 可能无解适用小数据集特征数 1000正规方程对每个参数求偏导联立方程组同时解出所有参数的最优值梯度下降Gradient Descent原理沿着梯度的反方向一步步迭代更新参数核心公式w_new w_old - α·∇L(w)参数含义α学习率步长—— 超参数∇L(w)损失函数对 w 的梯度三种形式形式说明BGD批量用全部样本计算梯度SGD随机每次用一个样本计算梯度Mini-Batch GD每次用一小批样本计算梯度优点适合大规模数据特征量很大时仍可用缺点需要调参学习率、迭代次数适用工业界标配任何规模都可用梯度下降的理解梯度下降就是分别调整每一个参数每个参数调整的幅度由它的专属坡度梯度分量和学习率共同决定。更新公式