机械学习算法思想和数学思想汇总
一、线性回归找一条最像的直线核心思想一句话你有一堆散点想画一条直线穿过它们让所有点到这条直线的垂直距离之和尽量小。通俗理解想象你在墙上钉了一堆钉子现在要用一根橡皮筋尽量贴近所有钉子。你不能让橡皮筋随意弯曲那是后面的非线性模型只能拉直。那怎么算最贴近最自然的想法测量每个钉子到橡皮筋的垂直距离把这些距离加起来找使总和最小的那条橡皮筋。数学思想大白话版模型公式翻译成人话预测值 每个因素乘以一个重要性权重再加一个基准值。比如预测房价目标函数最小二乘法人话真实值和预测值的差距平方后全部加起来。为什么要平方不加绝对值是因为平方好求导数学上光滑平方会惩罚大误差——差1厘米罚1分差10厘米罚100分这样模型就不敢对某些点偏差太大正规方程一步到位求最优解人话把所有数据排成一个大方阵通过矩阵运算直接算出最优权重。就像解一个线性方程组只不过未知数很多。梯度下降一步一步爬下山人话如果直接求逆矩阵算不出来数据太大或矩阵不可逆那就一步一步调整权重。想象你在山上每次往最陡的下坡方向走一步步长是 η 学习率。走多了就走到山底误差最小处。二、逻辑回归不是回归是概率分类器核心思想一句话先用线性回归算出一个分数再用一个S型函数把这个分数压缩成0到1之间的概率然后按概率分类。通俗理解逻辑回归解决的是分类问题比如这封邮件是不是垃圾邮件但它名字里带回归是因为内部先做了一个线性打分。你可以把它想象成一个概率转换器先把各种特征邮件里免费中奖等词的出现次数加权求和得到一个原始分数比如 3.5 或 -1.2这个分数范围是 (−∞,∞) 但概率必须在 (0,1) 之间所以用一个S型曲线Sigmoid把它压扁到0-1之间数学思想大白话版Sigmoid 函数人话无论 z 是多大或多小的数字输出永远在0和1之间。z0 时输出0.5z 越大越接近1z 越小越接近0。预测概率人话给定一组特征模型算出这是正类的概率。对数几率Log-odds人话线性回归直接预测数值逻辑回归预测的是对数几率。什么叫几率就是发生的概率除以不发生的概率。对数几率是线性可加的所以可以用线性模型来拟合。损失函数交叉熵人话这是极大似然估计的结果。通俗说——如果真实标签是1垃圾邮件模型预测的概率越接近1损失越小如果预测成0.1损失就很大。这个公式就是在惩罚猜错且猜得很离谱的情况。梯度人话梯度就是预测值减去真实值再乘以特征。如果预测比真实大就把权重往下调预测小了就往上调。非常直观。三、决策树像玩20个问题一样做判断核心思想一句话通过一系列是非题比如年龄是否大于30把数据不断分成更纯的小群体直到每个小群体里的样本差不多是一类人。通俗理解想象你在玩猜人物游戏。你心里想一个人我问你是男性吗身高超过1米7吗戴眼镜吗——每个问题都把可能性空间切掉一半。决策树就是这个逻辑每个内部节点是一个判断题某个特征是否满足某条件每个分支是是或否每个叶子节点是最终判断分类结果或回归值关键问题是先问哪个问题最好数学思想大白话版熵不确定性度量人话熵描述的是混乱程度。一个盒子里全是红球p红1 熵 0完全不混乱你随便抓都知道是红的。一半是红一半是蓝熵 1最混乱你完全猜不准。这个公式就是量化这种猜不准的程度。信息增益人话问了一个问题后混乱程度降低了多少降低越多这个问题越有价值。决策树每次选信息增益最大的特征来分裂。基尼指数CART用人话基尼指数也是衡量纯度的。如果一类占100%基尼0最纯两类各50%基尼0.5最乱。基尼计算比熵快一点所以CART默认用它。回归树的MSE分裂人话对于回归问题找一个切分点让左边和右边各自内部差异方差最小。就像把一群身高各异的人分成两堆让每堆内部身高尽量接近。四、随机森林三个臭皮匠顶个诸葛亮核心思想一句话建很多棵略有不同的决策树让它们投票用群体的智慧抵消个体的错误。通俗理解一棵决策树容易过拟合对训练数据记得太死新数据一来就傻眼。但如果我建100棵树每棵树看的数据略有不同、用的特征也略有不同然后让它们投票错误就会被平均掉。这就像让100个专家独立判断一只股票涨跌虽然每个人可能都有偏见但综合起来往往比一个人准。数学思想大白话版Bootstrap采样有放回抽样 从原始数据比如1000条中随机抽1000条抽完放回去再抽。这样有些样本会被重复抽到有些永远抽不到。人话抽不到的那些样本约36.8%叫OOB样本可以用来当考试卷测试模型不用额外划分验证集。两阶段随机性样本随机每棵树用不同的Bootstrap样本训练特征随机每棵树分裂节点时只从所有特征中随机挑一部分比如总共50个特征每次只挑7个来选最佳分裂人话如果所有树长得太像它们会犯同样的错误投票就没意义了。特征随机性强迫每棵树管中窥豹从不同角度看问题这样错误就不相关了。方差降低原理 假设单棵树的预测方差是 σ2 树与树之间的相关性是 ρ 那么 T 棵树平均后的方差人话树越多T 大第二项越小但如果树之间太像ρ 接近1第一项降不下去。所以随机森林的关键不是树要多而是树之间要各抒己见。五、XGBoost一个纠错委员会越纠越准核心思想一句话按顺序训练多棵树每棵新树专门学习前面所有树犯过的错误残差逐步把预测值修正到真实值。通俗理解想象你在教一个学生做题第一轮学生凭直觉做错了不少第二轮你专门教他上一轮错在哪里他进步了一些第三轮再教他前两轮共同剩下的错误……最后把所有轮次的答案加起来就是最终答案XGBoost就是这个逻辑。它不是像随机森林那样平行投票而是串行纠错。数学思想大白话版加法模型人话最终预测是 T 棵树的预测值加总。每棵树 ft 输出一个数分类问题输出的是log-odds回归问题直接是数值。二阶泰勒展开XGBoost的神来之笔 第 t 轮时已有模型预测 y^(t−1) 新树要加 ft 。损失函数展开人话泰勒展开就是用抛物线近似曲线。g 是梯度一阶导告诉你往哪走h 是Hessian二阶导告诉你走多快会过头。XGBoost不仅看往哪走还看路有多陡所以比只用梯度传统Gradient Boosting更精准。目标函数人话前两项是拟合残差让新树纠正错误后两项是惩罚γL 树叶子越多罚得越重防止树太深太复杂λ∑wj2 叶子输出值太大也罚防止某棵树一家独大最优叶子权重人话每个叶子节点最终输出的数值等于该叶子上所有样本的梯度之和 Gj 除以二阶梯度之和 Hj 加上正则化 λ 。直观上如果样本梯度很大错得厉害叶子输出就大纠得猛如果样本很杂Hj 大就保守一点。分裂增益人话分裂好不好看分裂后两边各自的纯度提升减去分裂的代价 γ 。只有当增益大于0时才分裂——这就是预剪枝。六、LightGBMXGBoost的极速版核心思想一句话保留XGBoost的纠错数学框架但用直方图近似、按叶子生长和梯度采样把速度提升10倍以上。通俗理解XGBoost像是一个精益求精的老工匠每个细节都手工打磨遍历所有可能的分裂点但太慢了。LightGBM像是一个聪明的工程师说我们不用精确到毫米精确到厘米就够了而且不用每层都长齐哪片叶子最有潜力就先长哪片。数学思想大白话版直方图算法Histogram 把连续特征的值分成 k 个桶比如255个统计每个桶里有多少样本、梯度总和是多少。人话原来找最佳分裂点要遍历所有样本的排序值比如年龄从18到90岁每个值都试一遍现在只试255个桶的边界。精度略有损失但速度快了几十倍而且桶的边界本身就有一定的正则化效果不容易过拟合。Leaf-wise vs Level-wiseLevel-wiseXGBoost默认树一层一层长每层所有叶子一起分裂。像修剪灌木剪得整整齐齐但有些枝条本来就不需要长。Leaf-wiseLightGBM每次只挑分裂增益最大的那个叶子分裂。像种果树哪根枝条挂果潜力大就修哪根同样数量的叶子能长出更深的有效分支。人话假设你只有10次分裂的预算。Level-wise可能把精力浪费在已经挺纯的叶子上Leaf-wise把钱花在刀刃上同样复杂度下拟合能力更强。梯度单边采样GOSS 保留梯度大的样本错得离谱的必须重点教对梯度小的样本随机采样已经做对的少看几个没关系然后给小梯度样本加权补偿。人话班级里有些学生错题很多大梯度有些几乎全对小梯度。老师不用给全对的学生逐题讲解随机抽查几个确保没作弊就行把时间省下来教差生。数据量少了但信息量没少多少。互斥特征捆绑EFB 如果两个特征几乎不会同时出现比如是否有游泳池和是否是公寓公寓一般没泳池就把它们捆成一个特征。人话1000个特征里很多是你出现我就不出现的死对头把它们打包直方图只要建几百个而不是1000个内存和计算都省了。总结一张图看懂六大算法的关系plain复制┌─────────────────────────────────────────────────────────────┐ │ 线性回归 ──→ 逻辑回归 │ │ 直接预测数值 预测概率加了个Sigmoid壳 │ │ ↓ │ │ 决策树 ───────────────────────────────────────────┐ │ │ 用是非题切分空间非线性 │ │ │ ↓ ↓ │ │ 随机森林Bagging XGBoostBoosting│ │ 多棵树并行投票降低方差 多棵树串行纠错 │ │ ↓ ↓ │ │ ─────────────────────────────────────────── LightGBM │ │ 同样的数学思想但工程上极致优化更快更省内存 │ └─────────────────────────────────────────────────────────────┘表格算法通俗比喻数学核心线性回归拉一根最贴近钉子的橡皮筋最小化误差平方和逻辑回归先打分再用S型曲线转成概率极大似然 交叉熵决策树玩20个问题逐步缩小范围信息增益 / 基尼指数 / MSE随机森林100个专家独立投票Bootstrap 方差分解XGBoost纠错委员会越纠越准二阶泰勒展开 正则化结构分数LightGBM同样的委员会但开会效率极高直方图近似 Leaf-wise GOSS