26.动机_哔哩哔哩_bilibili吴恩达机器学习笔记 - Sanzo Blog一、二分类1、 定义什么是分类问题——输出变量 y 只能取少数几个离散值而不是无限范围内的任意数值。问题只有两个可能的输出这被称为二分类。0 负类 / 否 / 假例如非垃圾邮件、良性肿瘤。1 正类 / 是 / 真例如垃圾邮件、恶性肿瘤。“正类”与“负类”并不代表好坏仅代表某种属性的存在或缺失。2、为什么线性回归不适合分类如下图你可能会想“既然 y 是 0 或 1我能不能直接用线性回归画一条直线然后设定一个阈值比如 0.5来分类呢”方法如果预测值 0.5 则预测为 0如果 ≥0.5 则预测为 1。问题线性回归对异常值非常敏感会导致分类边界发生不合理的偏移。假设在数据集的最右侧增加了一个非常大的训练样本一个巨大的良性肿瘤后果线性回归为了拟合这个新点会将直线“拉”向右边导致斜率变平缓。决策边界移动原本合理的决策边界垂直线被迫向右移动。错误这导致原本应该被分类为“恶性”的肿瘤现在被错误地分类为“良性”。结论仅仅因为数据集中增加了一个远离主群体的样本就改变了我们对其他数据的分类标准这是不合理的。因此线性回归不是解决分类问题的好算法。二、分类算法逻辑回归【此次项目用不上】虽然名字里有“回归”但它实际上是一种分类算法。这个名字是历史遗留原因不要被误导。核心优势逻辑回归的输出值永远在0 到 1 之间。它不会出现线性回归那样因为个别异常值而导致决策边界剧烈移动的问题。它是目前最流行、应用最广泛的分类算法之一。具体的见下述链接“6、逻辑回归”吴恩达机器学习笔记 - Sanzo Blog三、过拟合问题四、正则化解决过拟合问题32.过拟合问题_哔哩哔哩_bilibili