从‘穿裤子的人是男生吗？’到‘垃圾邮件分类’：用Python实战贝叶斯分类与决策树（ID3算法）

张

张建站

2026/6/2 1:27:13

10分钟阅读

从‘穿裤子的人是男生吗？’到‘垃圾邮件分类’：用Python实战贝叶斯分类与决策树（ID3算法）

从生活案例到算法实战贝叶斯与决策树在Python中的对比应用1. 引言当穿衣风格遇见机器学习清晨的校园里我们常常通过衣着判断迎面走来同学的性别——男生几乎都穿裤子而女生则可能选择裤子或裙子。这个看似简单的日常观察背后隐藏着概率推理与分类决策的经典问题。假设某校男女比例存在三种可能情况4:6、1:1、6:4当我们看到一位穿裤子的同学时如何科学计算TA是男生的概率这类问题正是机器学习分类算法的绝佳切入点。本文将使用Python的scikit-learn库带您实现两种经典算法——朴素贝叶斯分类器和ID3决策树通过同一个穿衣风格与性别数据集对比它们在原理、实现和结果上的差异。最终我们会将这套方法迁移到更实际的垃圾邮件分类场景。为什么选择这两个算法贝叶斯处理概率不确定性的优雅数学工具决策树生成可解释的规则链条共同特点适合初学者理解机器学习本质# 基础环境准备 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.naive_bayes import GaussianNB from sklearn.tree import DecisionTreeClassifier, export_text2. 数据准备与问题建模2.1 构建模拟数据集根据问题描述我们创建包含1000条模拟记录的数据集特征包括性别Gender男/女穿着Clothing裤子/裙子场景特征场景扩展是否背包、发型长度等import numpy as np np.random.seed(42) size 1000 # 生成性别数据三种比例混合 gender np.random.choice([Male,Female], sizesize, p[0.44, 0.56]) # 加权平均比例 # 根据性别生成穿着数据 clothing [] for g in gender: if g Male: clothing.append(Trousers) # 男生都穿裤子 else: clothing.append(np.random.choice([Trousers,Skirt], p[0.5,0.5])) # 添加辅助特征 backpack np.random.choice([0,1], sizesize, p[0.3,0.7]) # 30%不背包 hair_length np.where(genderMale, np.random.normal(5, 1, size), np.random.normal(15, 3, size)).round(1) data pd.DataFrame({ Gender: gender, Clothing: clothing, Backpack: backpack, Hair_Length: hair_length }) # 目标变量是否为男性 data[IsMale] (data[Gender] Male).astype(int)2.2 数据预处理将分类变量转换为数值形式并拆分训练/测试集# 分类变量编码 data[Clothing] data[Clothing].map({Trousers:1, Skirt:0}) # 特征与标签分离 X data[[Clothing, Backpack, Hair_Length]] y data[IsMale] # 数据集拆分 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.2, random_state42)注意在实际业务场景中我们需要确保训练数据能反映真实分布。本例简化了特征工程过程真实项目中还需考虑更多特征相关性。3. 朴素贝叶斯分类实战3.1 算法原理图解朴素贝叶斯基于贝叶斯定理计算公式为$$ P(Y|X) \frac{P(X|Y)P(Y)}{P(X)} $$其中$P(Y|X)$ 是后验概率$P(X|Y)$ 是似然概率$P(Y)$ 是先验概率核心假设各特征条件独立因此称为朴素3.2 Python实现与结果分析# 创建并训练模型 nb_model GaussianNB() nb_model.fit(X_train, y_train) # 测试集评估 nb_accuracy nb_model.score(X_test, y_test) print(f贝叶斯分类准确率{nb_accuracy:.2%}) # 查看预测概率样例 sample pd.DataFrame([[1, 1, 10]], columns[Clothing, Backpack, Hair_Length]) print(预测概率, nb_model.predict_proba(sample))典型输出结果贝叶斯分类准确率82.50% 预测概率 [[0.28 0.72]] # 穿裤子、背包、头发10cm有72%概率为男性3.3 数学验证让我们手动计算穿裤子者是男性的概率验证模型合理性已知$P(Male) 0.44$$P(Female) 0.56$$P(Trousers|Male) 1$$P(Trousers|Female) 0.5$计算 $$ P(Male|Trousers) \frac{1×0.44}{1×0.44 0.5×0.56} ≈ 0.611 $$与我们的代码结果一致说明模型运作符合数学原理。4. 决策树(ID3)算法实战4.1 算法核心思想ID3决策树通过信息增益选择划分属性计算当前数据集的信息熵对每个特征计算信息增益选择增益最大的特征作为划分节点递归构建子树信息熵公式 $$ Entropy(D) -\sum_{k1}^{K}p_k\log_2p_k $$4.2 Python实现与可视化# 创建决策树模型使用ID3算法等价参数 dt_model DecisionTreeClassifier(criterionentropy, max_depth3) dt_model.fit(X_train, y_train) # 评估模型 dt_accuracy dt_model.score(X_test, y_test) print(f决策树分类准确率{dt_accuracy:.2%}) # 输出决策规则 tree_rules export_text(dt_model, feature_names[Clothing,Backpack,Hair_Length]) print(\n决策规则\n, tree_rules)示例输出决策树分类准确率85.00% 决策规则 |--- Hair_Length 10.35 | |--- Clothing 0.50 | | |--- class: 0 | |--- Clothing 0.50 | | |--- Hair_Length 6.75 | | | |--- class: 1 | | |--- Hair_Length 6.75 | | | |--- class: 0 |--- Hair_Length 10.35 | |--- Hair_Length 16.65 | | |--- class: 0 | |--- Hair_Length 16.65 | | |--- class: 04.3 决策树解读从规则可以看出模型首先根据发型长度划分最重要特征对于短发≤10.35cm穿裙子直接判断为女性穿裤子再根据具体长度细分长发10.35cm基本判断为女性这与人类判断逻辑高度一致体现了决策树的可解释性优势。5. 算法对比与进阶应用5.1 性能对比表格指标朴素贝叶斯ID3决策树准确率82.5%85.0%训练速度快O(n)中等O(nlogn)可解释性中等高缺失值处理天然支持需要预处理特征相关性假设要求独立自动处理相关性适合场景概率推理规则提取5.2 迁移到垃圾邮件分类将相同方法应用于垃圾邮件识别from sklearn.feature_extraction.text import CountVectorizer # 示例数据 emails [免费获得百万奖金, 明天项目会议通知, 限时特价仅今天] labels [1, 0, 1] # 1为垃圾邮件 # 文本特征提取 vectorizer CountVectorizer() X vectorizer.fit_transform(emails) # 训练模型 nb_spam GaussianNB() nb_spam.fit(X.toarray(), labels) # 预测新邮件 new_email [特价促销] print(预测结果, nb_spam.predict(vectorizer.transform(new_email).toarray()))5.3 优化建议贝叶斯优化方向使用TF-IDF替代简单词频尝试伯努利贝叶斯处理二值特征加入平滑处理避免零概率问题决策树优化方向使用C4.5算法处理连续值设置最小叶子节点样本数防止过拟合通过剪枝提升泛化能力# 优化后的决策树示例 improved_dt DecisionTreeClassifier( criterionentropy, max_depth5, min_samples_leaf10, ccp_alpha0.01 )6. 工程实践中的经验分享在实际项目中应用这些算法时有几个容易踩坑的地方特征相关性处理虽然名为朴素贝叶斯但如果特征间强相关可以考虑使用特征选择去除冗余特征转向半朴素贝叶斯算法采用主成分分析(PCA)降维决策树过拟合问题遇到决策树在训练集表现完美但测试集差时# 查看决策树深度 print(决策树实际深度, dt_model.tree_.max_depth) # 通过交叉验证选择最优参数 from sklearn.model_selection import GridSearchCV params {max_depth: [3,5,7,None]} grid GridSearchCV(DecisionTreeClassifier(), params, cv5) grid.fit(X_train, y_train)类别不平衡处理当正负样本比例悬殊时在贝叶斯中调整先验概率对决策树设置class_weight参数使用SMOTE等方法过采样少数类模型融合可能性# 简单投票集成 from sklearn.ensemble import VotingClassifier ensemble VotingClassifier( estimators[ (nb, GaussianNB()), (dt, DecisionTreeClassifier(max_depth3)) ], votingsoft ) ensemble.fit(X_train, y_train)这些算法虽然古老但在特定场景下依然能提供优秀表现。我的一个实际项目中使用朴素贝叶斯处理文本分类配合适当的特征工程准确率能达到92%以上而训练时间仅为深度学习模型的1/100。

LLaMA FFW模块CUDA内核优化实践与性能提升

1. LLaMA FFW CUDA内核优化背景与核心思路在Transformer架构的推理过程中，Feedforward Block（FFW）占据了相当比例的计算开销。以LLaMA模型为例，其FFW模块包含gate_proj、up_proj和down_proj三个线性变换层，中间穿插SiL…...

2026/6/2 1:26:59 阅读更多 →

Sunshine游戏串流服务器深度解析：构建自托管游戏云的完整指南

Sunshine游戏串流服务器深度解析：构建自托管游戏云的完整指南【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一款开源的自托管游戏串流服务器，专…...

2026/6/2 1:20:49 阅读更多 →

C语言实战：仅500行代码徒手搭建极简HTTP服务器

一、打破固有认知，入门编程原来不必堆砌海量代码不少接触编程的学习者都会陷入同一个困境，想要入门网络服务开发，总默认服务器程序必定成千上万行代码，底层套接字原理晦涩难懂，动手实操更是无从下手，长时间…...

2026/6/2 1:12:35 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/1 1:01:46 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/6/2 0:45:14 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/6/1 20:29:35 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →