别再只用Cleveland数据了！手把手教你用Python合并UCI心脏病4大数据库，提升模型泛化能力

张

张建站

2026/6/1 19:31:04

10分钟阅读

别再只用Cleveland数据了！手把手教你用Python合并UCI心脏病4大数据库，提升模型泛化能力

突破数据局限用Python整合UCI心脏病四大数据库的实战指南在机器学习领域我们常常陷入一种舒适区陷阱——习惯性地使用那些被广泛引用的标准数据集却忽视了数据多样性对模型泛化能力的关键影响。UCI心脏病数据集就是一个典型案例虽然包含来自四个不同医疗中心的完整数据但绝大多数研究和教程仅使用其中的Cleveland子集。这种局限可能导致模型在实际应用中表现不佳因为它们从未接触过来自不同地区、不同医疗体系的真实数据变异。1. 为什么需要整合四大数据库数据多样性是构建稳健机器学习模型的核心要素。想象一下如果只基于单一医院的数据训练心脏病预测模型这个模型很可能无法适应其他地区患者的特征差异。UCI心脏病数据集包含的四个子集Cleveland、Hungarian、Long Beach VA和Switzerland恰恰提供了这种宝贵的多样性地域差异四个医疗中心分别位于美国、匈牙利和瑞士人口统计学差异不同地区的患者群体在年龄、性别分布上存在差异医疗实践差异各地医生可能采用略有不同的诊断标准和检测方法提示数据整合不是简单的拼接需要考虑特征一致性、缺失值处理和潜在偏差2. 数据获取与初步探索2.1 下载原始数据UCI机器学习仓库提供了完整的原始数据文件。我们可以使用Python的requests库直接下载import requests import os data_urls { cleveland: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data, hungarian: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.hungarian.data, switzerland: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.switzerland.data, longbeach: https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.va.data } for name, url in data_urls.items(): response requests.get(url) with open(f{name}.data, w) as f: f.write(response.text)2.2 数据特征解析四个数据集共享相同的76个原始特征但实际研究中通常使用以下14个核心特征特征名描述数据类型备注age患者年龄数值sex性别分类1男, 0女cp胸痛类型分类1-4值trestbps静息血压数值mmHgchol血清胆固醇数值mg/dlfbs空腹血糖分类120mg/dlrestecg静息心电图分类0-2值thalach最大心率数值exang运动心绞痛分类1是,0否oldpeakST压低数值slopeST段斜率分类1-3值ca主要血管数分类0-3thal地中海贫血分类3/6/7或0-2target心脏病诊断分类0-4或0-13. 数据清洗与整合实战3.1 处理不一致的编码方案不同子集对某些特征使用了不同的编码方式特别是thal和target列。我们需要统一这些编码import pandas as pd def load_and_clean_data(filename): df pd.read_csv(filename, headerNone, na_values?) # 选择常用的14个特征列 columns [age, sex, cp, trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal, target] df df.iloc[:, :14] df.columns columns # 统一thal编码 (原始有3/6/7和0/1/2两种) df[thal] df[thal].replace({3:0, 6:1, 7:2}) # 统一target编码 (原始有0-4和0/1两种) df[target] df[target].apply(lambda x: 1 if x 0 else 0) return df cleveland load_and_clean_data(cleveland.data) hungarian load_and_clean_data(hungarian.data) swiss load_and_clean_data(switzerland.data) longbeach load_and_clean_data(longbeach.data)3.2 处理缺失值与数据偏差不同子集的缺失值比例差异显著Cleveland约2%缺失值Hungarian约20%缺失值Switzerland约5%缺失值Long Beach约15%缺失值我们可以采用多种策略组合处理缺失值删除高缺失率特征对于某些在特定子集中大量缺失的特征考虑整体删除子集特定填充对不同子集采用不同的填充策略标记缺失添加二进制列指示原始值是否缺失def handle_missing(df): # 删除超过30%缺失值的行 df df.dropna(threshdf.shape[1]*0.7, axis0) # 数值列用中位数填充 num_cols [age, trestbps, chol, thalach, oldpeak] for col in num_cols: df[col] df[col].fillna(df[col].median()) # 分类列用众数填充 cat_cols [sex, cp, fbs, restecg, exang, slope, ca, thal] for col in cat_cols: df[col] df[col].fillna(df[col].mode()[0]) return df cleveland handle_missing(cleveland) hungarian handle_missing(hungarian) swiss handle_missing(swiss) longbeach handle_missing(longbeach)4. 数据合并与增强4.1 添加数据来源标识在合并前我们添加一个标识列记录每个样本的来源cleveland[source] cleveland hungarian[source] hungarian swiss[source] switzerland longbeach[source] longbeach combined pd.concat([cleveland, hungarian, swiss, longbeach], axis0)4.2 探索数据分布差异合并后我们可以分析不同来源数据的分布差异import matplotlib.pyplot as plt # 年龄分布对比 plt.figure(figsize(10,6)) for source in combined[source].unique(): subset combined[combined[source] source] plt.hist(subset[age], alpha0.5, labelsource) plt.legend() plt.title(Age Distribution by Data Source) plt.xlabel(Age) plt.ylabel(Count) plt.show()4.3 处理类别不平衡不同子集的心脏病阳性率存在显著差异Cleveland约54%阳性Hungarian约60%阳性Switzerland约34%阳性Long Beach约48%阳性我们可以采用以下策略平衡数据过采样少数类使用SMOTE等技术欠采样多数类随机删除部分样本类别权重在模型训练时调整类别权重from imblearn.over_sampling import SMOTE X combined.drop([target, source], axis1) y combined[target] smote SMOTE(random_state42) X_res, y_res smote.fit_resample(X, y)5. 模型训练与效果对比5.1 基准模型仅使用Cleveland数据from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report # 仅使用Cleveland数据 X_cle cleveland.drop([target, source], axis1) y_cle cleveland[target] X_train, X_test, y_train, y_test train_test_split(X_cle, y_cle, test_size0.2) rf_cle RandomForestClassifier() rf_cle.fit(X_train, y_train) print(classification_report(y_test, rf_cle.predict(X_test)))5.2 增强模型使用合并数据# 使用合并后的全部数据 X_all combined.drop([target, source], axis1) y_all combined[target] X_train, X_test, y_train, y_test train_test_split(X_all, y_all, test_size0.2) rf_all RandomForestClassifier() rf_all.fit(X_train, y_train) print(classification_report(y_test, rf_all.predict(X_test)))5.3 跨数据集验证真正的考验是模型在未见过的数据源上的表现# 训练数据Cleveland Hungarian train_data pd.concat([cleveland, hungarian]) X_train train_data.drop([target, source], axis1) y_train train_data[target] # 测试数据Switzerland Long Beach test_data pd.concat([swiss, longbeach]) X_test test_data.drop([target, source], axis1) y_test test_data[target] rf_cross RandomForestClassifier() rf_cross.fit(X_train, y_train) print(Cross-dataset Performance:) print(classification_report(y_test, rf_cross.predict(X_test)))6. 高级技巧与注意事项6.1 处理地域偏差的进阶方法简单的数据合并可能无法完全消除地域偏差我们可以尝试域适应技术如CORAL算法调整特征分布分层抽样确保训练集包含所有来源的代表性样本源特定特征工程添加与数据来源相关的交互特征from sklearn.preprocessing import StandardScaler from coral import CORAL # CORAL域适应示例 scaler StandardScaler() X_train_scaled scaler.fit_transform(X_train) X_test_scaled scaler.transform(X_test) X_train_coral CORAL().fit_transform(X_train_scaled, X_test_scaled)6.2 特征重要性分析通过分析特征重要性我们可以了解哪些特征在不同数据源中最具预测力importances rf_all.feature_importances_ features X_all.columns indices np.argsort(importances)[::-1] plt.figure(figsize(12,6)) plt.title(Feature Importances) plt.bar(range(X_all.shape[1]), importances[indices], aligncenter) plt.xticks(range(X_all.shape[1]), features[indices], rotation90) plt.show()6.3 部署考虑当将模型部署到不同地区时持续监控跟踪模型在新地区的表现增量学习随着新数据到来逐步更新模型区域适配为不同地区训练特定子模型from sklearn.linear_model import SGDClassifier # 增量学习示例 sgd SGDClassifier(losslog_loss) for chunk in pd.read_csv(combined_data.csv, chunksize100): X chunk.drop([target, source], axis1) y chunk[target] sgd.partial_fit(X, y, classes[0,1])

无需魔法，白嫖 Claude Code！用 DeepSeek 白菜价模型，省下 90% Token 费用（手把手教程）

上周，DeepSeek 扔了一颗重磅炸弹。DeepSeek 官方截图DeepSeek 官方宣布：V4-Pro 模型永久降价 75%，直接打到原价的 1/4。性价比真的太高了。而且这次 DeepSeek-V4-Pro 的 Agent 能力也是不输国际一线模型的。DeepSeek 定价对比今天就手把手教你…...

2026/6/1 19:27:14 阅读更多 →

LED创意电路制作：从并联原理到钢铁侠发光画实战

1. 项目概述与核心思路最近在整理工作室时，翻出了几年前带学生做的一个小项目，觉得挺有意思，决定拿出来和大家聊聊。这个项目的核心，就是把最基础的电子元件——LED，和一个手绘的钢铁侠画作结合起来，让静态…...

2026/6/1 19:25:56 阅读更多 →

[完美解决] PPT投屏时幕布和电脑画面一样？演讲者视图分屏设置教程

📌 场景痛点在会议室开会、汇报工作或进行答辩时，我们经常会遇到这种尴尬情况： 把电脑连上投影仪或会议室大屏，用 Office 打开 PPT 开启了演讲者视图，结果发现幕布上显示的画面和电脑端一模一样。不仅观众能看到你的备…...

2026/6/1 19:21:59 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/1 1:01:46 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/5/31 0:02:02 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/6/1 20:29:35 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →