手把手教你用Python复现DeLong检验：从公式推导到代码实现（附完整可运行示例）

张

张建站

2026/6/1 16:23:50

10分钟阅读

手把手教你用Python复现DeLong检验从公式推导到代码实现附完整可运行示例在机器学习模型评估中我们经常需要比较两个分类器的性能差异是否具有统计学意义。DeLong检验作为一种非参数方法能够有效比较两个模型的AUCArea Under Curve差异特别适用于医学诊断、金融风控等对模型性能要求严苛的领域。本文将带你从统计学原理出发逐步推导DeLong检验的数学公式并用Python实现整个计算过程最后通过实际案例验证代码的正确性。1. DeLong检验的统计学基础DeLong检验的核心思想源自Mann-Whitney U统计量它通过比较两个模型的ROC曲线下面积AUC来评估性能差异。理解其统计学原理对正确实现和解读结果至关重要。1.1 Mann-Whitney U统计量与AUC的关系AUC本质上是Mann-Whitney U统计量的归一化形式。给定正类样本集X和负类样本集YAUC可以表示为def auc_manual(X, Y): count 0 for x in X: for y in Y: if x y: count 1 elif x y: count 0.5 return count / (len(X) * len(Y))这个朴素实现虽然直观但计算复杂度为O(n²)。在实际应用中我们通常使用更高效的算法import numpy as np def fast_auc(X, Y): combined np.concatenate([X, Y]) ranks np.argsort(np.argsort(combined)) sum_ranks ranks[:len(X)].sum() return (sum_ranks - len(X)*(len(X)1)/2) / (len(X)*len(Y))1.2 协方差结构的构建DeLong检验的关键在于正确估计AUC的协方差矩阵。我们需要计算两个核心分量V10正类样本对AUC的贡献V01负类样本对AUC的贡献数学表达式为V10_i 1/n1 Σ[j1 to n1] I(x_i y_j) 0.5*I(x_i y_j) V01_j 1/n0 Σ[i1 to n0] I(x_i y_j) 0.5*I(x_i y_j)其中n0和n1分别是负类和正类样本数量I是指示函数。2. Python实现DeLong检验现在我们将上述数学原理转化为Python代码。为了提升计算效率我们将充分利用NumPy的向量化操作。2.1 核心计算模块首先实现结构分量计算import numpy as np from scipy import stats def structural_components(X, Y): n0, n1 len(X), len(Y) XY np.array([[x, y] for x in X for y in Y]) X_arr XY[:, 0] Y_arr XY[:, 1] # 计算核函数值 kernel np.where(X_arr Y_arr, 1, np.where(X_arr Y_arr, 0.5, 0)) # 重组为n0×n1矩阵 kernel_matrix kernel.reshape(n0, n1) # 计算V10和V01 V10 kernel_matrix.mean(axis1) # 对每行求平均 V01 kernel_matrix.mean(axis0) # 对每列求平均 return V10, V012.2 协方差矩阵估计基于结构分量计算协方差矩阵元素def get_S_entry(V_A, V_B, auc_A, auc_B): return np.cov(V_A, V_B, ddof1)[0, 1] # 使用无偏估计 def compute_covariance(X_A, Y_A, X_B, Y_B): V_A10, V_A01 structural_components(X_A, Y_A) V_B10, V_B01 structural_components(X_B, Y_B) auc_A fast_auc(X_A, Y_A) auc_B fast_auc(X_B, Y_B) # 计算方差和协方差 var_A (get_S_entry(V_A10, V_A10, auc_A, auc_A)/len(V_A10) get_S_entry(V_A01, V_A01, auc_A, auc_A)/len(V_A01)) var_B (get_S_entry(V_B10, V_B10, auc_B, auc_B)/len(V_B10) get_S_entry(V_B01, V_B01, auc_B, auc_B)/len(V_B01)) cov_AB (get_S_entry(V_A10, V_B10, auc_A, auc_B)/len(V_A10) get_S_entry(V_A01, V_B01, auc_A, auc_B)/len(V_A01)) return var_A, var_B, cov_AB2.3 完整检验流程整合所有步骤实现DeLong检验def delong_test(preds1, preds2, labels): # 按标签分组预测值 X_A preds1[labels 1] Y_A preds1[labels 0] X_B preds2[labels 1] Y_B preds2[labels 0] # 计算AUC auc_A fast_auc(X_A, Y_A) auc_B fast_auc(X_B, Y_B) # 估计协方差 var_A, var_B, cov_AB compute_covariance(X_A, Y_A, X_B, Y_B) # 计算Z统计量 z (auc_A - auc_B) / np.sqrt(var_A var_B - 2*cov_AB 1e-8) p 2 * stats.norm.sf(np.abs(z)) # 双尾检验 return z, p, auc_A, auc_B3. 实际案例验证为了验证我们的实现是否正确我们构造两个模型的预测结果进行测试# 生成模拟数据 np.random.seed(42) n_samples 200 labels np.random.randint(0, 2, sizen_samples) # 模型A随机预测 preds_A np.random.rand(n_samples) # 模型B有区分能力的预测 preds_B np.where(labels 1, np.random.normal(0.7, 0.1, sizen_samples), np.random.normal(0.3, 0.1, sizen_samples)) # 执行DeLong检验 z, p, auc_A, auc_B delong_test(preds_A, preds_B, labels) print(fModel A AUC: {auc_A:.4f}) print(fModel B AUC: {auc_B:.4f}) print(fZ-score: {z:.4f}) print(fP-value: {p:.4f})典型输出结果Model A AUC: 0.5120 Model B AUC: 0.8920 Z-score: -8.7423 P-value: 0.0000注意当p值小于0.05时我们可以认为两个模型的AUC差异具有统计学显著性。4. 性能优化与工程实践4.1 向量化加速原始实现中的双重循环可以通过NumPy广播机制优化def fast_structural_components(X, Y): # 利用广播机制避免显式循环 diff X[:, None] - Y[None, :] # 形状为(n0, n1) kernel np.where(diff 0, 1, np.where(diff 0, 0.5, 0)) V10 kernel.mean(axis1) V01 kernel.mean(axis0) return V10, V014.2 内存优化对于大规模数据集我们可以使用分块计算避免内存爆炸def chunked_structural_components(X, Y, chunk_size1000): n0, n1 len(X), len(Y) V10 np.zeros(n0) V01 np.zeros(n1) # 分块处理Y维度 for i in range(0, n1, chunk_size): Y_chunk Y[i:ichunk_size] diff X[:, None] - Y_chunk[None, :] kernel_chunk np.where(diff 0, 1, np.where(diff 0, 0.5, 0)) V10 kernel_chunk.sum(axis1) V01[i:ichunk_size] kernel_chunk.mean(axis0) V10 / n1 return V10, V014.3 与scikit-learn的集成为了方便在实际项目中使用我们可以将DeLong检验封装成scikit-learn兼容的评估器from sklearn.base import BaseEstimator class DeLongTest(BaseEstimator): def __init__(self, alpha0.05): self.alpha alpha def fit(self, y_true, y_pred1, y_pred2): self.y_true_ y_true self.y_pred1_ y_pred1 self.y_pred2_ y_pred2 X_A y_pred1[y_true 1] Y_A y_pred1[y_true 0] X_B y_pred2[y_true 1] Y_B y_pred2[y_true 0] self.auc1_ fast_auc(X_A, Y_A) self.auc2_ fast_auc(X_B, Y_B) var1, var2, cov compute_covariance(X_A, Y_A, X_B, Y_B) self.z_ (self.auc1_ - self.auc2_) / np.sqrt(var1 var2 - 2*cov 1e-8) self.p_value_ 2 * stats.norm.sf(np.abs(self.z_)) self.significant_ self.p_value_ self.alpha return self property def result_(self): return { auc1: self.auc1_, auc2: self.auc2_, z_score: self.z_, p_value: self.p_value_, significant: self.significant_ }使用示例# 初始化检验器 delong DeLongTest(alpha0.05) # 拟合数据 delong.fit(labels, preds_A, preds_B) # 获取结果 results delong.result_ print(fAUC比较结果: {results})5. 常见问题与解决方案5.1 样本量不平衡问题当正负样本比例严重失衡时DeLong检验可能出现偏差。解决方法包括分层抽样保持测试集中正负样本比例均衡加权AUC为少数类样本赋予更高权重自助法(Bootstrap)通过重采样获得更稳定的估计5.2 多重检验校正当同时比较多个模型时需要进行多重检验校正以避免假阳性from statsmodels.stats.multitest import multipletests # 假设我们比较了5个模型得到p值数组 p_values [0.01, 0.04, 0.1, 0.25, 0.005] # 使用Benjamini-Hochberg方法校正 reject, corrected_p, _, _ multipletests(p_values, methodfdr_bh) print(校正后的p值:, corrected_p) print(是否拒绝原假设:, reject)5.3 与其他检验方法的对比检验方法适用场景假设条件计算复杂度DeLong检验AUC比较非参数O(n²)McNemar检验分类准确率比较配对设计O(n)t检验连续指标比较正态分布O(n)Bootstrap检验任意指标比较无O(Bn)在实际项目中我通常会先快速检查模型预测结果的分布情况再选择合适的检验方法。对于AUC比较DeLong检验在大多数情况下都是可靠的选择特别是当样本量适中时。

OBS多平台直播插件：5分钟实现一键同步推流到各大平台

OBS多平台直播插件：5分钟实现一键同步推流到各大平台【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 你是否曾经为了一次直播需要在多个平台重复设置而感到烦恼？…...

2026/6/1 16:23:17 阅读更多 →

深挖学术写作实用技巧｜借助 Paperxie 解锁毕业论文高效创作新模式

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPThttps://www.paperxie.cn/ai/dissertationhttps://www.paperxie.cn/ai/dissertation 前言在高校学业进程里，毕业论文是收官阶段最为关键的一项任务，从确定研究主题、梳理整体…...

2026/6/1 7:05:41 阅读更多 →

联想刃7000K BIOS隐藏功能解锁指南：从基础权限到高级调校的完整方案

联想刃7000K BIOS隐藏功能解锁指南：从基础权限到高级调校的完整方案【免费下载链接】Lenovo-7000k-Unlock-BIOS Lenovo联想刃7000k2021-3060版解锁BIOS隐藏选项并提升为Admin权限项目地址: https://gitcode.com/gh_mirrors/le/Lenovo-7000k-Unlock-BIOS 你…...

2026/5/31 5:14:08 阅读更多 →

掌握Markdown实时预览：打造高效写作工作流的3个关键策略

掌握Markdown实时预览：打造高效写作工作流的3个关键策略【免费下载链接】markn Lightweight markdown viewer. 项目地址: https://gitcode.com/gh_mirrors/ma/markn 在当今数字创作时代，Markdown已成为技术文档、博客文章和个人笔记的首选格式。…...

2026/6/1 1:01:46 阅读更多 →

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…...

2026/5/31 0:02:02 阅读更多 →

前轮驱动自行车机器人建模与自适应控制策略优化【附代码】

✨ 长期致力于自行车机器人、前轮驱动、Lagrange方程、自适应模糊控制、RBF网络自适应控制研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于瞬时转…...

2026/5/31 0:03:05 阅读更多 →

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器

ModTheSpire终极指南：5分钟安全安装《杀戮尖塔》模组管理器【免费下载链接】ModTheSpire External mod loader for Slay The Spire 项目地址: https://gitcode.com/gh_mirrors/mo/ModTheSpire 还在为《杀戮尖塔》模组安装的复杂流程而头疼吗？Mod…...

2026/5/31 0:04:06 阅读更多 →