复旦校长金力院士:甲基化年龄疾病风险预测
摘要传统表观遗传时钟在泛化性上面临挑战尤其在训练与测试数据集间存在显著批次效应时限制了其在衰老评估中的临床应用。本文提出基于成对学习的甲基化年龄与疾病风险预测稳健计算框架MAPLE。MAPLE利用成对学习解析份DNA甲基化谱在年龄或疾病风险上的相对关系可有效识别衰老或疾病相关生物学信号同时降低数据中的技术偏差。MAPLE的性能优于种对比方法在来自不同研究、测序平台、数据预处理方法和组织类型的31项基准测试中中位绝对误差达到1.6年。此外MAPLE在衰老相关疾病风险评估中表现优异疾病识别的平均曲线下面积为0.97疾病前期状态检测的平均曲线下面积为0.85。综上MAPLE在临床表观遗传年龄评估与衰老相关疾病风险预测中具有巨大应用潜力。xuyinghuifudan.edu.cnheying340gmail.comqiyuanfudan.edu.cnlijinfudan.edu.cn#DNA甲基化 #甲基化年龄 #成对学习 #疾病风险预测 #表观遗传时钟 #批次效应校正结果MAPLE概述图1MAPLE概述aDNA甲基化数据的异质性。临床场景中甲基化谱来自不同人群、测序平台和组织类型。bMAPLE的训练流程。首先利用成对学习训练编码器将不同来源的训练甲基化谱映射至统一隐空间随后基于生成的隐表示训练预测器以评估表观遗传年龄或疾病状态。该隐空间保留年龄或疾病相关的表观遗传信号同时最小化混杂因素。cMAPLE的推理流程。训练完成的模型以测试集甲基化数据为输入预测对应的表观遗传年龄和疾病风险评分。de训练所用的成对学习策略表观遗传年龄预测中成对学习用于预测不同数据集的两个样本间的实足年龄差异疾病风险预测中成对学习用于预测同1数据集内2个样本间的疾病风险评分差异。系统基准测试MAPLE在表观遗传年龄预测中的性能图2MAPLE与6种对比方法在31项基准测试中的性能a热图展示各血液来源测试数据集的表观遗传年龄预测中位绝对误差MAE数据集按GEO编号标注。GSE196696和GSE210255采用EPIC芯片其余采用450K芯片左侧标注甲基化数据预处理方法。7种方法按平均MAE从小到大从左至右排列。b热图展示7种非血液组织类型的年龄预测中位绝对误差测试数据集按组织类型标注方法按平均MAE从小到大从左至右排列。MAPLE识别的衰老相关CpG位点图3MAPLE捕获衰老相关生物学过程并检测加速衰老a柱状图展示MAPLE识别的衰老相关CpG位点邻近基因的富集通路。采用单侧超几何检验评估通路富集显著性P值经Benjamini–Hochberg法校正灰色虚线为校正后显著性阈值0.05。b点图展示全生命周期内表观遗传年龄与实足年龄绝对误差的100样本滚动均值轨迹。每个点代表100样本滚动窗口内的平均绝对误差颜色表示性别实线为数据的LOESS拟合曲线灰色阴影为95%置信区间。c–g箱线图展示唐氏综合征、HIV感染、吸烟、肥胖、阿尔茨海默病人群与对应对照组的衰老加速水平。每个点代表1个独立生物样本的衰老加速值箱线中线为中位数箱体为上下4分位数须线延伸至1.5倍4分位距范围采用单侧 t 检验评估统计学显著性。样本量唐氏综合征29例病例、19例对照血液HIV 感染229例病例、45例对照血液吸烟72例吸烟者、80例非吸烟者血液肥胖84例病例、82例对照肌肉阿尔茨海默病64例病例、63例对照脑组织。基于MAPLE的心血管疾病CVD风险评估图4基于MAPLE的DNA甲基化数据心血管疾病风险评估ab训练与测试样本甲基化隐表示的主成分分析PCA可视化a中点颜色代表样本年龄b 中点颜色代表心血管疾病相关状态对照组13,321例、动脉粥样硬化1,118例、冠脉扩张11例、卒中710例。c箱线图对比MAPLE左与Cox模型右预测的不同测试组心血管疾病风险评分每个点代表1个独立样本的风险评分各组样本量见图中标注箱线中线为中位数箱体为上下4分位数须线延伸至1.5倍4分位距范围。de柱状图展示区分卒中、冠脉扩张、动脉粥样硬化样本与对照组的曲线下面积AUROC和精确率-召回率曲线下面积AUPRC数据为均值误差线为95%置信区间2.5%–97.5%分位数由1,000次bootstrap重抽样估算灰色点为每次bootstrap的单个指标值展示完整分布。f柱状图展示MAPLE识别的心血管疾病相关CpG位点邻近基因的富集通路检验与校正方法同图3a灰色虚线为显著性阈值。基于MAPLE的2型糖尿病T2D风险评估图5基于MAPLE的DNA甲基化数据2型糖尿病风险评估ab训练与测试样本甲基化隐表示的主成分分析PCA可视化a中点颜色代表样本年龄b中点颜色代表2型糖尿病相关状态对照组12,576例、全身胰岛素抵抗40例、前驱糖尿病47例、2型糖尿病74例。c箱线图对比MAPLE左与Cox模型右预测的不同测试组2型糖尿病风险评分每个点代表1个独立样本的风险评分各组样本量见图中标注箱线中线为中位数箱体为上下4分位数须线延伸至1.5倍4分位距范围。de柱状图展示区分2型糖尿病、前驱糖尿病、全身胰岛素抵抗样本与对照组的曲线下面积AUROC和精确率-召回率曲线下面积AUPRC数据为均值误差线为95%置信区间由1,000次bootstrap重抽样估算灰色点为每次bootstrap的单个指标值。f柱状图展示MAPLE识别的2型糖尿病相关CpG位点邻近基因的富集通路检验与校正方法同图3a灰色虚线为显著性阈值。数据本研究使用的所有数据集均从公共数据库下载。表观遗传全基因组关联研究数据中心EWAS Data Hub收录大量标准化DNA甲基化芯片数据及对应元数据本研究450K平台的对照组样本主要来源于该数据库。https://ngdc.cncb.ac.cn/ewas/datahub/indexLOLIPOP项目提供2,711例血液样本DNA甲基化芯片数据450KGSE55763格雷迪创伤项目提供422例450K平台和795例EPIC平台血液样本甲基化数据GSE72680和GSE132203Johansson等研究提供732例血液样本甲基化数据450KGSE87571基因流行病学动脉病变网络GENOA项目提供418例450K和1,394例EPIC外周血白细胞甲基化数据GSE210254和GSE210255国际血液和骨髓移植研究中心CIBMTR项目提供570例血液样本甲基化数据EPICGSE196696AIRWAVE项目提供1,129例外周血单个核细胞甲基化数据EPICGSE147740欧洲精神分裂症基因-环境互作研究网络EU-GEI提供558例血液样本甲基化数据EPICGSE152026脂肪组织数据集157例450K来自Horvath等和Bonder等研究GSE61257、GSE61450、GSE61453脑组织数据集876例450K来自Horvath等和Jaffe等研究GSE64509、GSE74193颊上皮数据集27例450K来自Lussier等研究GSE109042肌肉组织数据集132例450K来自Zykovich等、Horvath等、Bonder等和Tobi等研究GSE50498、GSE61259、GSE61452、GSE78743唾液数据集131例450K来自Chuang等研究GSE111223皮肤数据集15例450K来自Tobi等研究GSE78743肝脏组织数据集177例450K来自Horvath等、Tobi等和Ahrens等研究GSE61258、GSE78743、GSE48325动脉粥样硬化数据集来自多种族动脉粥样硬化研究MESA和早期亚临床动脉粥样硬化进展研究PESAGSE56046、GSE220622冠脉扩张数据集来自Lu等研究GSE87016卒中数据集来自Cullell等和Soriano-Tarraga等研究GSE203399、GSE69138全身胰岛素抵抗数据集来自Arner等研究GSE76285前驱糖尿病数据集来自Yumi等研究GSE1997002型糖尿病数据集来自Lunnon等和Dye等研究GSE62003、GSE197881代码MAPLE源代码与分析脚本可从GitHub获取附带使用文档https://github.com/Drizzle-Zhang/MAPLE详细总结思维导图甲基化年龄预测性能31项基准测试参考Nat Comput Sci. 2026 Apr;6(4):388-403. doi: 10.1038/s43588-025-00939-x.A robust computational framework for methylation age and disease-risk prediction based on pairwise learning2604MAPLE.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。