1. 项目概述为什么我们需要一套多维度的气候降尺度评估指标如果你在气候建模或者统计降尺度这个领域工作过一段时间一定会对一个问题深有感触模型跑出来了结果看起来也“像那么回事”但到底有多“准”怎么跟别人家的模型比尤其是在处理像热浪、台风这类极端事件的风险评估时一个简单的“平均误差”或者“相关系数”根本不够看。模型可能在平均温度上偏差很小但把高温事件的频率和强度预测得一塌糊涂或者空间分布看起来合理但时间上的持续性完全对不上。这时候一套系统、多维度的评估指标体系就成了我们手里的“尺子”和“显微镜”。我最近在深入分析一个名为GenFocal的端到端统计降尺度框架时就深刻体会到了这一点。这个项目的核心挑战在于如何将全球气候模型GCM输出的、分辨率粗且存在系统性偏差的模拟数据“降尺度”到能够反映局地精细天气状态的高分辨率数据。这不仅仅是简单的插值放大更是一个复杂的统计重建过程涉及到偏差校正、时空分辨率提升以及长期时间连贯性的保持。因此评估其性能绝不能只看单一指标。传统的评估可能止步于计算每个格点上的平均偏差Bias或者均方根误差RMSE。但这远远不够。一个合格的降尺度结果其概率分布比如高温出现的频率、风速的极端值必须与观测通常用再分析数据ERA5作为代理匹配同时空间上相邻格点之间的协同变化比如一个气旋系统的结构、时间上的演变规律比如热浪的持续天数也必须被真实地再现。这就需要我们从“点”的误差走向“分布”的误差再深入到“场”的相关性。本文要拆解的正是这样一套从基础到高阶、从静态到动态的完整评估指标体系。它不仅仅是一堆公式的罗列更是我们理解模型在“分布”和“结构”层面表现如何的作战地图。我会结合GenFocal及其他几种主流降尺度方法如BCSD, STAR-ESDM的实际评估案例带你一步步看懂这些指标背后的物理意义、计算方法以及在实际操作中如何解读它们。你会发现评估本身就是一门理解模型局限性和潜力的艺术。2. 评估框架的核心数据组织与基本逻辑在深入每个指标之前我们必须统一“战场”的数据格式。这是所有计算的基础理解它才能避免后续的混淆。2.1 数据张量五维时空场的统一表达无论是降尺度模型的预测输出还是作为“地面实况”的再分析数据我们都需要将其组织成结构化的张量。在GenFocal的评估中预测的集合数据被定义为一个五维张量x[i, j, t, f, m]这五个维度分别是i, j空间维度。代表经纬度格点构成了数据的空间网格。t时间维度。代表时间步长例如每小时或每天。f变量场维度。代表不同的气候变量如2米气温T2M、海平面气压SLP、比湿Q等。在基础评估中通常为4个核心变量若考虑衍生变量如相对湿度、体感温度则可扩展至6个。m集合成员维度。这是预测数据特有的维度代表了基于同一组初始条件或不同物理参数化方案产生的多个可能情景。例如LENS2气候模型集合可能有100个成员而经过降尺度后每个原始成员可能又生成多个降尺度样本使总集合成员数达到800个。这个维度至关重要因为它允许我们评估模型的不确定性和概率分布特性。而作为参考的再分析数据如ERA5其结构类似但缺少集合成员维度因此是一个四维张量x_ref[i, j, t, f]为什么这么设计这种结构化的表达使得我们可以通过张量运算高效地沿着任意维度进行聚合求平均、计算分位数等这是后续所有统计计算的前提。例如要计算某个格点某种变量的气候态我们就是对时间维度t和集合维度m对于预测数据进行平均。2.2 时间索引的分解剥离气候信号中的周期成分在气候学中时间序列往往包含强烈的周期性信号最显著的就是日循环和年循环。直接对整个时间序列进行分析这些强信号可能会掩盖我们真正关心的、比如与极端事件相关的统计特性。因此在处理某些特定指标如后文会提到的“尾相依性”时我们会对时间索引t进行更精细的分解t - (t_h, t_d, t_y)t_h小时索引。标识一天中的时刻。t_d年日索引。标识一年中的第几天。t_y年索引。标识年份。这样分解有什么用最大的好处是允许我们进行“同历元”比较。例如在计算极端高温的协同发生时我们可能只关心每年夏季t_d在特定范围午后t_h在特定范围的情况这样可以避免将夏季午后高温与冬季夜间低温进行无意义的关联使得评估更聚焦于我们关心的天气/气候状态。在具体计算时每个子索引可以按不同的方式被“收缩”聚合这为分析提供了极大的灵活性。实操心得在代码实现时建议将原始时间戳如datetime对象提前解析成这三个维度并作为数据的元属性或坐标存储。这比在每次计算时动态解析要高效得多尤其是在处理数十年、小时分辨率的数据时。可以使用xarray或netCDF4库来方便地管理这种多维带坐标的数据。3. 点态分布误差你的模型“形似”吗这是评估的第一层也是最基础的一层在每一个空间格点上模型预测出的变量值的概率分布与参考分布相比到底差多少这关乎模型能否再现当地最基本的气候统计特征。3.1 均值绝对偏差系统偏差的全局度量均值绝对偏差衡量的是模型预测在“平均状态”上的系统性偏离。它的计算分为两步计算格点偏差对于每个格点(i,j)和每个变量f首先计算预测集合在所有时间和所有成员上的平均值再减去参考数据在所有时间上的平均值。Bias[i,j,f] mean_over_t_and_m(x[i,j,:,f,:]) - mean_over_t(x_ref[i,j,:,f])这个值可正可负正表示模型平均偏高负表示偏低。在气候模型中这种偏差往往与物理参数化方案的缺陷有关。计算空间平均的绝对偏差将上述所有格点的偏差取绝对值再在整个空间区域如美国大陆CONUS上求平均就得到了该变量的均值绝对偏差。MAB_f spatial_mean( abs(Bias[i,j,f]) )为什么用绝对值平均而不是直接平均偏差因为直接平均偏差即平均偏差Mean Bias可能由于正负抵消而接近于零从而掩盖了空间上存在的系统性高估或低估模式。MAB能更好地反映偏差的整体幅度。在GenFocal的评估中MAB被用于横向比较不同降尺度方法在核心变量温度、气压等上的整体偏差水平通常以表格形式呈现。3.2 平均Wasserstein距离分布形态的“搬运”成本如果说MAB只关心分布的中心均值那么Wasserstein距离又称“推土机距离”则关心整个分布的形状。它直观地定义为将一个分布预测的“概率质量”改造成另一个分布参考的形状所需付出的最小“工作量”。算法实步骤构建经验累积分布函数对于每个格点和变量分别聚合预测数据跨时间和集合成员和参考数据仅跨时间生成两个经验CDFCDF_pred和CDF_ref。数值积分计算距离Wasserstein-1距离可以通过两个CDF之差的L1范数来计算。在实践中我们在两个分布支撑集的并集上选取一系列分位点x_q计算在这些点上两个CDF的差值绝对值并用梯形法则等数值积分方法进行加权求和。WD[i,j,f] sum_over_q( |CDF_pred(x_q) - CDF_ref(x_q)| * weight_q )这里的weight_q通常取为相邻分位点的间隔。空间平均最后将所有格点的Wasserstein距离进行空间平均得到该变量的平均Wasserstein距离。MWD_f spatial_mean( WD[i,j,f] )这个指标的价值在哪里MWD对分布的尾部极端值和形态偏度、峰度非常敏感。即使两个分布的均值相同MAB很小但如果一个分布的极端高温更多、更频繁它们的MWD也会很大。因此MWD是评估模型能否模拟极端事件概率的关键指标之一。在评估报告中我们常会看到MWD与MAB并列前者往往能揭示出后者无法发现的问题。3.3 分位数平均绝对误差逐点“对标”极端值有时我们不仅关心整体分布还特别关心某些特定阈值比如第90、95、99分位数对应不同的极端事件定义。分位数平均绝对误差就是为此设计的。计算分位数对于每个格点和变量分别从预测数据聚合时间和成员和参考数据聚合时间中计算第p分位数得到Pctl_pred(p)和Pctl_ref(p)。计算格点绝对误差AE[i,j,f](p) |Pctl_pred(p) - Pctl_ref(p)|空间平均MAE_f(p) spatial_mean( AE[i,j,f](p) )实操要点与避坑分位数的估计算法像numpy.percentile这样的函数提供了多种插值方法如linear,midpoint,nearest。对于样本量较大的气候数据通常linear是默认且合理的选择。但需要注意在评估极端高分位数如99.9时由于样本稀少不同算法的结果可能差异较大需要在报告中注明所用方法。可视化MAE(p) 随分位数p变化的曲线图极具信息量。如果曲线在高端分位数急剧上升说明模型在模拟极端值时表现较差。在GenFocal的评估中这类图表被用来直观对比不同方法在模拟温度、风速等变量极端值时的能力。与MWD的关系MAE(p)是MWD的一个“切片”视图。MWD是所有分位数误差的积分而MAE(p)让我们能看到误差在分布不同位置的具体贡献。注意事项计算分位数尤其是高分位数时需要足够的数据量以保证统计稳定性。例如评估10年夏季JJA每天的数据约有920个样本。对于第99分位数只对应约第9大的值估计本身就有较大不确定性。因此在解释高分位数误差时需要结合集合成员的信息增加样本量或使用更稳健的极值理论方法进行估计。4. 时空相关性误差你的模型“神似”吗通过了“点态分布”的检验只算成功了一半。气候场不是一堆独立格点的简单集合它们之间存在复杂的空间组织和时间演变规律。一个“形似”但“神不似”的场对于研究热浪、气旋等空间连贯、时间持续的事件是无效的。因此我们需要第二层评估时空相关性。4.1 空间相关性误差格点间的“协同舞步”空间相关性衡量的是空间中两点气候变量波动的同步程度。我们不仅关心预测场本身的相关结构更关心它是否与参考场一致。计算流程详解计算格点时间序列均值对于预测数据计算每个格点(i,j)在所有时间和所有集合成员上的平均值x_bar_pred。对于参考数据则计算在所有时间上的平均值x_bar_ref。计算相关系数矩阵预测场对于目标格点(i,j)和其周围一定范围内的格点(k,l)计算它们去均值后的时间序列跨时间和成员的皮尔逊相关系数ρ_pred(i,j,k,l)。这形成了一个以(i,j)为中心的相关矩阵P_pred。参考场同理计算参考数据中(i,j)与(k,l)去均值后时间序列仅跨时间的相关系数ρ_ref(i,j,k,l)得到矩阵P_ref。计算点态空间相关性误差SCE(i,j,k,l) |ρ_pred(i,j,k,l) - ρ_ref(i,j,k,l)|聚合为单一指标通常我们将SCE矩阵视为一个向量计算其L1范数即所有元素绝对值的平均作为格点(i,j)的空间相关性误差。SCE(i,j) mean_over_k,l( SCE(i,j,k,l) )为什么这很重要例如在模拟一个低压系统时中心气压最低向外气压逐渐升高。这种空间梯度结构就体现在相关系数矩阵中。如果模型模拟出的空间相关性很弱或模式错误即使每个点的气压值都接近正确整个天气系统的结构也是失真的。在评估图中我们常会看到参考场和预测场的空间相关图以及它们的误差图后者能清晰揭示模型在哪些区域、多大尺度上未能捕捉到正确的空间协同关系。4.2 空间谱误差从“相关”到“尺度”空间相关性分析给出了点对点的关系而空间谱分析则告诉我们这种空间结构在不同空间尺度上是如何分布的。它回答的是模型能正确模拟多大尺度的波动方法核心二维傅里叶变换时空切片对于某个时间步t、某个集合成员m、某个变量f的空间场x[:,:,t,f,m]进行二维离散傅里叶变换得到其在空间频率域(ξ_k, ξ_l)上的系数X(ξ_k, ξ_l)。计算功率谱密度能量Φ(ξ_k, ξ_l) (1/A) * |X(ξ_k, ξ_l)|^2其中A是区域面积用于归一化。径向谱将二维频率(ξ_k, ξ_l)转换到径向频率ξ_r sqrt(ξ_k^2 ξ_l^2)并将相同ξ_r区间频段内的能量求和得到一维的径向功率谱Φ̃(ξ_r)。这步很关键它把方向信息平均掉只留下尺度信息。高ξ_r对应小尺度高频波动低ξ_r对应大尺度低频波动。计算谱误差分别对预测集合跨时间和成员平均和参考数据跨时间平均计算平均对数谱。空间径向谱误差定义为两者对数谱之差的绝对值再在所有径向频率上平均。SRSE_f mean_over_ξ_r( | log(mean_over_t,m(Φ̃_pred)) - log(mean_over_t(Φ̃_ref)) | )解读与意义气候场通常具有“红噪声”谱特性即大尺度波动能量强小尺度波动能量弱。SRSE指标可以量化模型在再现这种尺度依赖性能量分布上的误差。如果模型过度平滑缺乏小尺度细节其高波数小尺度的谱能量会低于参考值如果模型噪声过大则小尺度能量会偏高。通过绘制预测和参考的谱曲线我们可以一目了然地看出模型在哪个尺度范围内开始“失真”。4.3 时间谱误差气候的“脉搏”与空间谱类似时间谱分析揭示的是气候变量随时间波动的频率结构。例如日循环、天气尺度波动几天、季节内振荡、年际变率等各自对应不同的频率带。计算步骤时间序列傅里叶变换对于某个格点(i,j)、变量f、成员m的时间序列x[i,j,:,f,m]进行一维离散傅里叶变换得到频率ξ_s上的系数X(ξ_s)。计算功率谱Φ(ξ_s) (1/T) * |X(ξ_s)|^2T是时间序列长度。计算点态时间谱误差对预测集合在不同频率上的对数谱进行成员平均再与参考数据的对数谱比较取绝对差后在所有频率上平均。TSE(i,j,f) mean_over_ξ_s( | mean_over_m(log(Φ_pred)) - log(Φ_ref) | )空间平均TSE_f spatial_mean( TSE(i,j,f) )应用场景这个指标对于评估降尺度模型能否保持正确的时间变率至关重要。例如一些统计降尺度方法可能很好地保持了日平均值但扭曲了日循环日变化的幅度或相位这会在日循环对应的频率周期约24小时上产生较大的TSE。同样对于模拟与ENSO等年际变率相关的现象在低频部分的谱误差必须很小。排查技巧如果发现TSE在某个特定频率如对应1天或1年异常高首先检查输入输出数据的时间分辨率是否匹配以及预处理如时间平均、插值是否引入了虚假的频率信号。其次检查模型本身是否包含了足以模拟该时间尺度过程的物理或统计机制。5. 尾相依性极端事件的“协同作案”前几节评估的都是单个变量的统计特性。但在气候风险中真正的“杀手”往往是复合极端事件比如高温高湿同时发生致命热浪或者强风伴随暴雨。尾相依性就是用来量化两个或多个变量在极端情况下协同发生概率的指标。5.1 定义与计算尾相依性度量的是当一个变量超过其某个高分位数如第90百分位时另一个变量也超过其对应高分位数的条件概率。在GenFocal的评估中采用了一种非参数化的估计方法。计算步骤确定分位数阈值对于两个变量f和g在每个格点(i,j)分别从预测和参考数据中计算第p分位数作为极端事件的阈值。计算共现比例统计在所有时间步和集合成员中f和g同时超过各自第p分位数的次数比例并乘以100/p进行标准化。这个值Λ(p)就是p水平下的尾相依性估计。Λ(i,j,fg)(p) (100/(N_ens * N_t * p)) * sum_over_t,m[ 1( x_f Pctl_f(p) and x_g Pctl_g(p) ) ]平均化以获得稳健估计由于单一分位数估计可能不稳定通常选取一个分位数区间如p ∈ [90, 95]计算该区间内多个p值对应Λ(p)的平均值得到最终的尾相依性估计Λ̃。计算误差尾相依性误差即为预测值与参考值之差的绝对值TDE |Λ̃_pred - Λ̃_ref|。物理意义例如计算2米气温T2M和相对湿度RH的尾相依性。如果参考数据显示当出现极端高温时极端高湿也经常同时发生即尾相依性高而模型模拟出的尾相依性很低那就意味着模型低估了“闷热”型极端高温事件的风险这对于公共卫生领域的风险评估将是重大缺陷。5.2 注意事项与扩展上下尾对称性上述定义针对的是“上尾”高极端值的相依性。要评估“下尾”低极端值如极端低温的相依性只需将相应变量取负号即可。例如评估极端低温和强风的关系。与线性相关的区别皮尔逊相关系数衡量的是整体线性关系对中心区域的数据点敏感。而尾相依性专门捕捉分布尾部的关系两者可以完全不同。两个变量可能整体相关性很弱但在极端情况下却表现出很强的协同性尾相依性高这对于金融风险和气候风险都至关重要。样本量要求尾相依性的估计需要大量的极端事件样本。这就是为什么在气候评估中要使用大型集合模拟多个成员、多年数据的原因。样本量不足会导致估计值方差很大结论不可靠。6. 面向极端事件的衍生评估热浪与热带气旋基于上述基础指标我们可以构建更贴近实际应用和风险感知的评估。GenFocal的评估体系就深入到了热浪和热带气旋这两种具有重大影响的极端事件。6.1 热浪事件的识别与评估热浪不是单日高温而是持续多日的高温过程。评估模型对热浪的模拟能力需要定义明确的事件识别算法。热浪定义以美国NOAA建议为例阈值基于体感温度Heat Index, HI设定不同预警级别如Caution: HI ≥ 80°F (~26.7°C)Extreme Caution: HI ≥ 90°F (~32.2°C)Danger: HI ≥ 103°F (~39.4°C)Extreme Danger: HI ≥ 125°F (~51.7°C)持续性定义一个热浪事件为连续s天例如s3每天的最高体感温度都达到或超过某个预警阈值。非重叠计数在给定的评估期如10年内统计所有满足条件的、非重叠的s日热浪事件次数。评估指标计算预测集合和参考数据在评估期内年平均的s日热浪事件次数然后计算两者之差的绝对值。这个“热浪频次误差”直接反映了模型在模拟这种持续性极端热事件上的能力。关键细节体感温度的计算体感温度HI是气温和湿度的非线性函数。早期研究使用NOAA基于Steadman模型的多项式拟合公式但在模拟极端情况时特别是在高海拔或湖区该公式会产生不现实的高值。GenFocal评估中采用了Lu and Romps (2022) 提出的完整物理解通过迭代求解一个方程组来计算HI这在高极端值评估中更为可靠。这是一个重要的实操教训在评估极端事件时必须使用经过严格验证、适用于全范围的物理公式避免使用在极端区域可能失效的经验拟合。6.2 热带气旋的检测与校准评估TC的模拟是降尺度最具挑战性的任务之一因为TC是强非线性、多尺度相互作用的产物。检测流程使用专业工具通常采用如TempestExtremes这样的开源软件包进行客观检测。设定物理判据一套典型的判据包括海平面气压识别局地SLP最小值并要求在一定距离内SLP升高超过某个阈值如200 Pa。风速最大风速需持续超过阈值如10 m/s至少一段时间如2天。持续时间系统需维持以上特征至少一定时长如54小时。路径连续性相邻时间步的TC中心位置距离不能过大。可选暖心结构更严格的检测会要求高层有暖核或特定的位涡结构但基于近地面变量的降尺度评估可能暂不包含此项。核心挑战与校准一个普遍问题是全球气候模型如LENS2本身对TC强度的模拟就存在系统性偏差通常低估了中心气压的下降深度即TC强度偏弱。这种偏差会传递到降尺度结果中导致直接应用检测算法时TC数量被严重低估。解决方案——条件仿射校准 为了解决这个问题GenFocal等评估采用了一种校准方法仅对低于环境气压如1010 hPa的SLP最小值进行比例缩放。P0_calibrated K * P0 (1-K) * P_ambient, if P0 P_ambient其中K 1是一个校准常数。这相当于按比例加深了低压中心的强度从而让更多较弱的低压信号能够被检测算法识别。校准流程在训练期历史时期数据上遍历一个K值的候选范围如1/K从0.1到0.9。对每个K值应用校准公式然后运行TC检测算法。计算检测到的TC数量、路径长度、生命期等统计量与参考数据的匹配程度。选择使匹配度最优的K值作为该模型的校准常数。将此K值固定应用于评估期乃至未来情景的预测数据。评估指标经过校准后可以比较预测与参考在以下TC特征上的差异数量特定区域、时段内的TC总数。生成密度TC首次生成位置的空间分布。路径密度TC路径经过位置的空间分布。强度基于中心气压推算的最大风速、萨菲尔-辛普森等级。路径特征平均路径长度、生命期、曲折度等。解读在GenFocal的评估中一个有趣的发现是GenFocal模型所需的校准常数K最接近1即1/K0.6而其他统计降尺度方法如BCSD需要更强的校准1/K0.2。这表明GenFocal在从粗分辨率输入中恢复TC强度信号方面具有内在优势其系统性偏差更小。这背后可能源于其生成式AI模型更好地捕捉了与TC相关的多变量协同结构和时空连贯性。7. 评估实践中的常见问题与排查思路在实际运行这套评估体系时会遇到各种技术性和科学性的问题。以下是我从项目实践中总结的一些常见陷阱和应对策略。问题一计算资源与效率挑战处理高分辨率、多成员、长时序的五维数据计算Wasserstein距离、空间相关性矩阵、二维傅里叶变换等都是计算和内存密集型操作。策略分块计算对于空间相关性和谱分析可以将大区域划分为重叠或不重叠的子区域分别计算再合并结果。注意子区域要足够大以包含感兴趣的空间尺度。抽样对于集合成员非常多的情况如800个在计算某些统计量如集合平均时可以考虑使用随机子采样来估计以节省时间。利用并行几乎所有指标的计算都可以并行化。使用Dask、MPI或简单的multiprocessing库对空间格点或集合成员进行并行循环。优化I/O使用netCDF/HDF5格式存储数据并利用其分块和压缩特性。计算时按需读取数据块避免一次性加载整个数据集。问题二指标间的权衡与解读挑战没有哪个模型能在所有指标上都最优。一个模型可能MAB很小但MWD很大分布形态差另一个可能空间相关性好但尾相依性差。策略明确评估目标根据下游应用决定指标的优先级。如果关注平均气候态MAB和空间相关性是关键。如果关注洪涝风险则极端降水分位数和时空持续性指标更重要。综合可视化制作“雷达图”或“泰勒图”将多个指标的标准化表现放在一起对比可以直观显示不同模型的优缺点。物理一致性检查检查指标间是否存在物理上矛盾的结果。例如如果模拟的TC路径密度很高但平均强度很弱这可能提示检测阈值或校准参数设置不当。问题三参考数据的不确定性挑战再分析数据如ERA5本身并非完美“真值”它也有不确定性特别是在观测稀疏的地区和极端情况下。策略使用多套再分析数据如果可能使用ERA5、MERRA2、JRA-55等多套再分析产品作为参考评估模型结果相对于这个“参考集合”的偏差和散布。这有助于区分模型误差和参考数据本身的不确定性。关注相对性能在比较不同降尺度方法时只要它们使用相同的参考数据其相对优劣的结论是可靠的。绝对误差的大小则需要结合参考数据的不定性来谨慎解读。问题四极端事件样本不足挑战即使有30年的数据百年一遇事件的样本也极少导致尾相依性、极端分位数等指标估计方差大。策略利用集合成员这是集合预测的最大优势。将多个成员视为来自同一气候统计总体的独立样本可以极大地增加极端事件的样本量。应用极值理论对极端值的分布如广义极值分布进行拟合然后基于拟合分布来估计高分位数和超越概率这比直接使用经验分位数更稳健。空间聚合对于空间范围较大的极端事件如区域热浪可以考虑在空间上进行一定程度的聚合如区域平均再计算指标以增加有效样本。问题五代码实现与复现性挑战评估流程复杂涉及多个步骤和自定义指标代码容易出错且难以复现。策略模块化设计将每个指标的计算封装成独立的、有良好文档的函数或类。输入输出定义清晰。单元测试对每个计算函数使用小型人造数据如已知均值和方差的随机场验证其输出是否符合理论预期。版本控制与容器化使用Git管理评估代码和配置。使用Docker或Singularity容器封装完整的软件环境Python版本、库依赖等确保任何人、在任何机器上都能复现评估结果。生成评估报告使用Jupyter Notebook或R Markdown等工具将数据读取、计算、绘图和结果解读串联成一个可执行的文档使整个评估流程透明化。评估气候降尺度模型是一项系统工程远不止跑几个脚本、出几张图那么简单。它要求我们深入理解每个指标的物理和统计含义精心设计计算流程以平衡精度与效率并谨慎地解读多指标之间可能存在的权衡与矛盾。本文梳理的这套从分布误差到时空相关性再到具体极端事件评估的指标体系提供了一个相对完整的框架。但最重要的是要始终牢记评估的最终目的不是为了给模型打分而是为了理解模型的局限性从而更好地信任并使用其提供的未来气候风险信息为决策提供真正可靠的依据。在实际项目中我通常会先快速跑通所有基础指标得到一个整体印象然后针对模型表现最差或下游应用最关心的几个指标进行深入的诊断分析这往往能发现模型结构中更深层次的问题。