新南威尔士大学与谷歌:血糖传感器实现糖尿病风险预测能力提升
这项由新南威尔士大学与谷歌研究院联合开展的研究于2026年5月1日以预印本形式发布论文编号为arXiv:2605.00933有兴趣深入了解技术细节的读者可通过该编号在arXiv平台查阅完整原文。**一场关于看透血糖的侦探故事**每天全球有数以亿计的人戴着一种小小的传感器贴片生活——连续血糖监测仪CGM。这个像硬币大小的设备每五分钟就会记录一次你皮肤下的血糖浓度24小时不间断织出一张密密麻麻的血糖波动地图。对普通人而言这张地图也许只是一条起伏的折线但对医学研究者而言它藏着的秘密远不止于此。糖尿病并不是从天而降的。在被正式确诊之前人体往往已经在两条截然不同的岔路上悄悄走偏一条叫做**胰岛素抵抗**另一条叫做**β细胞功能障碍**。前者的意思是你的身体分泌了足够的胰岛素但细胞就是不听话拒绝接受它的指令血糖于是居高不下——类似于你拼命打电话对方就是不接。后者则是胰岛细胞本身偷懒了分泌的胰岛素越来越少就像工厂产能下降供货跟不上需求。这两种机制虽然结果相似血糖升高但根源完全不同治疗方案和生活干预方向也大相径庭。问题在于这两种状态产生的血糖曲线往往高度相似就像两个不同原因引发的发烧体温计的读数几乎一模一样。传统方法想区分它们需要做一种叫做口服葡萄糖耐量试验OGTT的检查在医院里喝下一大杯糖水然后每隔一段时间抽一管静脉血。这个过程耗时漫长、有创伤、成本高昂根本无法在大规模人群中推广。那么穿戴在手臂上的那块小小传感器能不能替代这根刺入静脉的针这正是这项研究试图回答的核心问题。**一、研究面临的两个死结**研究团队一开始就面对两个相互纠缠的麻烦。第一个麻烦可以用一个日常比喻来理解假设你要根据一个人的行为来判断他的内心状态但这个人的行为会因为场合不同而完全变样——在家里温文尔雅在公司咄咄逼人在朋友面前嘻嘻哈哈。同样一个内心状态表现出来的信号却五花八门。血糖数据也是如此。同一个人的胰岛素抵抗状态在医院做的静脉血检测是一种样子戴着传感器在家里自由生活时测出来的是另一种样子用统计学方法将血糖分布压缩成一张密度图这种方法叫做Glucodensity即血糖密度图又是第三种样子。每一种样子都捕捉了真相的一个侧面但单独依赖任何一种都难以在不同场合下稳定地发挥作用。第二个麻烦是稳定性问题。现有的各种方法各有各的擅长场景某种方法在医院环境下表现优秀到了居家场景就崩了另一种方法在某类人群上效果不错换一批人就失灵了。这就像一位侦探破某类案子很厉害换个案子类型就束手无策。在医疗场景中这种不稳定性是不能接受的——你不能用一种只在特定条件下好使的工具来做健康决策。研究团队认为这两个麻烦其实指向同一个根本原因现有方法都太表面化了它们学到的是某种特定信号的表面特征而不是背后更深层的、跨越各种样子都能保持稳定的生理规律。破解之道是找到一种能够**超越任何单一视角、抓住更高层次规律**的表征方式。**二、一套全新的抽象侦探框架**研究团队提出的解决方案叫做CGM-JEPA以及它的加强版X-CGM-JEPA。名字里的JEPA代表联合嵌入预测架构Joint Embedding Predictive Architecture这个概念最早被用于计算机视觉领域现在被研究团队首次引入到血糖时间序列的分析中。要理解JEPA的核心思想可以用学习认路来打比方。有两种方式可以记住一条回家的路第一种是死记硬背每一个路口的样子——这棵树、那块招牌、某个路灯的颜色。第二种是理解这条路的空间结构——哪里是主干道哪里是小巷大概的方向感是什么。第一种方式在熟悉的场景下很管用但一旦路灯换了、树被砍了或者你换了个起点立刻迷路。第二种方式掌握的是更高层次的结构换了环境照样能找到家。CGM-JEPA选择了第二种方式。它的训练过程是这样的把一天24小时的血糖数据切成24个小块每块对应一个小时然后随机遮住其中一些小块让模型用剩余可见的部分去**预测被遮住部分在抽象空间里应该是什么样子**。关键在于它预测的不是被遮住那段血糖数值的具体数字而是这段数据在一个高维抽象空间中的语义坐标。这个区别非常重要如果你让模型猜具体数值它会拼命记住各种表面特征如果你让它猜抽象坐标它就被迫去理解更深层的规律。为了防止这个抽象坐标的参考系随着训练崩塌这是同类方法的常见问题整个空间缩成一个点所有东西都预测成同一个答案模型采用了一种叫做**指数移动平均**EMA的机制专门维护一个目标编码器它的参数不直接训练而是慢慢跟随主编码器的变化就像一位稳重的老师傅不会因为学徒的一时冒进而轻易改变自己的判断。X-CGM-JEPA则在这个基础上加了一个第二视角。除了从时间序列角度预测被遮住的血糖片段它还同时学习用血糖时间序列来预测对应的血糖密度图Glucodensity——也就是把这一天的血糖值、血糖变化速率和变化加速度的联合分布压缩成一张三通道的热力图。这两种视角捕捉的信息是互补的时间序列擅长捕捉局部的动态变化密度图则能看到整天血糖的全局分布结构。当时间序列看不清楚的地方密度图能补上信息当两者都看到同样的规律时信息得到强化。研究团队把这个设计理念称为加法式抽象一个视角的盲区由另一个视角来填补。**三、数据从哪儿来怎么训练**为了训练这套模型研究团队整合了两个来源的数据。第一个是斯坦福大学CGM研究中的22名受试者的居家连续血糖数据第二个是西班牙研究者Colás团队发布的206名受试者数据集。两个来源合并后形成了约413个受试者-天的训练数据换算成每五分钟一个点的密度大约是389,000行血糖读数。这些数据全部是**无标签**的——也就是说模型在学习过程中完全不知道这些人是否有胰岛素抵抗或β细胞问题它只是在大量血糖曲线中学习血糖规律本身。对于评估效果研究团队使用了斯坦福大学一项临床研究的数据分为两个队列。初始队列有27名受试者他们有通过静脉抽血OGTT得到的金标准代谢标签但没有居家CGM数据。验证队列有17名受试者他们同时拥有静脉血数据和多种方式的CGM数据包括在医院戴的CGM以及回家后两次居家CGM。两个队列的受试者完全没有重叠验证队列的受试者在预训练阶段也被完全排除在外确保评估的严格性。整个评估采用了非常严格的统计方案在每种场景下都进行20轮、每轮2折的交叉验证也就是总共40次独立评估然后取平均值。这样做的目的是消除偶然性——不是某一次运气好而是在反复折腾之后仍然稳定领先。**四、三种战场全面检验**研究团队设定了三种不同的实战场景来检验模型性能每一种都对应现实中真实可能发生的部署情况。第一种叫做居家CGM场景用验证队列受试者的居家CGM数据来训练分类器也用同样类型的数据来测试。这最接近未来大规模推广时的真实场景——你在家里戴着传感器系统直接给你分析结果。第二种叫做静脉血转CGM迁移场景分类器用静脉血检测数据训练因为这是有金标准标签的数据来源但测试时用的是居家CGM数据。这模拟了一种很现实的困境有准确标签的历史数据来自医院但未来要推广时只有消费级传感器数据两者存在模态差距。第三种叫做队列泛化场景分类器在初始队列27人仅有静脉血数据上训练在验证队列17人也用静脉血数据上测试。这检验的是模型面对换一批人时的泛化能力。在每种场景下都评估两个临床指标胰岛素抵抗IR和β细胞功能障碍共形成六个战场。对比的基准方法包括经典降维方法PCA、专门针对血糖数据设计的GluFormer、通用时间序列对比学习方法TS2Vec以及两个大型时间序列基础模型MOMENT小版和大版和Mantis。**五、战场上的成绩单**结果相当清晰地呈现出了一个规律可以用一个竞技场比赛的类比来理解在六个不同项目的比赛中没有任何一个基准选手能在超过三个项目里保持前三名但CGM-JEPA家族却几乎在所有项目里都待在前两名的位置。具体来说在居家CGM场景中X-CGM-JEPA预测β细胞功能障碍的AUROC这是衡量分类器整体辨别能力的指标满分是10.5相当于随机猜测达到了0.946比最强基准方法PCA高出约2.1个百分点。在F1分数衡量精准率和召回率综合平衡的指标上只有JEPA家族的两个版本超过了0.80大关而最强基准PCA仅为0.760相差整整5个百分点——这个差距在实际筛查部署中意味着更少的漏诊和误诊。对于胰岛素抵抗这个指标GluFormer在这个场景下是唯一一次超过JEPA家族的情况AUROC为0.889而X-CGM-JEPA为0.857但有趣的是X-CGM-JEPA的F10.754和PR-AUC0.883反而更高说明在实际操作中的表现更均衡。在静脉血转CGM迁移这个最具挑战性的场景中JEPA家族的优势最为突出。对于β细胞功能障碍X-CGM-JEPA的AUROC达到0.949而GluFormer只有0.801MOMENT大版更是仅有0.606几近随机水平。对于胰岛素抵抗更戏剧性的结果是GluFormer在这个场景下AUROC只有0.530几乎等于随机猜测——这说明它在居家场景下学到的东西完全无法迁移到模态切换的情境中。JEPA家族在两个指标上的标准差衡量稳定性的指标也是所有方法中最低的意味着它不仅表现好而且非常稳定。在队列泛化场景中JEPA家族取得了全文中最大的绝对优势对于β细胞功能障碍X-CGM-JEPA的AUROC为0.855而最强基准PCA只有0.790差距高达6.5个百分点。这是一个在医学研究中相当可观的提升。与此同时X-CGM-JEPA在这个场景下的AUROC标准差从CGM-JEPA的0.112骤降到0.064相当于稳定性提高了43%——这正好印证了加法式抽象的设计逻辑当时间序列数据本身比较稀疏静脉血只有大约9个时间点密度图视角提供的互补信息能显著稳定表征的质量。**六、深入表征空间聚类结构的质量**除了分类性能研究团队还对模型学到的表征空间本身做了几何分析相当于检查侦探的案件档案室整理得是否合理——不仅要关注最终破案率还要看档案的条理性。三类无监督指标轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数衡量的是表征空间中不同类别的样本是否分布得清晰、紧凑、间距分明。在全部三个队列-模态组合中JEPA家族的几何质量都优于所有基准方法没有出现任何例外。更能说明问题的是标签感知聚类一致性分析研究团队对每种方法的表征空间做了双簇K均值聚类然后看聚出来的两个群体和真实的代谢标签有问题/没问题是否吻合。结果显示在初始队列的静脉血数据上X-CGM-JEPA的调整兰德指数ARI越接近1越好为0.288而CGM-JEPA为0.208PCA为0.225。X-CGM-JEPA比纯时间序列版本高出39%比最强基准高出28%——这意味着在完全没有任何标签信息的情况下模型自然形成的分组已经与临床真相高度吻合。这个分析还揭示了一个值得关注的细节标签感知聚类的优势正好集中在数据最稀疏的那个场景静脉血每个受试者只有约9个时间点的真实观测。当时间维度的信息量最少时密度图视角的补充作用也最大——这与研究团队的理论预期完全一致。**七、血糖曲线的时间地图判别信号藏在哪里**研究团队还做了一个很有临床意义的分析在OGTT的不同时间段模型提取的表征信号对两种代谢障碍的区分力有多强他们把一天的血糖轨迹切成四个时间段P0到P3分别对应-10到45分钟、50到105分钟、110到165分钟、170到225分钟然后计算每个时间段的表征对有病和没病两类样本的区分能力。结果出现了两种截然不同的模式。对于胰岛素抵抗判别能力在P1喝糖水后50到105分钟达到峰值P2次之——这与生理学知识高度吻合胰岛素抵抗的问题在于外周组织清除葡萄糖的能力下降这个问题在葡萄糖摄入后早期就会显现出来。对于β细胞功能障碍峰值则出现在P2110到165分钟因为胰岛素分泌不足的后果要等到葡萄糖负荷充分之后才会完全暴露出来。同时比较CGM-JEPA和X-CGM-JEPA在各时间段的判别能力可以发现一个耐人寻味的现象X-CGM-JEPA各时间段的峰值判别能力反而略低于CGM-JEPA比如胰岛素抵抗P10.373 vs 0.448但它的下游分类F1反而更高。这说明X-CGM-JEPA并没有把所有鉴别信息集中押注在某一个特定时间窗口而是把判别信号更均匀地分布在整条时间轴上——这正是密度图视角的效果当你知道整天的血糖分布长什么样时你就不必非得死盯着某一段时间来做判断。**八、公平性被遗忘的群体获得更多关注**研究团队还做了一个在医疗AI领域经常被忽视的分析按照受试者的性别、年龄段、体重指数BMI和种族分别计算各个子群体上两种模型的表现差异。结果呈现出一种清晰的劫富济贫模式。在静脉血转CGM迁移场景中原本CGM-JEPA表现最差的子群体恰恰是X-CGM-JEPA提升最大的地方。亚裔子群体n5在β细胞功能障碍检测上CGM-JEPA的AUROC仅为0.739而X-CGM-JEPA提升至0.792差了5.2个百分点。同样在胰岛素抵抗检测上亚裔子群体从0.669提升至0.723提升幅度5.4个百分点是所有子群体中最大的。女性子群体在两个任务上也分别提升了1.6和2.3个百分点。而原本表现就已经接近天花板的子群体比如高加索裔男性AUROC已达0.985变化则微乎其微甚至略有下降但绝对值仍在0.87以上。用这个框架来衡量两种族群之间的AUROC差距在β细胞任务上从0.246压缩到0.184缩小了25%在胰岛素抵抗任务上从0.084压缩到0.039缩小了54%。跨性别的差距也分别缩小了8%和10%。整体平均AUROC几乎没有变化不到0.01这说明X-CGM-JEPA不是通过拉高平均分来刷好看的数字而是通过改善最薄弱的那一环来提升整体均衡性。这个发现背后的逻辑其实不难理解不同族群和性别的人其血糖动态的时序特征可能有所不同但血糖的整体分布结构密度图所捕捉的那种信息在不同群体间可能更为普适。当时序特征难以区分某些群体时分布结构视角提供的补充信息恰好能弥补这个空白。**九、超参数有多敏感**研究团队还系统地测试了两个关键超参数对结果的影响结论相当令人放心。在遮罩比例即训练时随机遮住多少比例的时间段的测试中研究团队尝试了25%、50%、75%三种设置。CGM-JEPA的平均AUROC在三个设置间的变化不超过0.001X-CGM-JEPA在三种设置下更是给出了完全相同的平均AUROC0.805。这说明一天的血糖数据有足够的内在冗余无论遮住多少剩下的部分都足以提供有效的训练信号。对于X-CGM-JEPA中密度图损失的权重系数λ取值范围0.1到1.0三个设置下的平均AUROC变化仅为0.0016而每次运行的随机波动标准差约0.043到0.046比这个差异大了一个数量级。换句话说用密度图视角来补充信息的效果是稳定的不会因为调权重而大幅变化——这与两个视角提供互补而非竞争的信息的理论预期一致。**十、有多少标注数据才够用**研究团队还测试了当标注数据量减少时模型的表现。在三种标注比例25%、50%、75%下规律相当清晰当标注数据极少25%的训练集时所有方法都处于高度不确定的状态差异意义不大。但一旦标注数据达到50%甚至75%JEPA家族就与其他方法拉开了差距领先2到4个AUROC百分点。更引人注目的是稳定性差异在50%标注数据下CGM-JEPA的跨折标准差为0.0007X-CGM-JEPA为0.0001而最强基准PCA的标准差为0.012——也就是说JEPA家族的稳定性比基准方法高出一到两个数量级。这意味着只要有足够但仍然有限的标注数据JEPA家族给出的结论是高度可重复的不会因为随机拆分方式不同而忽高忽低。**十一、研究的边界与诚实的局限**研究团队在论文中明确承认了几个重要局限这里同样值得忠实呈现。首先两个评估队列的规模偏小初始队列27人验证队列仅17人。尽管通过大量重复交叉验证来提高统计可靠性但小样本意味着子群体分析如按种族或性别分组的每组人数更小最少只有5人结论需要谨慎解读。其次评估数据来自同一个研究机构斯坦福大学使用同一种血糖仪收集真实世界中不同品牌设备之间的差异、不同医院数据收集流程的差异尚未经过检验。第三模型目前只支持两种代谢亚型标签未来是否能扩展到更多代谢指标还是未知数。研究团队特别强调这套系统是科研原型不是医疗产品。它没有经过临床验证不能用于任何形式的医疗诊断或决策如需临床应用必须经过正式的监管审批流程。归根结底这项研究做了一件重要的事它证明了一块每天默默记录血糖波动的小小传感器贴片通过合适的读法——一种不死抠数值、而是理解结构的读法——确实能够反映出深层代谢状态的差异而且这种读法具有相当程度的稳定性不随测量方式的变化而崩溃。这不意味着可以立刻用血糖手环来替代医院检查但它清晰地指出了一条可以继续前行的路在积累更大规模、更多样化数据的前提下无创、连续、廉价的血糖监测设备有潜力成为大规模代谢风险筛查的核心工具。从每个人每天悄悄积累的血糖数字中读出疾病提前到来的信号这件事在技术层面的可行性正变得越来越清晰。如果你对具体的技术实现细节感兴趣可以通过arXiv编号2605.00933查阅完整论文研究团队也公开发布了代码、去识别化数据和预训练权重地址在GitHub上的cruiseresearchgroup/CGM-JEPA仓库。---QAQ1连续血糖监测仪CGM预测代谢亚型和传统医院静脉血检测相比准确率差多少A根据CGM-JEPA的研究结果在队列泛化场景下X-CGM-JEPA对β细胞功能障碍的AUROC为0.855比最强基准方法高出6.5个百分点。整体来看JEPA家族方法在三种测试场景下均保持前两名而静脉血检测仍是产生金标准标签的来源两者并非直接替代关系而是模型用静脉血标签训练、用CGM数据做推断。Q2X-CGM-JEPA中的血糖密度图是什么普通人能看懂吗A血糖密度图Glucodensity是把一整天的血糖曲线转化成一张热力图横轴是血糖值纵轴是血糖变化速度颜色深浅代表出现频率。直观来说就像把一天的血糖走路轨迹压缩成一个脚印分布图可以看出某人的血糖主要在哪个区间徘徊、变化幅度大不大比单纯看曲线包含更多统计信息。Q3CGM-JEPA能直接用于临床诊断胰岛素抵抗吗A目前不能。研究团队在论文中明确说明CGM-JEPA是科研原型尚未经过临床验证不能用于医疗诊断或决策。现有评估基于两个小规模队列共44人且仅涵盖一种CGM设备。要进入临床应用需要在更大规模、更多样化的人群和设备上验证并经过正式监管审批。