这项由加州大学河滨分校、哈佛史密森尼天体物理中心AstroAI研究组以及UniverseTBD联合完成的研究发表于2026年在斯坦福大学举办的物理与人工智能会议PAI 2026论文编号为arXiv:2606.25610v1发布于2026年6月24日。**宇宙大数据时代的烦恼**天文学家们正面临一个令人欣喜又令人头疼的处境望远镜每天拍摄的星系照片数量之庞大人工逐张分析根本不可能完成。以DESI暗能量光谱仪、欧几里得太空望远镜和LSST大型综合巡天望远镜为代表的新一代巡天项目正在以前所未有的速度产出海量宇宙影像。面对这样的数据洪流天文学家们逐渐转向一种名为基础模型的人工智能技术——这类AI能够从大量数据中自动学习规律进而帮助科学家提取有用信息。然而在这股AI浪潮中有一个关键却长期被忽视的环节悄悄影响着最终结果的好坏那就是分词器Tokenizer。这个词听起来很陌生但它的作用可以用一个生活场景来理解假设你要把一幅画交给一位只懂阅读文字的学者去分析你首先得把这幅画翻译成文字描述而这位翻译的水平——是粗略描述轮廓还是精准记录每一笔颜色——将直接决定学者能从中获取多少信息。分词器做的就是把星系图像翻译成AI能处理的数字序列这一步骤。这支研究团队提出了一个核心问题不同的翻译方式会不会显著影响AI最终学到的知识换句话说同一张星系照片用不同方式翻译给AIAI对这个星系的物理性质比如它距离我们多远、质量有多大、正在以多快的速度形成新恒星的理解会有多大差别这看似技术性的问题实则触及了AI天文学的根基我们是否真的在训练一个理解宇宙的AI还是只是在训练一个复现图片的AI**一、四种翻译官的各自性格**研究团队选取了640000张来自DESI遗产巡天项目DR8数据集的星系图像作为研究材料每张图像包含g、r、z三个波段的信息分辨率为256×256像素。他们将所有图像统一输入同一个名为AstroPT的AI骨架这是一个专为天文数据设计的解码器式变换器模型拥有8900万个参数共12层能够像GPT那样自回归地阅读数据序列然后分别配备四种不同的分词器观察同一个AI骨架在不同翻译方式下会学到什么。第一种分词器叫做仿射分词器Affine Tokenizer可以把它理解为最朴素的直译员。它把每张图像切成8×8像素的小方块共1024块然后用一个简单的线性数学变换把每个小方块变成AI能读懂的数字向量。没有花哨的处理没有额外的计算所有的理解工作都留给后续的AI骨架来完成。这种方式的优点是简单、快速、计算成本低是整个实验中的基准参照。第二种分词器叫做AIM分词器它的思路和仿射分词器相近同样是把图像切成小方块但翻译时不再是简单的线性变换而是用一个多层感知机MLP一种能捕捉非线性关系的神经网络来做变换。这意味着翻译员多了一点理解能力能感知到方块内部像素之间的复杂关系而不只是做简单的加权求和。仿射和AIM这两种方法都对每个小方块做了z-score标准化处理即把每个方块的像素值调整到均值为零、方差为一的标准范围这一步骤有助于训练稳定但也会让重建出来的图像看起来有一种明显的方格感。第三种分词器叫做JetFormer分词器灵感来自一篇专门研究图像自回归生成的论文采用了一种叫做归一化流Normalizing Flow的可逆数学变换。可以把它理解为一位极为严谨的翻译员他的翻译是完全可逆的——拿到翻译稿就能完整还原原文一个字都不丢失。图像先经过均匀去量化处理把离散的像素值变成连续分布再通过一个二维流模块变成潜在表示。由于整个过程是可逆的同一个模块既充当编码器也充当解码器不需要单独预训练而是从头到尾与AI骨架一起训练。JetFormer使用混合高斯分布来预测每个连续值的概率而非像离散分词器那样从一个固定词汇表中选择。值得一提的是JetFormer训练时需要一个特殊的噪声课程表RGB噪声从σ64逐渐降至零潜在空间的噪声也从0.3降至零。如果没有这个课程表流模型可能会把信息偷偷藏在人类感知不到的高频维度里导致训练崩溃。第四种分词器叫做VQ-VAE分词器可以把它比作一位习惯用图章盖戳来分类的翻译员。它先用一个编码器网络把图像压缩成连续的潜在向量然后强制把每个向量量化到一个由512个固定代码组成的词典中的最近邻。换句话说这位翻译员只认512个固定词汇无论原始图像多么复杂最终都要归类到其中某个词汇上。VQ-VAE在正式训练AstroPT骨架之前已经单独在星系图像上预训练并冻结训练时使用的是交叉熵损失来预测下一个离散词元。这个预先学好词典再冻结的设计让它与其他三种分词器在训练流程上存在本质差异这也是研究团队坦承的一个方法论局限——这四种比较并不是完全等价的对照实验而是各自按照文献中最佳实践来实现的最公平的竞争。**二、谁的重建效果最好答案出人意料地简单**判断一个翻译官好不好最直接的标准是拿到翻译稿之后能还原出多像原文的内容研究团队用两个指标来量化这一点SSIM结构相似性数值越接近1越好和PSNR峰值信噪比单位是分贝数值越高越清晰。JetFormer在图像重建上以绝对优势胜出。在5000张随机测试图像上它的平均PSNR达到了31.11分贝波动约3.54SSIM均值为0.762波动约0.138。这意味着JetFormer还原出的星系图像保留了旋臂的细节、星系核心的亮度结构以及弥散的低表面亮度背景光——这些细节对天文学家研究星系结构至关重要。相比之下VQ-VAE的重建质量明显逊色PSNR均值只有23.57分贝SSIM仅为0.544。虽然视觉上看起来星系大致轮廓还在但仔细观察会发现明亮核心周围出现了模糊的云雾状伪影甚至出现了原图中并不存在的细小红色结构低表面亮度的弥散外围也大量丢失。这并不难理解只有512个词汇的词典根本无法精确描述真实宇宙图像中千变万化的细节。仿射和AIM两种方法因为对每个图像方块做了z-score标准化重建出的图像会有肉眼可见的方格感——整张图像被分成一个个8×8的小格每个小格内部的亮度被独立标准化导致相邻方块之间出现明显的边界整体视觉效果与其他方法有本质差异。这种现象并非质量低劣而是标准化处理的必然代价。**三、谁最懂星系的身份证数字背后的物理意义**重建图像的清晰度固然重要但对天文学家来说更关键的问题是AI学到的知识有多少物理意义也就是说通过AI提取的数字特征能不能准确推断出一个星系真实的物理属性研究团队从每个AstroPT模型的中间层提取特征向量然后分别训练线性探针Linear Probe只用一个简单的线性函数做预测和MLP探针用一个小型神经网络做预测来回归13个物理属性。这13个属性覆盖了天文学中最常见的星系描述维度光度量g波段和r波段的绝对星等、颜色指数g-r和r-z、光度红移和光谱红移、比恒星形成率sSFR、恒星质量M*以及五个形态指标平滑度、盘面比例、伪影比例、侧向比例、旋臂紧密度。评估指标是决定系数R?数值从0到1越接近1意味着预测越准确。所有结果乘以100报告。167000个星系作为测试集用10折交叉验证来保证结果的可靠性。结果揭示出一幅引人深思的图景。VQ-VAE在几乎所有属性的线性和MLP探针上都名列前茅。以g-r颜色为例VQ-VAE的线性探针R?达到了82而仿射和AIM只有71JetFormer为74。对于光谱红移这个天文学中极为重要的距离指标VQ-VAE线性探针达到85仿射和AIM为77JetFormer为80。更耐人寻味的是VQ-VAE的线性探针分数在大多数属性上甚至超过了MLP探针——这意味着512个词汇的硬量化不只是在压缩信息而是在重新组织信息的方式让物理属性以一种极为整齐的方式排列在特征空间中以至于一个简单的直线就能把它们找出来。JetFormer在颜色、红移、恒星质量和恒星形成率等光谱相关属性上稳定超越仿射和AIM但在形态指标上却输给了AIM。仿射和AIM在几乎所有属性上得分相差无几——这个发现颇具意味耗费更多计算资源的MLP头并没有比简单的线性变换为AI带来实质性的知识增益骨架本身的表达能力已经足够强大翻译环节的复杂度对最终结果影响有限。关于g-r颜色比r-z颜色更容易预测这一现象研究团队给出了物理解释g-r颜色在样本所覆盖的红移范围内动态变化范围更大而且与年轻恒星的辐射紧密相关因此作为回归目标更容易区分。r-z颜色更多反映老年恒星星族与恒星总质量相关属性更稳定但也因此区分度较低。g-r对尘埃遮蔽更敏感这解释了为什么sSFR比M*更难预测也解释了为什么MLP探针在sSFR上比线性探针改进幅度更大——尘埃、年龄与颜色之间的非线性纠缠需要更强的模型才能解开。研究团队还做了一个分组探针实验把13个属性归纳为几个大类分别考察每种分词器把多少注意力分配给了哪类属性。JetFormer把更多的特征空间用于直接可见的图像属性——表观光度和结构参数的分组探针R?分别达到0.33和0.29而VQ-VAE只有0.19和0.16。相反VQ-VAE把更多空间留给了需要抽象推理的高层属性比如红移0.058对0.033和绝对光度0.090对0.050。这说明VQ-VAE的词典机制在某种程度上引导AI骨架跳过了像素层面的直觉直接去学习更深层的物理规律。**四、两个极端之间的信息悖论**到这里一个矛盾浮出水面JetFormer重建最好却在物理属性预测上相对弱势VQ-VAE重建最差却在物理属性预测上最强。这个反差并非偶然研究团队通过一个巧妙的实验揭示了背后的机制。他们从18万张测试和验证星系图像出发分别提取JetFormer重建图像、VQ-VAE重建图像以及原始图像的ResNet-50特征这是一个在ImageNet上预训练的通用视觉网络然后用相同的线性和MLP探针来预测物理属性。这相当于绕过了分词器生成的内部特征直接问从重建出来的像素里还能找回多少原始物理信息JetFormer重建图像的探针分数几乎和原始图像持平——每个光度属性的误差都在波动范围内形态属性最多差4个R?点。这证明JetFormer的可逆流确实把原始图像里的全部信息都带过来了只是这些信息以一种线性探针难以直接提取的方式散布在潜在空间里。VQ-VAE重建图像的探针分数则系统性地低于原始图像在形态、sSFR和绝对光度上的损失尤为明显而颜色指数的损失相对较小因为颜色主要是比值对整体亮度变化不敏感。这证明VQ-VAE的词典量化是一个不可逆的操作——它把细节真正丢掉了不是藏起来了是消失了。换句话说JetFormer是一个完美的保险箱所有信息都在但钥匙很难找。VQ-VAE则是一个严格的筛选器它主动丢弃了大量细节但正是这种丢弃让剩下的信息按照物理意义重新排列变得更容易提取。**五、四份星系档案长什么样**研究团队还通过两种降维可视化方法PCA主成分分析和UMAP流形学习检验了四种分词器生成的特征空间结构给特征空间画了一张地图用不同颜色标注了每个星系的物理属性。在PCA投影下仿射和AIM的特征空间呈现出开放的马蹄形弧线整体沿着一个主方向展开类似单一维度的渐变色带JetFormer形成更拉伸的月牙形VQ-VAE则形成一个密集的填充椭圆。在UMAP投影下仿射和AIM破碎成大量分散的小岛而JetFormer和VQ-VAE保持了单一连通的流形结构。值得注意的是无论是哪种投影方式、哪种分词器物理属性的渐变梯度都清晰可见——g-r颜色和光度红移之间的相关性在所有方法中都表现出连贯的颜色过渡这一现象反映了星系光谱随距离变化红移而导致颜色系统性偏移的真实物理规律。特征空间还沿着另一个方向编码了形态和光度信息平滑的早型星系倾向于占据较亮的区域与旋涡星系分居两侧——这与天文学中著名的星系形态-星等关系完全吻合完全来自图像本身而无需任何人工标注。仿射和AIM的特征空间在两种投影下都高度相似方向上有镜像翻转但这只是PCA特征向量的符号模糊性不含任何物理意义再次印证了在强大的AstroPT骨架面前额外的MLP翻译层并未带来本质不同的特征组织方式。**六、成本账单时间与能源的天平**研究团队也诚实地记录了四种方案的训练成本。仿射和AIM各用一块NVIDIA H100显卡训练了3小时能耗约2.1千瓦时。JetFormer需要两块H100并行训练8小时能耗约11.2千瓦时是仿射和AIM的五倍以上。VQ-VAE则在一块NVIDIA Quadro GV100性能低于H100上训练了20小时能耗约5.2千瓦时。因为硬件性能差异用训练时长直接比较并不公平——在性能更低的GPU上跑20小时实际消耗的能量可能比在高性能GPU上跑8小时少得多。能耗才是更公平的比较维度。按这个标准仿射和AIM最省钱JetFormer最贵VQ-VAE居中。研究团队计划在论文去匿名化后公开所有预训练代码和模型权重以避免他人重复训练带来的额外碳排放。**研究的边界与未来的路**研究团队对自己工作的局限性保持了坦诚。首先探针方法只能检测能被线性或非线性函数直接提取的信息不能排除某些信息确实存在但探针功能不够强大的可能性。通过对重建图像做探针这一补充实验已经部分缓解了这个问题但对全部四种分词器做到完全的探针无关比较仍未实现。其次VQ-VAE的预训练流程与其他方法不同其在物理属性预测上的优势可能部分归因于预训练编码器的质量而非仅仅是量化机制本身的功劳。第三这项研究没有探索数据集规模或模型参数量变化时各分词器性能的变化趋势也没有测试跨仪器或跨波段数据的泛化能力。这些局限也指向了未来的研究方向构建一个更系统的分词器基准基于可验证的天文物理真值来评估各种图像分词策略不仅面向星系图像也面向光谱、时序、多模态等更广泛的天文数据形式。归根结底这项研究想说的是在训练天文AI的时候我们不能只看模型能不能把图像画得漂亮更要看它是不是真的理解了图像背后的物理。这两件事不是一回事而分词器的选择正是决定AI走向哪个方向的第一道关口。对于计划构建多模态天文基础模型的研究者而言一个关键的实际建议浮现出来如果目标是光度测量和光谱推断VQ-VAE的压缩表示可能更有用如果目标是图像重建或生成JetFormer是更可靠的选择如果计算资源有限且任务偏向形态分析仿射分词器以最低的成本提供了与AIM相当的性能。没有一个分词器能在所有任务上都胜出这本身就是一个值得所有AI工程师记住的结论。---QAQ1VQ-VAE分词器为什么预测星系物理属性比JetFormer更准确但重建图像质量却更差AVQ-VAE通过一个只有512个固定代码的词典来压缩图像这种硬量化会丢弃大量像素细节导致重建出的图像出现模糊和伪影。但正是这种强迫归类的机制让剩下的信息按照物理意义重新排列使恒星质量、红移等属性在特征空间中变得高度可区分因此预测准确率反而更高。JetFormer通过可逆变换保留了所有原始像素信息重建质量最高但这些信息在潜在空间中散布得较为杂乱探针很难从中直接提取单个物理属性。Q2仿射分词器和AIM分词器预测效果几乎一样那AIM分词器的MLP有什么意义A从这项实验结果来看在AstroPT这个足够强大的骨架下AIM分词器额外引入的多层感知机MLP几乎没有带来实质性的性能提升。两者在所有13个物理属性上的探针分数高度接近PCA和UMAP可视化的特征空间结构也极为相似。这表明当后端变换器模型足够表达能力强时翻译环节是线性还是非线性对最终学到的知识影响非常有限。Q3天文基础模型选择分词器时应该怎么权衡A根据这项研究的结论分词器的选择应当基于具体的下游任务目标。如果模型主要用于光度测量、红移估算或光谱属性推断VQ-VAE的离散压缩表示能提供更线性可访问的物理信息。如果模型的目标包括图像重建、视觉生成或需要保留低表面亮度细节的科学分析JetFormer的可逆流是更合适的选择。对于计算资源有限且侧重形态分析的场景仿射分词器以最低成本提供了与AIM相当的效果。