近年来图神经网络Graph Neural Networks, GNNs已经被广泛用于社交网络分析、推荐系统、生物网络、金融风控等场景。随着 GNN 在真实系统中的部署越来越多围绕模型安全与隐私的问题也变得更加关键。其中一个重要威胁就是模型提取攻击Model Extraction Attack攻击者通过查询目标模型训练出一个功能相近的替代模型从而窃取模型能力、规避访问限制甚至为后续攻击铺路。以往关于 GNN 模型提取的研究常常默认攻击者能够获得完整或部分图结构例如节点之间的连接关系。但在真实场景中图结构往往是最敏感、最有商业价值的数据社交关系、交易关系、用户行为网络、知识图谱边信息都不太可能直接暴露给外部查询者。那么一个更现实的问题出现了如果攻击者看不到原始图结构只能拿到节点特征和目标模型输出GNN 还能被有效提取吗这篇论文正是围绕这一问题展开。作者系统研究了无图结构条件下的 GNN 模型提取并指出一个核心结论决定攻击效果的关键因素不只是攻击方法本身而是图中的同质性Homophily尤其是训练节点与测试节点之间的同质性。主要背景在图学习中同质性指的是“相连节点倾向于拥有相同标签或相似属性”的程度。举个直观例子在论文引用网络中同一研究方向的论文更可能互相引用在社交网络中兴趣相近的人更可能产生连接。这类图被称为高同配图。相反如果相连节点常常属于不同类别例如某些网页网络、异质社交网络图就更接近异配Heterophily场景。传统 GCN 依赖邻居聚合机制本质上是在图上进行信息平滑如果邻居大多同类那么聚合邻居信息会强化正确信号如果邻居经常异类这种平滑反而可能混淆判别边界。因此高同质性通常有利于传统 GNN 学习而异配图会带来更大挑战。这篇论文进一步提出同质性不仅影响模型性能也会影响模型是否容易被提取。研究问题论文聚焦三个核心问题在攻击者无法访问原始图结构时图同质性如何影响模型提取攻击的成功率面向同配图设计的 GCN 与面向异配图设计的 FAGCN在模型提取攻击下谁更脆弱图结构学习Graph Structure Learning, GSL能否帮助攻击者推断伪图结构从而提高提取效果这种提升是否依赖图的同质性这里的攻击设定非常贴近真实黑盒环境攻击者只能输入节点特征查询目标 GNN 的预测结果无法获得真实边集合。随后攻击者可以选择直接训练一个 MLP 替代模型也可以利用 GSL 方法从节点特征中推断一个“代理图结构”再训练替代 GNN。无图结构模型提取攻击流程论文中的无结构模型提取可以概括为四步目标模型已经在私有图数据上训练完成真实图结构对攻击者不可见。攻击者选取一批节点特征向目标模型发起查询获得目标模型的预测标签。攻击者基于节点特征和预测标签构造替代训练集。如果使用 GSL还会额外推断一个代理图结构。攻击者训练替代模型并用保真度Fidelity衡量替代模型与目标模型预测的一致程度。保真度越高说明替代模型越像原始目标模型模型提取越成功。需要注意的是这里的重点不是攻击者拿到了真实标签而是拿到了目标模型的输出。也就是说替代模型学习的是目标模型的行为边界而不一定是真实任务本身。作者在 10 个图数据集上进行了系统实验覆盖从高同配到低同配的多种场景包括 Cora、Citeseer、Pubmed 等高同配引用网络也包括 Actor、Chameleon、Squirrel 等低同配数据集以及 Cornell、Texas、Wisconsin 等网页网络。核心发现一训练-测试同质性是攻击成功的关键论文最重要的观察是攻击保真度与训练-测试同质性之间存在稳定的正相关关系。在高同配数据集上例如 Cora、Citeseer、Pubmed攻击方法往往能够获得较高保真度。论文中报告在高同配图上部分方法可以达到约 70% 到 80% 以上的保真度。原因并不难理解如果训练节点和测试节点之间存在大量同类连接那么即使攻击者看不到真实边也更容易通过节点特征推断出近似的标签传播关系。代理图结构虽然不是真图但只要它能把相似、同类节点连接起来替代模型就能学到目标 GNN 的一部分行为模式。而在低同配数据集上例如 Actor、Chameleon、Squirrel节点特征与邻域标签之间的关系更复杂。此时攻击者仅凭特征构造的代理图很容易产生错误的同配假设反而降低替代模型对目标模型的拟合能力。换句话说高同配图天然为攻击者提供了“可猜测的结构规律”低同配图则让这种规律变得不稳定。核心发现二异配鲁棒模型反而更容易被提取论文的第二个发现更反直觉FAGCN 这类为异配场景设计的模型在多数数据集上比标准 GCN 更容易被提取。按直觉模型越强、越能处理复杂异配结构似乎应该越难被攻击。但实验结果显示FAGCN 在低同配数据集上的提取保真度往往更高而且不同攻击方法之间的表现方差更小。作者给出的解释是FAGCN 为了适应异配图会减少对简单邻居平滑的依赖更充分利用节点特征中的判别信息。这样一来在无图结构攻击场景下攻击者虽然拿不到边但仍然可以依靠节点特征和目标输出学习到较清晰的决策边界。这一点可以从 MLP 替代模型的表现中看出来MLP 对 GCN 的提取效果有限但在攻击 FAGCN 时却变得相当有竞争力。这说明目标模型越依赖节点特征本身攻击者越可能在没有图结构的情况下复刻其行为。这带来了一个重要安全启示提升模型在异配图上的任务性能并不等于提升模型对提取攻击的鲁棒性。有些架构上的“适应性”可能同时让模型行为更容易被黑盒查询学习。核心发现三GSL 有用但主要在高同配场景中有用图结构学习看起来是无结构攻击中的自然选择既然拿不到真实图那就根据节点特征推断一个代理图。但论文指出GSL 的收益高度依赖同质性。在高同配数据集上GSL 方法通常能显著优于简单 MLP。原因是这些方法推断出的伪结构与真实图的同配模式较一致能够较好模拟目标 GNN 的邻居聚合过程。但在低同配数据集上GSL 的表现并不稳定甚至可能不如 MLP。很多 GSL 方法本身隐含或显式偏向同配假设会倾向于连接特征相似或预测相同的节点。如果原始图并不遵循这种模式学习出的代理结构就会与目标模型实际依赖的结构规律错位。因此GSL 并不是无结构模型提取的万能钥匙。它真正有效的前提是代理结构能够复现目标图中关键的同配或异配模式。总结这篇论文给出了一个非常清晰的结论在无图结构的 GNN 模型提取攻击中同质性不是背景变量而是核心安全因素。高训练-测试同质性会让攻击更容易成功异配鲁棒架构可能因为更依赖节点特征而更容易被复刻GSL 方法只有在推断出的代理结构与目标图结构模式一致时才会稳定提升攻击保真度。对于 GNN 安全研究而言这意味着我们不能只问“攻击者用了什么方法”还要问“这张图本身给攻击者留下了多少可推断的结构规律”。模型、数据和图结构三者共同决定了 GNN 在真实黑盒场景下的安全边界。Future加入我们的学术社区点亮创新之光 照亮科研梦想这是一个致力于共同成长、资源共享的科研平台。我们期待您的到来一起在科研道路上走得更远、更稳^o^y