从分子到宇宙：用PyTorch Geometric实战几何等变GNN，搞定3D分子构象预测

张

张建站

2026/5/28 8:25:05

10分钟阅读

从分子到宇宙用PyTorch Geometric实战几何等变GNN搞定3D分子构象预测在药物发现和材料科学领域3D分子构象预测一直是个令人头疼的问题。想象一下你手里有一堆分子结构数据每个原子都在三维空间中跳舞而你需要准确预测它们的舞步轨迹——这就是构象预测的挑战。传统方法要么计算成本高得离谱要么准确率让人摇头。直到几何等变图神经网络GNN的出现这个问题才有了新的解决思路。今天我们就来手把手教你用PyTorch Geometric搭建一个能处理3D分子数据的几何等变GNN模型。不需要深厚的数学背景只要会Python和PyTorch基础你就能跟着我们一起从数据准备到模型训练完整走一遍实战流程。1. 环境准备与数据加载首先我们需要搭建一个适合的工作环境。建议使用Python 3.8和PyTorch 1.10版本。以下是创建conda环境的命令conda create -n geom_gnn python3.8 conda activate geom_gnn pip install torch torch-geometric rdkit对于分子数据QM9是个不错的起点。这个数据集包含约13万个小分子每个分子都有3D坐标和多种物理化学性质。PyTorch Geometric已经内置了对QM9的支持from torch_geometric.datasets import QM9 dataset QM9(rootdata/QM9) print(f数据集包含 {len(dataset)} 个分子) print(f第一个分子的特征: {dataset[0]})处理分子数据时有几个关键点需要注意原子特征通常包括原子类型、电荷、价态等边特征键类型、键长等3D坐标这是几何等变模型的核心输入2. 构建几何等变图神经网络几何等变GNN的核心思想是模型的预测结果应该与输入数据的旋转、平移等变换保持一致。换句话说无论你怎么旋转分子模型给出的能量预测都应该相同。我们来实现一个简单的EGNNEquivariant Graph Neural Network层import torch from torch import nn from torch_scatter import scatter_mean class EGNNLayer(nn.Module): def __init__(self, node_feat_dim, edge_feat_dim, hidden_dim): super().__init__() self.edge_mlp nn.Sequential( nn.Linear(node_feat_dim * 2 edge_feat_dim 1, hidden_dim), nn.SiLU(), nn.Linear(hidden_dim, hidden_dim), nn.SiLU() ) self.node_mlp nn.Sequential( nn.Linear(node_feat_dim hidden_dim, hidden_dim), nn.SiLU(), nn.Linear(hidden_dim, node_feat_dim) ) self.coord_mlp nn.Sequential( nn.Linear(hidden_dim, 1), nn.SiLU() ) def forward(self, x, edge_index, edge_attr, pos): row, col edge_index # 计算节点间距离 dist torch.norm(pos[row] - pos[col], dim1, keepdimTrue) # 边更新 edge_feat torch.cat([x[row], x[col], edge_attr, dist], dim1) edge_out self.edge_mlp(edge_feat) # 坐标更新 coord_diff pos[row] - pos[col] coord_scale self.coord_mlp(edge_out) * coord_diff / (dist 1e-6) coord_update scatter_mean(coord_scale, col, dim0, dim_sizepos.size(0)) # 节点更新 node_agg scatter_mean(edge_out, col, dim0, dim_sizex.size(0)) node_feat torch.cat([x, node_agg], dim1) node_out self.node_mlp(node_feat) # 更新坐标 pos pos coord_update return node_out, pos这个EGNN层有几个关键特点等变性坐标更新依赖于相对位置保证了模型的等变性质消息传递节点间通过边交换信息同时更新自身特征和位置可扩展性可以堆叠多层来增加模型容量3. 完整模型架构与训练流程有了基础构建块我们现在可以组装完整的模型了。下面是一个包含多个EGNN层的完整架构class EGNN(nn.Module): def __init__(self, node_dim, edge_dim, hidden_dim, num_layers4): super().__init__() self.node_encoder nn.Linear(node_dim, hidden_dim) self.edge_encoder nn.Linear(edge_dim, hidden_dim) self.layers nn.ModuleList([ EGNNLayer(hidden_dim, hidden_dim, hidden_dim) for _ in range(num_layers) ]) self.predictor nn.Sequential( nn.Linear(hidden_dim, hidden_dim), nn.SiLU(), nn.Linear(hidden_dim, 1) ) def forward(self, data): x, edge_index, edge_attr, pos data.x, data.edge_index, data.edge_attr, data.pos x self.node_encoder(x) edge_attr self.edge_encoder(edge_attr) for layer in self.layers: x, pos layer(x, edge_index, edge_attr, pos) # 全局池化 graph_embedding scatter_mean(x, data.batch, dim0) return self.predictor(graph_embedding)训练这样的模型需要特别注意几个技巧学习率调度几何等变模型对学习率比较敏感建议使用余弦退火调度器optimizer torch.optim.Adam(model.parameters(), lr1e-3) scheduler torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max100)数据增强在训练过程中随机旋转分子可以提高模型鲁棒性def random_rotation(data): # 生成随机旋转矩阵 q torch.randn(4) q q / torch.norm(q) rot_mat torch.tensor([ [1-2*(q[2]**2q[3]**2), 2*(q[1]*q[2]-q[0]*q[3]), 2*(q[1]*q[3]q[0]*q[2])], [2*(q[1]*q[2]q[0]*q[3]), 1-2*(q[1]**2q[3]**2), 2*(q[2]*q[3]-q[0]*q[1])], [2*(q[1]*q[3]-q[0]*q[2]), 2*(q[2]*q[3]q[0]*q[1]), 1-2*(q[1]**2q[2]**2)] ]) data.pos torch.matmul(data.pos, rot_mat) return data损失函数对于能量预测任务MAE通常是个不错的选择criterion torch.nn.L1Loss()4. 模型评估与结果可视化训练完成后我们需要评估模型性能。除了常规的指标计算可视化也是理解模型行为的重要手段。能量预测评估def evaluate(model, loader): model.eval() total_error 0 for data in loader: with torch.no_grad(): pred model(data) error torch.abs(pred - data.y).sum().item() total_error error return total_error / len(loader.dataset)构象生成可视化使用RDKit可以方便地可视化分子构象from rdkit import Chem from rdkit.Chem import AllChem def visualize_molecule(pos, atomic_numbers): mol Chem.RWMol() for atomic_num in atomic_numbers: mol.AddAtom(Chem.Atom(int(atomic_num))) # 添加键信息简化版实际需要根据距离判断 for i in range(len(atomic_numbers)): for j in range(i1, len(atomic_numbers)): dist torch.norm(pos[i] - pos[j]) if dist 1.6: # 简单距离阈值 mol.AddBond(i, j, Chem.BondType.SINGLE) # 设置3D坐标 conf mol.GetConformer() for i in range(len(atomic_numbers)): conf.SetAtomPosition(i, (pos[i][0], pos[i][1], pos[i][2])) return mol在实际项目中你可能会遇到以下常见问题数值不稳定特别是在计算距离倒数时记得添加小常数避免除零过平滑深层GNN容易导致节点特征趋同可以尝试残差连接内存不足对于大分子考虑使用子图采样策略5. 进阶技巧与优化方向当你掌握了基础实现后可以考虑以下几个进阶方向混合精度训练显著减少显存占用并加速训练scaler torch.cuda.amp.GradScaler() for epoch in range(epochs): for data in train_loader: optimizer.zero_grad() with torch.cuda.amp.autocast(): pred model(data) loss criterion(pred, data.y) scaler.scale(loss).backward() scaler.step(optimizer) scaler.update()注意力机制在消息传递中加入注意力权重可以提升模型表现class AttentiveEGNNLayer(EGNNLayer): def __init__(self, node_feat_dim, edge_feat_dim, hidden_dim): super().__init__(node_feat_dim, edge_feat_dim, hidden_dim) self.attention nn.Sequential( nn.Linear(hidden_dim, 1), nn.Sigmoid() ) def forward(self, x, edge_index, edge_attr, pos): row, col edge_index dist torch.norm(pos[row] - pos[col], dim1, keepdimTrue) edge_feat torch.cat([x[row], x[col], edge_attr, dist], dim1) edge_out self.edge_mlp(edge_feat) # 加入注意力权重 attn self.attention(edge_out) edge_out edge_out * attn # 其余部分保持不变...多任务学习同时预测多个分子性质如能量、偶极矩等可以提升模型泛化能力class MultiTaskEGNN(EGNN): def __init__(self, node_dim, edge_dim, hidden_dim, num_tasks3): super().__init__(node_dim, edge_dim, hidden_dim) self.task_heads nn.ModuleList([ nn.Linear(hidden_dim, 1) for _ in range(num_tasks) ]) def forward(self, data): x, edge_index, edge_attr, pos data.x, data.edge_index, data.edge_attr, data.pos x self.node_encoder(x) edge_attr self.edge_encoder(edge_attr) for layer in self.layers: x, pos layer(x, edge_index, edge_attr, pos) graph_embedding scatter_mean(x, data.batch, dim0) return torch.cat([head(graph_embedding) for head in self.task_heads], dim1)在实际应用中我发现以下几个技巧特别有用在数据预处理阶段对输入特征进行标准化使用梯度裁剪避免训练不稳定早停法防止过拟合对不同的分子性质使用不同的损失权重

VLC播放器终极美化指南：5款专业级VeLoCity皮肤全面解析

VLC播放器终极美化指南：5款专业级VeLoCity皮肤全面解析【免费下载链接】VeLoCity-Skin-for-VLC Castom skin for VLC Player 项目地址: https://gitcode.com/gh_mirrors/ve/VeLoCity-Skin-for-VLC 你是否厌倦了VLC播放器千篇一律的默认界面？是否…...

2026/5/28 8:24:02 阅读更多 →

数据库操作核心：DDL与DML详解及SQL关键概念实战

1. 项目概述：从“增删改查”到数据库操作的本质干了这么多年后端开发，我见过太多刚入行的朋友，一提到数据库操作，脑子里蹦出来的就是“增删改查”这四个字。这没错，但如果你只停留在这个层面，就像学开车只会…...

2026/5/28 8:23:57 阅读更多 →

云原生，devops运维

27届应届生，找不到工作，有需要的可以内推我一个吗？简历有没有需要改进的...

2026/5/28 8:23:43 阅读更多 →

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…...

2026/5/26 6:08:07 阅读更多 →

通过curl命令调试Taotoken大模型API，快速排查接入问题

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度通过curl命令调试Taotoken大模型API，快速排查接入问题在接入大模型服务时，直接使用HTTP请求进行调试是一种…...

2026/5/26 6:15:52 阅读更多 →

Kubernetes自定义资源：扩展Kubernetes API的能力

Kubernetes自定义资源：扩展Kubernetes API的能力一、Kubernetes自定义资源概述 1.1 自定义资源的定义 Kubernetes自定义资源（Custom Resource，CR）是指用户自定义的资源类型，它扩展了Kubernetes API，允许用…...

2026/5/27 21:40:10 阅读更多 →

Codeforces Round 1057

【打得太糖了】Codeforces Round 1057 (Div. 2) solve 3 题 https://www.bilibili.com/video/BV1Gi4nzYE66/ 【Codeforces Round 1057 (Div. 2)实况】好久没打cf了，只会A-D https://www.bilibili.com/video/BV12q4xzMEy5/ 憧憬成为 Master 第 29 集 —— 反向冲分 (…...

2026/5/27 10:36:27 阅读更多 →