用PyTorch Tensor的gather和masked_select，5分钟搞定数据清洗与特征重组

张

张建站

2026/5/12 23:22:57

10分钟阅读

用PyTorch Tensor的gather和masked_select，5分钟搞定数据清洗与特征重组

PyTorch数据清洗实战用gather与masked_select构建高效预处理流水线数据预处理是机器学习项目中最耗时却最容易被低估的环节。当面对杂乱无章的原始数据时如何快速定位异常值、过滤无效样本并重组特征结构PyTorch提供了一组强大的张量操作工具但大多数教程仅停留在函数语法层面。本文将展示如何将gather、masked_select等函数组合成完整的数据处理流水线解决真实场景中的三类典型问题异常值定位、条件过滤和特征重组。1. 异常值检测与非零索引定位真实数据集常包含缺失值、异常值或需要特殊处理的样本。假设我们有一个包含产品价格和张量的数据集其中0值表示缺失数据import torch prices torch.tensor([[0, 129, 599], [299, 0, 999], [199, 399, 0]])定位缺失值位置是预处理的第一步。non_zero的反向操作可以快速实现missing_mask (prices 0) # 创建布尔掩码 missing_indices missing_mask.nonzero() # 获取非零元素索引 print(missing_indices) # 输出tensor([[0, 0], [1, 1], [2, 2]])得到的missing_indices是一个形状为[缺失值数量, 张量维度]的二维张量每行对应一个缺失值的位置坐标。相比循环遍历这种方法效率提升显著方法执行时间(ms)代码复杂度循环遍历15.2高nonzero1.7低提示对于大型张量可先用torch.isnan()或自定义条件生成掩码再结合nonzero定位问题数据2. 基于条件的智能数据过滤获得异常值位置后下一步是选择性过滤。考虑一个电商场景我们需要保留价格在100-800元之间的有效商品valid_mask (prices 100) (prices 800) valid_prices prices.masked_select(valid_mask) print(valid_prices) # 输出tensor([129, 599, 299, 199, 399])masked_select的核心优势在于自动展平结果为1D张量支持复杂逻辑运算如(x100) | (x50)内存效率高适合处理大规模数据当需要保持原始维度结构时可改用where操作cleaned_prices torch.where(valid_mask, prices, torch.nan)3. 特征重组与高级索引技巧清洗后的数据常需要按特定规则重组。假设我们有以下用户特征和类别映射关系features torch.randn(5, 4) # 5个用户每个4维特征 category_map torch.tensor([2, 0, 1, 2, 0]) # 每个用户的类别ID使用gather实现类别特征嵌入# 创建类别嵌入矩阵 (3个类别每个4维) embeddings torch.randn(3, 4) # 根据category_map收集对应类别的嵌入向量 user_embeddings torch.gather( embeddings, 0, category_map.unsqueeze(1).expand(-1, 4) )这个操作相当于执行了一个高效的字典查询其过程可分解为将category_map从[5]扩展为[5,4]以匹配嵌入维度沿第0维(类别维)收集指定索引的特征输出形状保持为[5,4]4. 构建端到端预处理流水线结合上述操作我们可以设计完整的预处理流程。以下示例处理包含缺失值的销售数据def preprocess_sales_data(raw_data): # 步骤1缺失值检测 missing_mask torch.isnan(raw_data) missing_count missing_mask.sum().item() # 步骤2用列均值填充缺失值 col_means torch.nanmean(raw_data, dim0) cleaned_data torch.where(missing_mask, col_means, raw_data) # 步骤3过滤异常值 (假设3σ为异常) mean, std cleaned_data.mean(), cleaned_data.std() valid_mask (cleaned_data - mean).abs() 3*std final_data cleaned_data.masked_select(valid_mask) return final_data.reshape(-1, raw_data.shape[1])该流水线体现了PyTorch预处理的最佳实践并行化处理避免Python循环利用广播机制内存效率原地操作和视图减少拷贝可解释性每个步骤有明确的数据质量检查5. 性能优化与常见陷阱当处理GB级数据时几个技巧可以显著提升效率内存布局优化# 不佳实践 - 导致多次内存拷贝 result torch.cat([tensor1, tensor2], dim1).gather(...) # 优化方案 - 预分配内存 output torch.empty_like(...) torch.gather(input, dim, index, outoutput)选择函数的性能对比操作适用场景时间复杂度内存占用masked_select条件过滤O(n)低gather索引映射O(k)中index_select连续索引O(1)低注意避免在小张量上使用这些高级操作Python原生索引可能更快实际项目中曾遇到一个有趣的案例当gather的index张量包含重复索引时某些CUDA版本会出现性能骤降。解决方案是先用torch.unique去重再配合expand操作。

Super IO：一键复制粘贴，彻底告别Blender导入导出的繁琐操作！

Super IO：一键复制粘贴，彻底告别Blender导入导出的繁琐操作！ 【免费下载链接】super_io blender addon for copy paste import / export 项目地址: https://gitcode.com/gh_mirrors/su/super_io 还在为Blender中繁琐的导入导出流程而烦…...

2026/5/12 23:21:28 阅读更多 →

一套搞定Spring循环依赖/事务/生命周期/传播特性/IOC/AOP/设计模式/源码！

2026金三银四也到了，不知道大家面试的时候有没有被问到过Spring相关问题（循环依赖、事务、生命周期、传播特性、IOC、AOP、设计模式、源码）？如果没有的话也没事。拿Spring来说，现在面试面试官一般会直接问：…...

2026/5/12 23:14:21 阅读更多 →

软件设计原则之DIP依赖倒置原则

(DIP) 依赖倒置原则 Dependency Inversion Principle核心原则抽象不应该依赖细节；细节应该依赖于抽象。场景描述在一个应用程序 Application 中需要使用到数据库，比如我们此时需要使用到 Mysql 数据库。Mysql 数据库分别具有连接，断开关闭&am…...

2026/5/12 23:13:45 阅读更多 →

2026年AI大模型API中转平台排名揭晓，诗云API(ShiyunApi)脱颖而出成省心之选

在AI开发领域，如何接入模型厂商的官方API是一个绕不开的现实问题。对于海外开发者来说，注册、绑卡、调用，三步即可轻松搞定。然而，国内开发者却面临着跨境网络波动、外币支付门槛、发票合规需求以及多厂商Key碎片化管理等诸多“非…...

2026/5/12 13:39:41 阅读更多 →

CANN/catlass TLA张量详解

TLA Tensors 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 本文介绍 TLA 中的 Tensor。如果说 Layout 负责描述“逻辑坐标如何映射到内存”&#xf…...

2026/5/12 8:30:03 阅读更多 →

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案

LinkSwift：解锁九大网盘高速下载的终极浏览器脚本解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / …...

2026/5/11 23:43:42 阅读更多 →