Scanpy实战指南：从单细胞数据预处理到聚类分析的Python完整流程

张

张建站

2026/5/21 4:58:40

10分钟阅读

1. 单细胞分析为什么选择Scanpy单细胞RNA测序技术近年来快速发展已经成为生命科学研究的重要工具。相比传统的批量测序单细胞测序能够揭示细胞异质性发现新的细胞类型。在分析工具方面Python生态中的Scanpy凭借其高效、灵活的特性正在成为越来越多研究者的首选。我刚开始接触单细胞分析时也用过R语言的Seurat后来转用Scanpy后发现确实更方便。Scanpy基于Python的Anndata数据结构整合了Numpy、Scipy、Pandas等科学计算库处理大数据集时速度优势明显。更重要的是它的API设计非常直观从数据预处理到可视化的完整流程都能用简洁的代码实现。Scanpy的核心优势在于内存效率高使用稀疏矩阵存储表达数据节省内存计算速度快底层基于C优化的数值计算库可视化丰富内置多种专业绘图函数扩展性强可以方便地与其他Python机器学习库集成提示如果你已经熟悉Seurat学习Scanpy会很容易两者的分析流程非常相似只是实现语言不同。2. 环境准备与数据导入2.1 安装与配置建议使用conda创建独立的Python环境conda create -n sc_analysis python3.8 conda activate sc_analysis pip install scanpy umap-learn leidenalg我推荐使用Jupyter Notebook进行交互式分析方便实时查看结果。配置绘图参数可以放在开头import scanpy as sc sc.settings.verbosity 3 # 设置日志级别 sc.settings.set_figure_params(dpi100, facecolorwhite) # 设置图片分辨率2.2 数据加载实战Scanpy支持多种数据格式最常见的是10X Genomics的标准输出。假设数据存放在filtered_gene_bc_matrices/hg19/目录adata sc.read_10x_mtx( ./filtered_gene_bc_matrices/hg19/, var_namesgene_symbols, # 使用基因符号作为变量名 cacheTrue) # 缓存加速后续读取 adata.var_names_make_unique() # 确保基因名唯一如果是其他格式的表达矩阵可以手动构建Anndata对象import pandas as pd df pd.read_csv(expression_matrix.csv, index_col0) adata sc.AnnData(df)3. 数据预处理与质量控制3.1 基础过滤单细胞数据通常包含大量噪声需要进行严格的质量控制# 过滤低质量细胞和基因 sc.pp.filter_cells(adata, min_genes200) # 每个细胞至少表达200个基因 sc.pp.filter_genes(adata, min_cells3) # 每个基因至少在3个细胞中表达3.2 线粒体基因过滤线粒体基因占比是判断细胞质量的重要指标# 标记线粒体基因 adata.var[mt] adata.var_names.str.startswith(MT-) # 计算QC指标 sc.pp.calculate_qc_metrics(adata, qc_vars[mt], percent_topNone, inplaceTrue) # 可视化QC指标 sc.pl.violin(adata, [n_genes_by_counts, total_counts, pct_counts_mt], jitter0.4, multi_panelTrue)3.3 数据标准化标准化是后续分析的关键步骤# 文库大小归一化 sc.pp.normalize_total(adata, target_sum1e4) # 对数转换 sc.pp.log1p(adata)4. 特征选择与降维4.1 高变基因筛选识别高度变化的基因可以提高信噪比sc.pp.highly_variable_genes(adata, min_mean0.0125, max_mean3, min_disp0.5) sc.pl.highly_variable_genes(adata)4.2 PCA降维主成分分析是最常用的线性降维方法# 使用高变基因 adata adata[:, adata.var.highly_variable] # 去除技术噪声 sc.pp.regress_out(adata, [total_counts, pct_counts_mt]) # 标准化 sc.pp.scale(adata, max_value10) # PCA分析 sc.tl.pca(adata, svd_solverarpack) # 可视化方差解释率 sc.pl.pca_variance_ratio(adata, logTrue)5. 细胞聚类与可视化5.1 邻域图构建基于PCA结果构建细胞间的邻域关系sc.pp.neighbors(adata, n_neighbors10, n_pcs40)5.2 UMAP/t-SNE可视化非线性降维方法能更好展示细胞亚群sc.tl.umap(adata) sc.pl.umap(adata, color[CST3, NKG7])5.3 Leiden聚类比传统Louvain算法更优的社区发现算法sc.tl.leiden(adata) sc.pl.umap(adata, color[leiden])6. 差异表达分析与注释6.1 标记基因识别使用Wilcoxon秩和检验找各群的标记基因sc.tl.rank_genes_groups(adata, leiden, methodwilcoxon) sc.pl.rank_genes_groups(adata, n_genes25, shareyFalse)6.2 细胞类型注释根据标记基因手动注释细胞类型new_cluster_names [ CD4 T, CD14 Mono, B, CD8 T, NK, FCGR3A Mono, DC, Platelet] adata.rename_categories(leiden, new_cluster_names)7. 高级分析与技巧7.1 轨迹推断使用PAGA分析细胞发育轨迹sc.tl.paga(adata) sc.pl.paga(adata, plotFalse) # 基础布局 sc.tl.umap(adata, init_pospaga)7.2 细胞周期分析评估细胞周期阶段的影响# 加载周期基因 cell_cycle_genes [x.strip() for x in open(cell_cycle_genes.txt)] # 计算周期分数 sc.tl.score_genes_cell_cycle(adata, cell_cycle_genes)在实际项目中我发现Scanpy的灵活性和Python生态的结合让它特别适合复杂分析流程的开发。比如可以很方便地整合scVelo进行RNA速率分析或者用CellPhoneDB进行细胞间互作研究。

嵌入式硬件抽象层（HAL）设计与实现

1. 嵌入式软件架构中的硬件抽象层设计实践在嵌入式系统开发中，应用逻辑与底层硬件操作的耦合问题长期困扰着工程师。观察主流开发板配套例程或开源社区常见代码，常可见到应用层直接包含 stm32f10x.h 、 stm32f10x_gpio.h 等芯片级头文件&#xff0c…...

2026/5/12 17:57:21 阅读更多 →

IEEE 802.15.4跨角色共享库：统一Host/Node协议实现

1. IEEE 802.15.4网络共享库概述 IEEE 802.15.4 是低速率无线个人区域网（LR-WPAN）的物理层（PHY）和媒体访问控制层（MAC）标准，专为低功耗、低数据率、短距离通信场景设计。其典型应用包括Zigbee、…...

2026/5/12 17:57:21 阅读更多 →

Python实战：GF-3 SAR数据预处理全流程解析（含RPC几何校正代码）

Python实战：GF-3 SAR数据预处理全流程解析（含RPC几何校正代码） 合成孔径雷达（SAR）数据因其全天候、全天时的观测能力，在灾害监测、资源调查等领域具有独特优势。国产高分三号（GF-3）卫…...

2026/5/12 17:57:24 阅读更多 →

单相光伏发电并网控制【附代码】

✨ 长期致力于光伏电池、整流控制、逆变控制、最大功率点跟踪技术研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）自适应变步长电导增量法最大功率点跟…...

2026/5/19 12:48:20 阅读更多 →

【代码】hot100

Easy 两数之和两数之和 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:xdict{}for i in range(len(nums)):jtarget-nums[i]if j in xdict.keys():return [i,xdict[j]]else:xdict[nums[i]]i 有效的括号有效的括号 class Soluti…...

2026/5/19 3:45:22 阅读更多 →

G-Helper终极教程：华硕笔记本轻量级性能控制神器

G-Helper终极教程：华硕笔记本轻量级性能控制神器【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertb…...

2026/5/18 5:24:10 阅读更多 →