MiCoDa：让16S微生物组数据真正可用的全球最大公开数据库

张

张建站

2026/6/7 1:19:14

10分钟阅读

最近小编不小心了解到了这么个数据库给大家分享一下什么是MiCoDaMiCoDa是一个可搜索数据库拥有超过35,000个来自水生、宿主相关和矿物环境的处理过16S rRNA基因扩增子序列样本遍布全球。为提升交叉研究的可比性MiCoDa中的所有样本均在16S rRNA基因的同一区域碱基对515和806之间测序。MiCoDa还承载着地球微生物组项目的样本这些样本的处理方式相同。MiCoDa目前是目前最大的公共微生物组数据库。其目标是鼓励生命科学领域对现有序列数据的再利用。MiCoDa的起源是基于这样一个观察生物多样性的再利用非常困难尤其是微生物组序列数据的复杂性。除了大量数据和元数据收集外微生物组数据的再利用还需要丰富的生物信息学知识和足够的序列处理计算能力。另一方面微生物组数据会定期被归档。我们创建MiCoDa是为了利用现有数据促进微生物组数据的再利用和综合无论是专家还是非专业人士。为此研究人员手动整理了包含的数据和元数据对序列数据进行了预处理以最大化可比性并创建了一个可搜索的数据门户。序列可用性占比图使用说明MiCoDa 的输出文件设计得与 R 的 phyloseq 包无缝集成。MiCoDa输出分析的详细示例可在 https://github.com/drcarrot/MiCoDa 中提供。在样本选择后用户下载一个压缩文件夹包含三个文件metadata.csv对应所选样本的元数据包括1样本标识符2发表标识符3环境描述符4宿主描述符5技术描述符。这些元数据类别旨在将处理序列与其在公共序列库中的入品号1关联将处理序列与最初公开的文章2便于按微生物组类型选择数据3和4并允许包含技术变异的后验来源5。参见元数据以了解所有领域的描述以及本体论中关于微生物组层级分类的描述。对于选取的n个样本metadata.csv的维度将为n行×31列元数据asv_table.csv一种常规样本×物种矩阵。列名是每个样本的NCBI入场编号用于将样本链接到的metadata.csv文件。行名是选定样本中检测到的每个ASV的唯一标识符并将ASV链接到seqtaxo.csv文件。请注意所有样本均已重新采样为每个样本5000个观测值。对于选取的n个样本samplebyspecies.csv的维度将等同于选定样本×n列中检测到的ASV数量。taxonomy_table.csv包含所有选定样本中检测到的所有ASV的唯一ASV标识符、分类学和90-bp序列标识符的文件。这些序列可以用来例如对特定的ASV进行BLAST。seqtaxo.csv的尺寸将与选定样本中检测到的ASV数量×9行数相同。此外用户还可以通过点击“下载所有处理元数据”按钮下载一个详细记录所有 MiCoDa 样本每步骤处理后保存读取次数的 sequencingmeta.csv 文件。AI时代我们每个人的分析能力都得到极大提升不管是能力还是效率期待微生物领域也能获得更给力的成果。参考Jurburg et al. (2024) Microbial Community Database (MiCoDa). v2 [Database]. German Centre for Integrative Biodiversity Research. https://doi.org/10.25829/8d64https://micoda.idiv.de/v2