从疫苗残留中提取mRNA序列:生物信息学与实验技术的结合实践
1. 项目背景与核心价值作为一名长期在生物信息学和分子诊断领域工作的从业者我深知在公共卫生事件中数据的透明度和可及性有多么重要。2020年底随着两款基于mRNA技术的COVID-19疫苗辉瑞/BioNTech的BNT-162b2和Moderna的mRNA-1273在全球紧急投入使用一个既基础又关键的问题浮出水面我们能否独立获取并确认这些作为“药物”被注入亿万人体内的合成mRNA分子的精确序列这不仅仅是学术好奇更关乎后续一系列科研与临床工作的基石——比如在利用高通量测序监测病毒变异时如何准确区分来自疫苗的RNA序列和真正的病毒感染信号又比如在设计核酸检测试剂时如何避免因疫苗序列的干扰而造成假阳性或结果误判然而在当时完整的疫苗mRNA序列并非公开可得的“标准品”。Moderna的序列细节未完全公开而辉瑞的序列虽有社区通过逆向工程等方式推测但缺乏来自独立实验室的、基于实验数据的直接验证。我们手头的这篇来自斯坦福大学团队的研究笔记正是针对这一空白而进行的一次宝贵的“实验考古”。他们利用疫苗接种后废弃的微量残留通过标准的RNA提取、建库和测序流程成功组装出了这两款疫苗mRNA的核心编码区序列。这项工作本质上是一次“湿实验”与“干分析”的完美结合它向我们展示了即使面对高度复杂的生物制剂通过严谨的实验设计和生物信息学分析科研人员依然能够揭开其分子层面的面纱。对于从事病毒学、疫苗学、生物信息学乃至临床检验的同行来说理解这项工作的思路、方法、挑战和发现具有极高的参考价值。它不仅仅是一份序列报告更是一次关于如何利用有限样本获取关键生物信息的完整技术演练。2. 研究思路与技术路线拆解这项工作的核心目标很明确从极微量的、非标准来源的疫苗残留物中获取高质量的RNA并利用高通量测序技术解析其核酸序列。整个技术路线的设计充满了巧思同时也严格遵循了分子生物学研究的基本原则。我们可以将其拆解为几个关键阶段每个阶段都面临着独特的挑战并需要相应的策略来应对。2.1 样本来源与伦理合规性考量首先样本来源是最大的挑战之一。显然研究人员无法直接获取未使用的商业疫苗原液。他们的解决方案是收集疫苗接种后残留在药瓶和注射器中的、按医疗规范本应废弃的极少量液体通常只有几微升。这种“变废为宝”的思路极具创意但必须严格遵循伦理和法规。文中明确指出这些样本是在美国FDA授权下用于研究的。这一点至关重要它确保了整个研究的合法性也是任何类似研究必须跨越的第一道门槛。在实际操作中这意味着需要与医疗机构密切合作建立合规的样本收集、转运和知情同意流程并确保所有操作都在相应的生物安全等级BSL-2或更高级别实验室中进行。注意处理任何来自人体的生物样本即使是被定义为医疗废弃物的样本也必须首先通过伦理审查委员会IRB的批准并遵守《赫尔辛基宣言》等国际伦理准则。忽略这一步整个研究的基础将不复存在。2.2 微量RNA的提取与质控从可能含有脂质纳米颗粒LNP佐剂、缓冲盐、糖类等多种成分的疫苗残留液中纯化出完整的mRNA是第二个技术难点。研究团队选择了经典的酚-氯仿提取法并使用TRIzol试剂。TRIzol是一种单相溶液能有效裂解细胞和病毒颗粒在此处是裂解LNP并同时抑制RNase活性非常适合从复杂混合物中提取总RNA。对于如此微量的样本操作的精细度要求极高任何微小的损失或污染都可能导致实验失败。提取后的质控环节同样关键。他们使用了安捷伦2100生物分析仪Bioanalyzer来评估RNA的完整性。这台仪器通过微流控芯片电泳可以提供RNA的完整性数值RIN和直观的电泳图谱。对于mRNA疫苗而言我们希望看到一条清晰的、长度在4000-5000核苷酸左右的主带对应于完整的刺突蛋白编码mRNA而不是一堆降解的碎片。这个步骤的价值在于它能告诉你提取的RNA是否“能用”为后续昂贵的建库测序步骤提供了质量保证避免了在低质量样本上浪费资源和时间。2.3 测序文库构建的策略选择获得ng级别的微量RNA后如何将其转化为可供Illumina测序仪识别的DNA文库这里用到了一个非常巧妙且适合微量RNA的建库技术SMARTerSwitching Mechanism at 5‘ End of RNA Template链特异性RNA-seq建库法。其核心步骤和原理如下RNA片段化将完整的长链mRNA通过94℃加热打断成更短的小片段例如200-500 bp。这符合Illumina短读长测序的要求。第一链cDNA合成与模板转换这是SMART技术的精髓。使用带有oligo(dT)或随机引物的逆转录酶进行逆转录。当逆转录酶到达RNA模板的5‘端时其末端转移酶活性会在新合成的cDNA链的3’端额外添加几个通常是3个非模板依赖的C碱基。建库试剂中提供了一种特殊的“模板转换寡核苷酸”TSO其3‘端带有3个G碱基与cDNA末端的3个C互补配对。逆转录酶会以这条TSO为模板继续延伸cDNA链从而将TSO的序列引入到cDNA中。引入完整测序接头TSO上预先连接了部分Illumina测序接头的序列。通过后续的PCR扩增就能在cDNA片段的两端补全完整的P5和P7接头形成最终的测序文库。这个方法的优势在于高灵敏度特别适合微量甚至痕量RNA样本因为它能从很少的起始材料中有效扩增。链特异性由于TSO只会在cDNA第一链合成时引入因此通过分析测序读段reads与接头的相对方向可以推断出原始RNA模板的链方向是正义链还是反义链。这对于评估疫苗RNA中是否存在双链RNAdsRNA杂质至关重要。全长信息尽管RNA被片段化但通过模板转换捕获了片段5‘端的序列有助于后续的序列组装。2.4 生物信息学分析流程测序产生的海量短读段paired-end 78 bp reads需要经过一系列生物信息学处理才能拼装成完整的序列contig。基本流程包括质控与过滤使用FastQC、Trimmomatic等工具去除低质量碱基和接头序列。序列组装由于没有公开的、完整的Moderna疫苗序列作为参考团队采用了从头组装的策略。他们可能使用了如SPAdes、MEGAHIT或专门用于转录组数据的Trinity等组装软件将短读段重叠连接成更长的连续序列contigs。序列比对与验证对于辉瑞疫苗他们可以将组装出的contig与社区逆向工程获得的参考序列进行比对例如使用BLAST或Minimap2以验证其准确性。对于Moderna疫苗由于没有参考序列组装出的contig需要通过与已知的SARS-CoV-2刺突蛋白S蛋白的氨基酸序列进行比对来验证。他们可能使用tBLASTx将核酸序列翻译成蛋白后比对来确认组装出的序列确实编码完整的S蛋白。链特异性分析利用SMARTer建库的链特异性信息统计比对到正义链和反义链的读段数量比例从而初步评估原始RNA样本中dsRNA的含量。3. 核心发现与深度解读这项研究虽然以技术报告的形式呈现但其产出结果蕴含了多个层面的重要信息远不止是两条核酸序列那么简单。3.1 序列确认与填补空白最直接的成果是两条疫苗mRNA刺突蛋白编码区的序列。辉瑞/BioNTech BNT-162b2研究团队组装出的序列与之前通过非实验手段分析监管文件、专利信息推断出的序列完全匹配。这提供了一个独立的、实验性的验证增强了该序列的可信度。文中特别提到组装出的序列在5‘端与报告一致但未能完整捕获3’端特殊的“间断式PolyA尾”结构A30(GCATATGACT)A70。这恰恰反映了短读长测序技术在解析末端复杂重复或特殊结构时的局限性是技术边界的一个诚实标注。Moderna mRNA-1273这项工作首次通过实验数据独立组装出了该疫苗的编码序列。在当时这是一个重要的数据贡献为科学社区提供了一个可用的、经过实验验证的参考序列。它使得其他研究人员在进行相关分析时不必完全依赖于公司披露的不完整信息。3.2 RNA稳定性与冷链运输的启示一个非常有趣且具有潜在应用价值的发现是研究团队测试了疫苗残留液在4℃冷藏条件下添加或不添加EDTA保存长达42天后的RNA完整性。令人惊讶的是有相当一部分mRNA仍然保持完整。重要提示这里必须做一个关键区分——RNA分子的化学稳定性与疫苗产品的生物效价稳定性是两回事。疫苗是一个复杂的制剂其核心是mRNA但包裹它的脂质纳米颗粒LNP的物理稳定性、mRNA是否从LNP中泄露、LNP的递送效率等共同决定了疫苗能否在体内有效激发免疫反应。文中也明确强调LNP等组分在非超低温条件下可能不稳定因此这个发现绝不意味着现有的疫苗可以脱离严格的冷链。然而这个发现指向了一个重要的研发方向如果通过优化mRNA的化学修饰如使用更稳定的修饰核苷酸和改进LNP配方未来是否有可能开发出对冷链依赖更小、甚至可在冰箱温度下长期保存的mRNA疫苗这对于提升疫苗在资源匮乏地区的可及性具有重大意义。这项研究无意中为这个方向提供了一个初步的、关于RNA骨架本身稳定性的证据。3.3 双链RNAdsRNA杂质的评估dsRNA是体外转录IVT制备mRNA过程中常见的有害副产物它能强烈激活细胞内的天然免疫受体如RIG-I、MDA5导致强烈的炎症反应和蛋白翻译抑制不仅降低疫苗效力还可能增加不良反应风险。因此监测和去除dsRNA是生产高质量治疗性mRNA的关键质控步骤。研究团队利用链特异性测序数据对dsRNA含量进行了初步评估。他们发现超过99.99%的、带有模板转换信号可明确判断链来源的读段都来自预期的正义链。这表明在这两个商业疫苗样本中dsRNA杂质水平极低符合高质量治疗性mRNA的标准。这间接反映了辉瑞和Moderna在生产工艺中已采用了有效的纯化策略如高效液相色谱纯化来去除dsRNA。实操心得在评估dsRNA时仅凭测序读段的正反义比例并不完全可靠因为建库过程中的各种偏差如随机引物引发的非特异性扩增可能产生背景噪音。更严谨的方法需要结合多种技术例如使用对dsRNA特异性的抗体如J2抗体进行斑点杂交或ELISA检测。文中团队也意识到了这一点指出需要独立的实验来验证。这提醒我们在解读高通量测序数据时尤其是对于低丰度事件的定量需要保持谨慎并寻求正交实验方法的支持。4. 实验流程的实操要点与避坑指南虽然原文描述精炼但要将这样一个项目从想法变为现实在实验室实际操作中会遇到无数细节问题。以下是我基于类似经验总结出的关键实操要点和常见“坑点”。4.1 样本收集与前期处理微量液体的收集使用低吸附的移液器吸头和微量离心管如0.5 mL LoBind管。可以将多个废弃药瓶的残留液集中收集以积累足够的体积。操作需迅速减少RNA降解。立即处理或妥善保存理想情况是收集后立即进行RNA提取。若不能应将样本置于干冰或-80℃冰箱中速冻。文中提到在4℃下保存的研究是特例不应作为常规操作。潜在抑制剂处理疫苗制剂中的成分如PEG、脂质可能抑制下游酶反应。在TRIzol提取后进行额外的氯仿抽提和乙醇洗涤步骤至关重要以确保RNA沉淀的纯度。也可以考虑使用专门的微量RNA纯化试剂盒其硅胶膜吸附法可能对去除某些抑制剂更有效。4.2 RNA提取与质控共沉淀剂的使用在TRIzol法中加入糖原如glycogen或线性丙烯酰胺作为共沉淀剂可以极大地提高微量RNA的回收率并形成可见的沉淀便于操作。Bioanalyzer/Picochip对于浓度极低的样本安捷伦2100生物分析仪搭配RNA Pico芯片是金标准。它能检测低至50 pg/μL的RNA并提供完整的完整性图谱。如果没有此设备使用高灵敏度的荧光染料如Qubit RNA HS Assay进行定量并结合普通的琼脂糖凝胶电泳看条带也是一种替代方案但信息量较少。降解样本的处理如果Bioanalyzer图谱显示严重降解主峰消失出现低分子量弥散条带则不建议继续进行昂贵的建库测序。可以尝试重新收集样本或优化提取流程。4.3 文库构建与测序建库试剂盒选择SMARTer Stranded RNA-Seq Kit是优秀的选择。对于可能含有核糖体RNArRNA污染的样本虽然疫苗残留液中理论上没有细胞总RNA但操作污染可能引入可以考虑其带有rRNA去除功能的版本。另一个强大的替代方案是Takara的SMART-Seq v4 Ultra Low Input RNA Kit它对超低起始量低至10 pg的完整RNA有极佳的表现。PCR循环数对于微量样本需要增加PCR扩增的循环数以获得足够的文库产量但过多的循环数会加剧扩增偏好性和重复序列问题。建议进行预实验确定能产生足够文库通常1 nM的最小循环数。通常12-15个循环是合理的起点。测序深度与读长对于验证已知序列或组装一个约4000 nt的转录本不需要极高的测序深度。文中使用的MiSeq paired-end 78bp的配置是合理且经济的。更高的深度如10M reads有助于发现低频变异或更精确地定量链偏好性。如果预算允许使用NovaSeq等平台进行更深的测序可以为后续分析提供更稳健的数据。4.4 生物信息学分析实操组装软件参数调优对于单一、高丰度的转录本组装相对简单。但组装软件如SPAdes的--rna模式或MEGAHIT的k-mer大小选择会影响结果。可以尝试多个k-mer值例如21, 33, 55, 77进行组装然后选择能产生最长、最完整contig的参数组合。使用Bandage等可视化工具查看组装图有助于判断组装质量。序列比对与验证辉瑞序列验证使用minimap2 -ax sr reference.fasta reads_1.fq reads_2.fq alignment.sam将测序读段直接比对到已知的参考序列然后使用samtools统计覆盖度和一致性。接近100%的覆盖度和极高的比对一致性99.9%是验证成功的有力证据。Moderna序列功能验证将组装出的最长contig翻译成6种可能的阅读框使用blastx比对到NCBI的NR蛋白数据库或专门的SARS-CoV-2蛋白数据库。正确的序列应该与SARS-CoV-2刺突蛋白S蛋白有极高的氨基酸序列一致性预计99%并且覆盖其大部分长度。链特异性分析利用featureCounts针对参考序列或直接解析SAM/BAM文件中的标签如XS:A:或XS:A:-取决于建库试剂盒来统计正反义链的读段数。计算正义链读段比例。比例越高表明dsRNA杂质越少。5. 常见问题与排查技巧实录在实际操作中你可能会遇到以下问题。这里提供一些排查思路问题1RNA提取后浓度极低甚至检测不到。可能原因样本起始量太少提取过程中RNA丢失沉淀未完全溶解、吸取上清时吸到沉淀共沉淀剂未有效工作测量仪器灵敏度不够。排查与解决确认收集的残留液总体积。如果可能增加收集的瓶数。在TRIzol提取后用少量无RNase水如20 μL溶解沉淀并充分吹打混匀必要时在55℃孵育几分钟助溶。确保使用了糖原1-2 μL of 20 mg/mL作为共沉淀剂。使用安捷伦2100 Pico芯片或Qubit高灵敏度检测。不要依赖Nanodrop它对低浓度样本不准且无法区分RNA和杂质。问题2Bioanalyzer图谱显示RNA严重降解。可能原因样本在收集前或保存过程中被RNase污染提取操作环境有RNase污染样本反复冻融。排查与解决确保所有耗材吸头、离心管均为无RNase型操作台、移液器定期用RNase去除剂擦拭。操作人员佩戴手套并勤换避免直接接触样本和试剂。样本收集后立即冻存避免反复冻融。提取过程尽量在冰上操作。如果降解无法避免考虑是否仍能从片段化RNA中获取足够信息对于测序建库片段化本就是一步所以中度降解的样本有时仍可用于建库但会影响全长信息的获取。问题3建库后文库产量低。可能原因起始RNA量不足或质量差逆转录或PCR效率低纯化步骤损失大。排查与解决用Qubit高灵敏度检测准确测定起始RNA浓度确保达到建库试剂盒要求的最低输入量通常为1 ng-10 ng。检查试剂盒组分是否在有效期内并确保所有反应步骤在正确的温度和时间下进行。使用针对微量DNA文库纯化的磁珠如AMPure XP并严格按照推荐的比例进行纯化。纯化后用适量洗脱缓冲液如15-20 μL洗脱。如果产量持续偏低可以考虑在PCR后增加一个额外的纯化循环或者换用对超低输入更优化的建库试剂盒。问题4测序数据组装不出完整的contig或组装出多个短contig。可能原因测序深度不足读段质量差含大量接头或低质量碱基组装参数k-mer选择不当样本中存在其他RNA污染如操作者皮肤细胞RNA。排查与解决对原始测序数据进行严格的质控和过滤使用Trimmomatic或fastp去除低质量读段和接头。检查测序深度。对于单一转录本1-5 million clean reads通常足够。如果深度足够但组装效果差尝试不同的k-mer值组合进行组装。将测序读段比对到人类基因组如hg38查看是否有高比例的人类RNA污染。如果有需要在分析前将其去除。尝试不同的组装算法例如先用MEGAHIT速度快进行初步组装再用SPAdes更精确但耗资源对初步结果进行优化。问题5组装出的序列与预期参考序列有少量错配或插入缺失。可能原因测序错误PCR扩增引入的突变真实的序列变异尽管对于合成mRNA可能性较低比对或组装软件的人为错误。排查与解决检查突变位点的测序质量值Phred score低质量支持如Q20的突变很可能是测序错误。在IGV等基因组浏览器中可视化查看比对情况确认突变位点是否有多个读段一致支持还是仅由少数读段支持。如果是同义突变或非编码区的突变且频率较低很可能是技术噪音。如果是高频的非同义突变需要谨慎对待但考虑到mRNA疫苗是高度纯化的合成产物出现一致性的高频突变的可能性很小更可能是参考序列本身有误或分析流程问题。6. 研究的延伸思考与应用场景这项工作的意义远不止于发布两条序列。它为多个相关领域提供了方法论参考和数据基础。1. 公共卫生与流行病学监测随着大规模疫苗接种的推进疫苗衍生的RNA序列会出现在污水监测、环境样本甚至部分患者的呼吸道样本测序数据中。拥有准确的疫苗序列是区分“疫苗信号”与“活病毒信号”的唯一可靠依据。这对于精准监测病毒变异、评估疫苗对新兴变异株的有效性至关重要。例如在分析废水宏基因组数据时如果检测到刺突蛋白基因序列必须能通过特定位点的突变如疫苗序列特有的修饰核苷酸对应的密码子来判断其来源。2. 分子诊断开发与质量控制核酸检测如PCR、CRISPR-based assay是诊断COVID-19的核心手段。如果引物或探针恰好与疫苗mRNA序列完全匹配理论上可能导致近期接种疫苗的人出现假阳性。虽然由于采样部位鼻咽 vs. 肌肉注射和RNA存在形式裸露mRNA vs. 细胞内转录本不同这种情况在实际中罕见但在设计最特异的诊断试剂时避开疫苗序列区域仍是最佳实践。这项研究提供的序列为此提供了便利。3. 新型疫苗研发与反向工程学习对于疫苗研发人员而言分析已上市成功产品的序列特征如密码子优化策略、UTR的选择、修饰核苷酸的使用频率是宝贵的学习机会。虽然无法得知全部的配方和工艺但核酸序列是核心“源代码”。通过对比不同疫苗的序列可以洞察设计思路的异同启发自己的研发。4. 生物信息学分析流程的验证这篇笔记本身就是一个完美的案例研究可用于教学或验证生物信息学流程。从原始测序数据如果公开开始学生或研究人员可以完整地走一遍质控、组装、比对、分析的流程将得到的结果与文中报道的序列进行对比从而熟练掌握一套完整的微生物基因组/转录组分析技能。回顾整个项目最深的体会是面对前沿的生物技术产品独立的验证和解析能力始终是科学研究的基石。即便是在商业和监管框架下通过公开、合规的途径利用标准化的分子生物学和生物信息学工具我们依然能够对其核心成分进行表征和理解。这种能力不仅增强了我们对这些救世良药的信心也为应对未来可能出现的新的公共卫生挑战积累了重要的技术储备。最后一个小建议是在进行此类研究时除了关注技术本身一定要提前与法律、伦理部门的同事充分沟通确保每一个环节都经得起推敲这是让科研工作产生持久价值的前提。