1. 引言
微生物无处不在,其种类和分布会随环境的变化而不断变化,同时因其数量庞大,种类繁多,虽然含有有益的微生物,但其中不乏危害较大、传播性很高,会对人的健康造成一定的威胁的微生物种群。为了确保全体师生的安全,本实验组通过16S rRNA (16S核糖体RNA),采用理论分析法、文献研究法和实验研究法来探究华东理工大学奉贤校区微生物群落多样性,以及流行性预警防控措施。16S rRNA是细菌中的一个高度保守的基因片段,同时具有一定的变异性,保守区有利于扩增引物的设计,可变区体现了物种间的进化差异。这些特性使16S rRNA基因成为原核生物鉴定分类、系统进化以及多样性分析等研究中常用的分子标志物。通过对16S rRNA基因进行测序,可以确定微生物群落中存在的不同菌属和菌种,并评估它们的相对丰度,是分析微生物组成和多样性非常重要且实用的方法。华理奉贤校区校园是个大规模人员聚集的场所,为保障全体学生和教职工的安全健康生活,本实验组通过16S rRNA (16S核糖体RNA),采用理论分析法、文献研究法和实验研究法来开展华东理工大学奉贤校区微生物群落多样性调研,分析校园内微生物菌群的种类和分布,为科学地管理学校内卫生环境,有效预防和控制校园微生物流行,对疾病预防及预警具有重要意义。
2. 16S rRNA的分析
16S rRNA是细菌中的一个高度保守的基因片段,全长约1500 bp,如图1所示,由V1~V9九个可变区和若干保守区组成,同时具有一定的变异性,保守区有利于扩增引物的设计,可变区体现了物种间的进化差异。这些特性使16S rRNA基因成为原核生物鉴定分类、系统进化以及多样性分析等研究中常用的分子标志物。16S rRNA基因扩增测序技术无需微生物培养,具有简单、快速、成本低等优点,因此16S rRNA分析被广泛用千医学、农业、工业、食品以及公共环境等微生物组学研究,对微生物分类鉴定、系统发育和种群丰度分析,可以确定微生物群落中存在的不同菌属和菌种,并评估它们的相对丰度,是分析微生物组成和多样性非常重要且实用的方法。
在过去几十年里,16S rRNA分析被用于揭示不同环境中的微生物群落组成和功能,如通过16S rRNA分析发现农田土壤中存在丰度较高的氨氧化细菌,提示其可能在土壤中发挥着关键的氮循环功能[1]。通过比较不同地带的森林土壤微生物群落,发现高海拔地区的土壤中存在更多耐寒的真菌,表明它们可能对植物适应寒冷环境起到重要作用[2]。Khuder等人[3]利用16S rRNA基因的氮素碱基分离红荆芥叶腺体和种子内生细菌,丰富菌株组成。
Figure 1. Sequence structure and characteristics of 16S rRNA
图1. 16S rRNA序列结构与特征
2.1. 样本采集和总DNA提取
在进行16S rRNA分析之前,首先需要从目标环境中采集微生物样本,并提取总DNA。传统的样本采集方法包括膜过滤、组织切片等。随着技术的发展,更便捷高效的设备被运用于样本采集,如高通量样本采集器和微流控设备。
样本采集应遵循原则:
a) 布点和样品数容量要遵循“随机”和“等量”原则。
b) 布点方法应遵循简单随机原则。即将监测单元分成网格,每个网格编上号码,决定采样点样品数后,随机抽取规定的样品数的样品,其样本号码对应的网格号,即为采样点。
c) 布点数量应由均方差和绝对偏差、变异系数和相对偏差计算出基础样品数量后再根据调查目的、调查精度和调查区域环境状况等因素进一步确定。采样点一般不少于五个。
d) 对于不同采样对象,具体采样要求有所不同。对于城市土壤,应注意根据其复杂性分层取样[4]。对于水体,应注意采样者站位,应在采样点下游逆流采集水样,避免搅动底部沉积物导致水样污染;除标准分析方法有特殊要求的监测项目外,采样器、静置容器和样品瓶在使用前应先用水样分别荡洗2~3次[5]。
完成样本采集后,根据样本来源进行处理并提取总DNA。总DNA的提取可使用各种商业化的提取试剂盒或自制的提取方法。
2.2. 16S rRNA片段扩增和文库构建
扩增16S rRNA基因片段可以采用通用PCR引物对总DNA进行PCR扩增。研究大多数研究者都是采用细菌高度变化的V3~V4区,选取一段具有较高的变异性和保守性的长度约为468 bp左右的16S rRNA基因,对此进行测序。而构建16S rRNA文库是一项用于研究微生物群落结构和多样性的重要技术。首先,从样本中提取DNA,然后通过PCR扩增目标16S rRNA基因片段。扩增产物经过清理和文库构建后,进行质量检测并进行高通量测序。最后,通过生物信息学分析处理测序数据,揭示微生物群落的组成和功能特征。这一系列操作结合生物信息学技术进行数据解读后,将为研究微生物生态学、疾病研究等提供有力支持。
2.3. 高通量测序
高通量测序技术的快速发展使得对微生物群落的分析变得更加容易和准确。目前,Illumina MiSeq和Ion Torrent PGM等测序平台已成为16S rRNA分析中常用的测序方法。这些测序方法能够产生大量序列数据,帮助研究者研究微生物群落的多样性和结构。靶向扩增子测序通常采用短读长测序技术和长读长测序技术,其中短读长测序技术通常靶向16S rRNA的特定区域,例如V3~V4,而被评选为2022年度技术的长读长测序技术可以靶向全长16S rRNA,以获得更好的微生物组鉴定性能,但数据生成能力降低[6]。
2.4. 16S rRNA序列数据的分析
多种生物信息学工具和软件用于大规模16S rRNA序列数据的分析,如图2,通常使用的软件包括QIIME和mothur等,帮助研究者进行序列质量过滤、进化树构建、OTU聚类等分析[7]。其中OTU聚类分析又包括三种常见的类型。第一种是启发式聚类算法,该类算法采用一种简单贪婪策略,始于一个种子,基于一定的搜索技术,合并、扩张,完成序列的聚类过程;第二种是层次聚类算法,该算法是目前最常用的微生物群落聚类方法;除此之外是其他聚类算法,其中典型的是基于数学模型的聚类算法,数学模型包括高斯模型、贝叶斯模型和马尔科夫模型。
通过对16S rRNA序列数据的分析还可以了解微生物群落的功能和生态学特征,常用软件是PICRUSt软件,基于marker基因(如16S rDNA)和已知的参考序列数据库,预测宏基因组功能组成,再通过LEfSe或STAMP等软件对预测的功能进行差异分析,分析结果反映不同实验对象、不同处理手段之间是否真的存在菌群差异,从而证明疾病发生与菌群紊乱是否相关(有差异,说明存在相关性)。例如,通过研究微生物群落的变化趋势来进行流行病的预警。功能基因组学和转录组测序等技术被引入预测微生物群落的功能,并了解它们在环境中的重要性。例如,Madhav Mani等人[8]以反硝化过程为例的研究表明,微生物群落的代谢动力学可以从群落中每个成员拥有的基因来预测。
Figure 2. Schematic diagram of 16S rRNA sequence analysis process
图2. 16S rRNA序列分析流程示意图
3. 16S rRNA种群分析与流行性疾病的预警关系
微生物是生态系统中不可或缺的一部分,它们在环境中的分布和丰度对生态系统的健康和稳定起着重要作用。随着分子生物学技术的发展,16S rRNA检测成为研究微生物多样性和群落结构的重要手段。通过对微生物样品中16S rRNA基因的测序和分析,可以了解特定环境中微生物不同种群的组成和相对丰度,该技术可应用于医学、环境科学、生态学等的各个领域,提供综合预警信息。
3.1. 流行性疾病的预测与预警
3.1.1. 流行性疾病的预测与预警的重要性
流行性疾病是指在一定条件下,在人群中传播和扩散的疾病,具有突发性、传播速度快、影响范围广等特点,给人类健康带来极大的威胁。
流行性疾病的预测与预警是指在流行性疾病发生前或发生初期,通过收集和分析相关数据,预测其发展趋势和可能的影响,并及时向相关部门和公众发出警报。流行病的预测与预警可以帮助我们提前采取防控措施,减少疾病的传播和扩散,降低其对人类健康的危害,同时还可以为政府和医疗机构提供决策依据,提高应对效率。
3.1.2. 流行性疾病预测与预警的常用方法
1) 统计模型:通过建立数学模型,基于历史数据对流行性疾病的发展趋势进行预测。常见的统计模型包括时间序列分析、回归分析等[9]。
2) 数据挖掘技术:利用大数据和人工智能技术,对海量的医疗、气象、交通等数据进行挖掘和分析,发现与流行性疾病相关的规律和特征[9] [10]。
3) 疾病监测系统:建立和完善疾病监测系统,对疑似病例、接触者等进行实时监测和追踪,及时发现和处置疫情。
4) 专家系统:利用专家知识和经验,对流行性疾病的传播规律、防控措施等进行评估和预测。
3.2. 16S rRNA种群分析在流行性疾病预警中的应用
16S rRNA检测可以被用于疫病监测与预警。微生物中的某些菌群和病原菌与疾病相关。通过对样本的16S rRNA分析,可以追踪和识别潜在的病原体,如在呼吸道感染中,常见的病原菌如肺炎链球菌(Streptococcus pneumoniae)、肺炎克雷伯菌(Klebseilla pneumoniae)和流感病毒(Influenza virus),它们的存在和相对丰度的变化可以提供早期的疾病预警[11] [12]。当特定的病原菌开始在人群中显著增加时,可以采取相应的防控措施,比如疫苗接种、早期治疗等,从而有效防止疾病的爆发和传播。
3.2.1. 通过16S rRNA基因测序预测病原菌的变化及传播途径
随着环境的变化和抗生素的广泛使用,病原菌也在不断地演化。通过16S rRNA基因测序,可以监测病原菌种群结构的变化,预测新型病原菌的出现和传播。Lu Wenjie等人[13]采用监测肠道病原菌的16S rRNA序列变化,分析小鼠溃疡性结肠炎的改善情况和可能机制。再如,泪囊炎等疾病因致病菌菌群翻天覆地的不同,采用的治疗手段也应不同,可采用对患者样本进行高通量测序来提升治疗效果。
通过16S rRNA基因检测可以鉴定病原菌在患者体内的分布和种群结构,从而推断其可能的传播途径。刘肖[14]采用16S rRNA基因检测对慢性鼻窦炎鼻腔菌群情况调查,对鼻腔内的细菌种类进行分类,为临床研究提供生物学支持。刘连琴等人[15]在研究炎症性肠病(IBD)患者的肠道微生物变化采用16S rRNA基因检测预测炎症性肠病的发生发展,对3个显著差异菌属(乳杆菌属、迟缓埃格特菌、肠球菌属)的相对丰度和89个显著差异代谢物的表达量进行关联分析,并对肠道菌群进行α多样性分析和β多样性分析,前者用来表征微生物的丰富度和均匀度,而后者则用来表征样本之间微生物群落的相似程度。通过α多样性分析和β多样性分析,可绘制物种累积曲线,来评断和推测微生物群中样本量增加所导致物种丰富度增加的趋势,更加直观有力地显示出微生物种群特征,表现流行性疾病和微生物种群的关联性,为病原菌变化及传播途径的预警打下基础。
大量文献表明,与培养法相比,16S rRNA基因测序对病原菌的鉴定简单而准确,通过16S rRNA基因测序预测病原菌的变化及传播途径对于采用何种防控措施至关重要[16] [17]。
3.2.2. 通过16S rRNA基因测序预测抗生素抗性菌株的流行
抗生素抗性是全球公共卫生面临的重大挑战之一。通过16S rRNA基因测序,可以鉴定出具有抗性的细菌种群,预测其可能的传播和演化趋势。
有不少研究表明,鲍曼不动杆菌广泛分布在医院环境和人体皮肤表面,是一种条件致病菌,是引起重症监护病房(ICU)危重病人的各种感染的主要菌株。目前鲍曼不动杆菌的对氨基糖苷类抗菌药物耐药性不断上升,导致院内获得性感染和二重性感染病例的发生。M.S. Al-Kadmy等人[18]采用通过对鲍曼不动杆菌的16S rRNA基因进行基因型鉴定,发现粘菌素耐药性较高的鲍曼不动杆菌,其整合子使得鲍曼不动杆菌可以从其他物种中捕获额外的遗传物质,使得鲍曼不动杆菌的抗性增强,扩展了细菌在不同条件下的生长能力,因此,存在大量耐粘菌素的鲍曼不动杆菌地区需要避免使用粘菌素于临床。类似的,张利娟等[19]人从另一角度出发来对鲍曼不动杆菌耐药表型分析——质粒介导的16S rRNA甲基化酶基因。16S rRNA甲基化酶基因检测的实质是核糖体结合位点的改变,张利娟等采用ERIC-PCR方法,以肠杆菌科细菌间重复一致序列(5’-AGG TAA GTG ACT GGG GTG AGC G-3’)为引物,对鲍曼不动杆菌进行同源性调查,起到预警的作用,实验结果良好。它的特点是操作简便,速度较快,成本较低,是一种快速有效的基因分型方法。为抑制和预防16Sr RNA甲基化酶基因耐药性的产生,Husain等人[20]研究出了Sgm-rRNA相互作用模型,促进抑制剂的合成以使病原体丧失抵抗力。
淋病奈瑟菌对抗生素的耐药也给公众生活带来许多问题,大观霉素是治疗淋病的常见药物,但根据研究发现淋病对大观霉素的敏感性逐步下降,可能是基因突变导致。叶峰山[21]等通过16S rRNA基因技术发现淋球菌自身基因突变导致对大观霉素耐药,由于各别碱基的改变使16S rRNA结构变化,细菌蛋白质合成无法被抑制而导致细菌的耐药。进一步证实了淋球菌基因突变导致其核糖体改变,药物与核糖体亲和性下降而耐药。
食品安全也是运用16S rRNA基因测序预防流行性疾病发生的重要运用方向。其中,李斯特菌群是一个重要的预警目标。Daniel等[22]采用毒力基因标记和16S rRNA扩增测序方法,从即食食品(RTE)中鉴定出的具有表型特征的单核增生乳杆菌菌株,采用圆盘扩散法对从RTE食品中分离的90株单核增生乳杆菌进行抗生素谱分析。此方法可行度较高,所检测的范围较广,准确度较好。
4. 基于16S rRNA基因序列分析的流行病预警存在的问题及解决方法
16S rRNA基因序列分析是研究微生物群落结构和动态变化的重要工具。虽然这种技术已经被广泛使用,并取得了许多重要的科研成果,但在国内外相关研究中,仍然存在一些问题和局限性。
4.1. 序列特异性的选择问题
PCR引物的选择对16S rRNA基因测序的准确性和覆盖范围具有重要影响,见表1。研究发现在使用16S rRNA基因测序来鉴定细菌的过程中,由于细菌内部的等位基因变异导致了基因高度多态性,这增加了获得易解读序列难度,也增加了从基因序列中推断出微生物的功能和行为的难度,从而限制了对微生物群体的解读。因此选择有效且关键的PCR引物来获取关键的基因片段尤为重要[23]。目前常用的引物包括27F/1492R和515F/806R等,但存在一些如下问题:第一,这些引物的选择可能导致某些低丰度菌群完全缺失或被低估,从而影响对微生物群落结构的准确描述;其次,不同的菌群在16S rRNA基因上的变异情况不同,因此并非所有引物对所有菌群都具有同等影响力。
可以采用以下方法解决上述问题,一是设计多组引物来扩增不同V区的16S rRNA基因,如使用515F/806R引物对细菌V4区进行扩增,使用926F/1392R引物对细菌V6~V8区进行扩增,以提高覆盖范围;二是应用NCBI Blast对引物特异性进行评估或者用如Primer3和ARB等引物设计软件预测引物的特异性和潜在缺陷,一定程度上可优化引物的选择[24]。
Table 1. Summary of primers for the amplification of different variable regions of 16S rRNA gene in bacterial population analysis
表1. 细菌种群分析中16S rRNA基因不同可变区的扩增引物特性总表
引物对 |
目标区域 |
G-C含量 |
覆盖范围bp |
正向引物 |
反向引物 |
引物 |
单链序列 |
引物 |
单链序列 |
|
F/R |
|
27F |
AGAGTTTGATCCTGGCTCAG |
1492R |
GGTTACCTTGTTACGACTT |
V1~V3 |
50%/53.3% |
1500 |
515F |
GTGCCAGCMGCCGCGGTAA |
806F |
GGACTACVSGGGTATCTAAT |
V4 |
54%/50% |
300 |
63F |
CAGGCCCTACACGCT |
1387R |
GGGCGGTGTGTACAAG |
V1~V9 |
46.7%/53.3% |
1300 |
341F |
CCTACGGGNGGCWGCAG |
785R |
GACTACHVGGGTATCTAATCC |
V3~V4 |
48.6%/48.6% |
450 |
967F |
ACGCGHNRAACCTTACC |
1391R |
GACGGGCGGTGWGTRCA |
V6~V8 |
46.7%/46.7% |
440 |
799F |
CGAGTGCTGATGCTAAG |
1193R |
GTTGCTGCTCTTCCGAT |
V5~V6 |
50%/50% |
390 |
68F |
GAGAGTTTGATYMTGGCTCAG |
518R |
GTATTACCGCGGCTGCTGG |
V1~V3 |
48.8%/48.1% |
450 |
338F |
ACTCCTACGGGAGGCAGCAG |
806R |
GGACTACHVGGGTATCTAAT |
V3~V4 |
46.7%/48.8% |
470 |
519F |
CAGCMGCCGCGGTAA |
907R |
CCGTCAATTCMTTTGAGTTT |
V4 |
50%/44.4% |
390 |
803F |
CTACACATGCAAGTCGAAC |
1040R |
AAGGAGGTGATCCANCCRCA |
V4~V5 |
51.7%/50% |
450 |
4.2. 序列的准确性问题
16S rRNA序列获取过程中存在一定的错误率,包括PCR扩增过程中的错误、测序仪器的误差以及数据处理过程中的不准确性。这些错误会导致假阳性和假阴性结果,从而引起数据分析和解释上的困扰[7]。
为了降低序列错误率,首先可以在PCR扩增过程中增加混合物的稳定性和扩增准确性,如优化反应体系中的引物浓度、模板DNA浓度和反应条件,以减少非特异扩增和杂交。其次,可以使用更先进的测序技术和更高质量的测序仪器,以提高测序的准确性,如采用磷酸测序技术和通道平衡技术可以显著降低数据误差。最后,在数据处理时可以运用质控和过滤等方法来降低序列错误的影响,如通过去除低质量序列和纠错算法来提高测序数据的准确性。
4.3. 数据处理问题和定性问题
嵌合体和错误序列造成群落多样性评估偏高。PCR扩增产生的嵌合体和测序造成的错误序列若未除尽,则可能被错误地分类注释甚至被误认为是新物种,可使用Chimera Slayer、UCHIME等嵌合体检测软件,也可尝试从改进实验的角度来减少嵌合体的形成。同时,高通量测序获得的大量数据需要进行合理的处理和分析,常见的数据处理问题包括序列质量过滤、去除冗余序列、OTU聚类和分类等。在序列质量过滤方面,可以根据测序结果的质量值,去除低质量序列,以减少噪音的引入。在冗余序列去除方面,可以通过使用软件对序列进行去重来减少数据重复和冗余[24]。OTU聚类和分类涉及将序列分成不同的分类操作单元(OTUs),用于描述和分析微生物群落,可利用现有的开源软件如QIIME、Mothur等进行进一步的分析。近年来,基于机器学习的方法也开始应用于分类问题,例如,如图3使用基于神经网络的方法进行物种注释。
Figure 3. Correlation networks of top50 genera in some samples from East China University of Science and Technology in Fengxian
图3. 华东理工大学奉贤校区部分样品top50属的相关性网络
4.4. 其他问题
4.4.1. 样本量不够大
微生物群体的多样性非常大,这使得很难从小的样本量中推断出有关微生物群体的信息。使用16S rRNA基因测序来研究孕妇的肠道微生物群体的一项研究中,发现由于基因的等位基因变异导致的多态性,样本量较小时,很难获得结果的清晰度和准确性。此种情况下可以通过增大样本量来消除多态性的影响,得到更准确的结果;也可通过细分分析,更精确地鉴定微生物群体中的微生物,并减少多样性的影响。因此进行16S rRNA基因序列分析时,获得足够的样本量和确保样本的多样性,以便能够得出可靠的结论。
4.4.2. 标准化不够完善
目前还没有一个标准的方法来处理16S rRNA基因测序数据,这可能导致不同实验室之间的结果不一致。机器学习技术来分析微生物群体时,由于环境和个体因素的影响,微生物群体的多样性非常大,使得很难找到一个统一的微生物标志来诊断病症。因此通过设立标准化方法,可以实现不同实验室之间的结果之间的一致性,也可以使用混合方法,即通过使用16S rRNA基因测序和其他方法,如全基因组测序和蛋白质分析等,可以得到更广泛的信息来确定和分析。
4.4.3. 随机性形成数据差异
由于微生物群体的复杂性和动态性,研究人员在不同时间点采样的结果可能会有很大的差异,所以研究结果具有一定的局限性,为了克服这一问题,扩大研究范围和数量是一个有效的解决方案[25]。通过扩大研究范围,研究人员可以考虑在不同地点收集样本。不同地点的微生物群体可能受到不同环境因素的影响,因此进一步扩大研究范围可以提供更全面的信息。此外,研究人员还可以考虑在不同季节或不同气候条件下收集样本,以了解微生物群体在不同环境条件下的变化。除了扩大研究范围,增加研究数量也是很重要的,研究人员可以更好地捕捉微生物群体的动态变化。较大的样本量使得研究结果更具统计学意义,并且能够减少由于个别样本的偶然差异导致的误判。此外,在研究设计上,研究人员还可以采用纵向研究的方法,跟踪同一微生物群体在不同时间点的变化。这种方法可以提供更多关于微生物群体演变的信息,帮助我们更好地理解其复杂性和动态性。
4.4.4. 微生物标本的存储和运输
微生物群体研究的一个重要挑战是微生物标本的存储和运输过程中可能带来的潜在影响。这些过程涉及到微生物群体的多样性和结构的保持,因此提高现有的微生物储存、隔离和运输技术是解决这个问题的关键。
在当前的微生物研究中,样本的采集往往需要进行一系列的处理和处理步骤,例如过滤、冷冻、保存等。然而,这些处理步骤可能导致微生物群体的改变,进而影响研究结果的可靠性。因此,我们需要改进现有的微生物储存技术,以确保样本在采集和存储过程中的稳定性。这可以包括使用新的冷冻方法、增加保护剂或添加抗氧化剂等手段,以减少可能对微生物群体造成伤害的因素[26]。此外,微生物的隔离和纯化过程也可能对微生物群体的多样性和结构产生影响。传统的培养方法可能导致对特定类型的微生物的过度选择,而忽略了其他微生物的存在。所以,我们需要开发新的隔离和纯化方法,以尽可能地保留微生物群体的多样性。这可以包括使用不同的培养基、优化培养条件或采用非培养方法来分离微生物。
5. 小结
随着高通量测序技术的快速发展,16S rRNA基因测序已经被广泛应用于各种微生物多样性分析。虽然序列特异性、测序技术的准确性和数据处理方面等的问题还有待完善,但随着多组引物设计、更精确的测序仪器和不断优化的数据处理软件的出现,高准确度、高质量的16S rRNA基因分析将得到实现。
16S rRNA基因测序技术在流行性疾病中起到至关重要的监测作用,有助于人类更好地预防和制止大面积流行性疾病的传播。16S rRNA基因测序与宏基因组测序、代谢组学等多组学连用也将成为新趋势,其中16S rRNA基因测序主要用于鉴定和分类细菌,了解微生物种群结构;宏基因组测序可以获得基因组成及功能、相关代谢通路等信息;代谢组学获得代谢物与生理病理变化的相对关系[27],多种方法交叉融合,为疾病的预警和防控提供更准确的信息。另外,不同学科之间相互融合发展,最新研究将16S rRNA与中医学方法联合起来探究患者肠道菌群变化[28],开辟创新性的治疗方法。同时,随着测序技术的不断进步,这些方法的灵敏度和特异性也将得到进一步提高。总之,通过16S rRNA基因测序技术,能为人类健康和疾病的预警防控提供更多准确有益的信息。