为探究盐度影响与刀鲚( Coilia nasus)腮组织转录组的关系,本实验对取自大洋河流域不同盐度水体的刀鲚的腮组织进行了转录组测序和分析。结果显示:一共有70,964条unigenes被注释;刀鲚的unigene序列与大西洋鲱( Clupea harengus)最为接近;有关细胞进程、生物调节、代谢过程的unigenes占比很高;腮组织部有关代谢功能的转录组表达十分旺盛;生物体系统(Organismal Systems)与环境信息处理的信号通路(Environmental Information Processing)的unigene数最多。 In order to explore the relationship between salinity effects and transcriptome of ( Coilia nasus) gill tissues, transcriptome sequencing and analysis were performed on the gill tissues of Coilia nasus from waters with different salinity in the Dayang River basin. The results showed that 70964 unigenes were annotated. The unigene sequence of Coilia nasus was closest to that of Atlantic Herring ( Clupea harengus). The proportion of unigenes related to cell process, biological regulation and metabolic process was high. Transcriptome expression related to metabolic function was very vigorous in the gill tissue. Organismal Systems and Environmental Information Processing have the largest number of unigene.
为探究盐度影响与刀鲚(Coilia nasus)腮组织转录组的关系,本实验对取自大洋河流域不同盐度水体的刀鲚的腮组织进行了转录组测序和分析。结果显示:一共有70,964条unigenes被注释;刀鲚的unigene序列与大西洋鲱(Clupea harengus)最为接近;有关细胞进程、生物调节、代谢过程的unigenes占比很高;腮组织部有关代谢功能的转录组表达十分旺盛;生物体系统(Organismal Systems)与环境信息处理的信号通路(Environmental Information Processing)的unigene数最多。
大洋河,刀鲚,转录组测序
Boxu Zhang, Zongyun Hu, Jian Zhang, Jianjun Wang, Peimin Yang*
Liaoning Key Laboratory for Prevention and Treatment of Aquatic Animal Diseases, Freshwater Fisheries Research Institute of Liaoning Province, Liaoyang Liaoning
Received: Nov. 14th, 2021; accepted: Nov. 30th, 2021; published: Dec. 14th, 2021
In order to explore the relationship between salinity effects and transcriptome of (Coilia nasus) gill tissues, transcriptome sequencing and analysis were performed on the gill tissues of Coilia nasus from waters with different salinity in the Dayang River basin. The results showed that 70964 unigenes were annotated. The unigene sequence of Coilia nasus was closest to that of Atlantic Herring (Clupea harengus). The proportion of unigenes related to cell process, biological regulation and metabolic process was high. Transcriptome expression related to metabolic function was very vigorous in the gill tissue. Organismal Systems and Environmental Information Processing have the largest number of unigene.
Keywords:Dayang River, Coilia nasus, RNA-Seq Sequencing
Copyright © 2021 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
刀鲚(Coilia nasus)属鲱形目(Clupeiformes)鳀科(Engraulidae)鲚属(Coilia),俗称刀鱼、河刀 [
2020年8月用流刺网在大洋河下游不同河段采捕刀鲚,本试验取河口咸水区(盐度为12‰,样品标记为DE)和石山桥河段淡水区(盐度为0.2‰,样本标记为SG)大小相近的鲜活刀鲚各5尾,刀鲚全长和体重分别为(27.52 ± 0.81) cm、(68.49 ± 6.96) g。剪去鳃部组织置于RNAfixer (Bioteke北京)保存液中带回实验室备用。
取保存的鳃部组织100 mg左右,采用TRizol法提取total RNA。利用Thermo Nanodrop2000对所提RNA的浓度和纯度进行检测,并用1.5%琼脂糖凝胶电泳检测RNA完整性。采用Agilent2100测定RIN值,单次建库要求RNA量1 ug,浓度 ≥ 50 ng/µL,OD260/280介于1.8~2.2之间。
利用带有Oligo (dT)的磁珠与ployA进行A-T碱基配对,总RNA中分离出mRNA,加入fragmentation buffer,可以将mRNA随机断裂成300 bp左右的小片段。通过逆转录酶加入六碱基随机引物(random hexamers),以mRNA为模板反转合成一链cDNA,随后进行二链合成,形成稳定的双链结构。双链的cDNA结构为粘性末端,加入End Repair Mix将其补成平末端,随后在3’末端加上一“A”碱基,用于连接Y字形的接头。
本实验采用Illumina HiSeq2500测序平台完成转录组测序,Illumina测序基于循环可逆终止技术工作,流程如下:
1) 技术代表目前新兴的基因组DNA提纯后被随机打断。这一步可以通过物理方法完成,如声波法、剪切法,或者雾化法,通常进一步通过长度分选随机打断的DNA片段。在两端都接上接头。
2) 单链DNA片段共价连接到流动细胞通道的表面。
3) 加入DNA聚合酶和未标记的脱氧核苷酸产生固相“桥扩增”,其中模板DNA使两端连接到通道表面形成U形环。
4) 双链桥生成。双链分子变性,然后继续扩增以形成高度簇集的模板DNA。
5) 加入四个标记的可逆终端(包含引物和DNA聚合酶)。在给定的循环中,一个可逆终端只能被加入一个模板。在特殊的不能延长的碱基处会产生链终止。
6) 在激光的激发下,第一个碱基的身份被记录。
7) 在第二个循环中,可逆终端被去除(保护)。所有四个标记的可逆终端和聚合酶再次被加入流细胞中。这个循环被重复。
之后对获得的测序数据进行质量控制(QC),之后利用生物信息学手段对转录组数据进行分析。其中使用fastx_toolkit_0.0.14软件对对每一个样本的碱基质量、碱基错误率以及碱基分布进行分析;然后使用软件SeqPrep (https://github.com/jstjohn/SeqPrep)和Sickle (https://github.com/najoshi/sickle)去除低质量reads得到高质量的质控数据(clean data);最后由Trinity (https://github.com/trinityrnaseq/trinityrnaseq/wiki)软件将clean data进行从头组装。
将测序过程中的图像信号经CASAVA碱基识别(Base Calling)转换成文字信号,并将其以fastq格式储存起来作为原始数据。根据index序列区分各个样本的数据,以便进行后续分析。单次运行能产生数十亿级的reads。将测序获得的reads与unigenes通过Bowtie 2.3.5进行比对,然后结合比对结果,经由RSEM 1.2.2软件的分析得到表达量水平的结果估计。最终输入不同样本的拷贝数(read counts)信息构成的矩阵,从而得到表达量信息差异分析结果。
通过BLAST 软件将该次转录组测序获得的所有转录本与六大数据库(NR, Swiss-Prot, Pfam, COG, GO和KEGG数据库)进行比对,获得在各数据库的注释信息,并使用HMMER与Pfam软件对各数据库注释情况进行统计和分析;并对SNP功能区域和SSR进行统计。
提取得到的RNA样品具有完整清晰的28S、18S和5S带型,A260/280值为2.02,28S:18S 值为1.80,RIN值为8.0,说明本次提取得到的刀鲚组织样品RNA质量较好,可以用于制备测序文库。
利用Trinity将拼接过滤后得到的reads片段进行聚类及进行拼接组装,共得到70,964条unigenes和100,022条转录本(transcript),平均长度分别为1061.73 bp和1140.11 bp。transcript与unigenes的N50 (重叠群序列累加后长度超过转录组总长度一半时的重叠群序列长度)分别为2227和2209 (表1)。其中长度在0~500 bp之间的unigenes数量为36,872条,占总数量的52%。长度在501~1000 bp为12,779条,总unigenes数量的18%;1000 bp长度以上的unigene数量均不超过10% (表2)。
类别 | Unigene数 | Transcript数 |
---|---|---|
Total number | 70,964 | 100,022 |
Total base | 75,344,738 | 114,036,134 |
Largest length (bp) | 19,645 | 19,645 |
Smallest length (bp) | 201 | 201 |
Average length (bp) | 1061.73 | 1140.11 |
N50 length (bp) | 2227 | 2209 |
GC percent (%) | 47.71 | 47.75 |
表1. 组装结果统计表
序列长度 | Unigene数量 | Unigene百分比 |
---|---|---|
0~500 | 36,872 | 52% |
501~1000 | 12,779 | 18% |
1001~1500 | 5613 | 8% |
1501~2000 | 4204 | 6% |
2001~2500 | 3069 | 4% |
2501~3000 | 2348 | 3% |
3001~3500 | 1761 | 2% |
3501~4000 | 1186 | 2% |
4001~4500 | 907 | 1% |
>4500 | 2225 | 3% |
表2. Unigenes序列长度分布情况
将测序获得的所有转录本在各数据库注释的整体情况进行统计,结果表明,有22,342个unigenes获得了GO注释,占全部unigenes的31.48% (表3)。GO注释的功能分析由3大部分组成,可以对基因和基因产物按照其参与的BP (Biological Process,生物过程)、MF(Molecular Function,分子功能)及CC (Cellular Component,细胞组分)方面进行分类注释(图1)。在这三个大分支下面又分很多小层级,功能上的细分更
数据库 | Unigene数量 | Unigene百分比 |
---|---|---|
GO | 22,342 | 31.48% |
NR | 29,750 | 41.92% |
KEGG | 18,997 | 26.77% |
COG | 27,529 | 38.79% |
Swiss-Pro | 24,766 | 34.9% |
Pfam | 24,156 | 34.04% |
Total_anno | 31,069 | 43.78% |
Total | 70,964 | 100% |
表3. Unigenes注释概况统计表
图1. GO注释分析图
有助于从整体上了解全部基因产物的功能分类。本次实验重点关注了生物过程这一分支,在有关生物过程下属的层级的注释中(图2):细胞进程(celluar process)共9214条占29.22%;生物调节(biological regulation)共5646条,占17.90%;代谢过程(metabolic process)共5127条,占16.26%,NCBI_NR(NCBI非冗余蛋白库)为综合数据库,可通过比对查看本物种转录本序列与相近物种的相似情况,以及同源序列的功能信息。如图3所示,刀鲚(Coilia nasus)的unigene序列大西洋鲱(Clupea harengus)相似度最高,为58.68%,另外还有19.60%的序列被注释到其他物种之中。通过与KEGG数据库比对,可获得某基因或转录本可能参与的具体生物学通路情况,这些信息有助于从系统水平解读基因的生物学功能。如图4所示,6大代谢途径中,参与生物体系统(Organismal Systems)的信号通路的unigene所占比例最高,遗传信息处理(Genetic Information Processing)所占比例最低。通过对unigene的注释和蛋白差异表达分析,为后续了解基因功能和解释表型差异提供数据基础。
图2. GO (BP)分析饼图
图3. NR注释物种分布饼图
图4. KEGG分析柱状图
RSEM,Kallisto,Salmon是三款常用的转录组定量分析软件,本次实验采用RSEM进行转录组的定量,并完成转录组和组装结果的比对。三款软件的输出结果包含表达量TPM或FPKM (仅RSEM)信息和read counts (比对到基因上的reads个数)信息。不同样本的read counts信息构成的矩阵可以用于差异分析的输入,表达量信息用于后续的样本聚类等分析。如图5所示,样本DE_1的表达量最高;样本SG_3表达量最低,同盐度样本中,样本之间的表达量变化较大,总体来看不同盐度的样本之间,随着盐度的变化的总体表达量无明显的差异。
图5. 表达量统计折线图
Venn 分析展示样本间或组别间共有和特有表达的基因/转录本,可简单呈现样本间相关性,同一组别样本表达基因/转录本的数目不应差别很大。从图6可以看出,DE组的表达unigene数目为34,768;SG组的表达unigene数目为23,546;两组共有的组的表达unigene数目为20,626,总体上开看DE组的unigene的总表达量数量要高于SG组。
图6. 表达量Venn图
全基因组测序技术的发展和测序数据免费公开极大地改变了生物学的研究方式,测序和其他基因组学数据具有推动农业、环境科学和生态学的巨大潜力。近些年得益于高通量测序技术的快速发展和普及,基因组测序的水平有了显著的提高 [
1) 其中长度在0~500 bp之间的unigenes数量为36872条,占总数量的52%。长度在501~1000 bp为12779条,占总unigenes数量的18%。测序样本的Mapped read数分别为SG-1:42641542、SG-2:38980922、SG-3:44444358、SG-4:41879374、SG-5:41038376、DE-1:44473856、DE-2:43234696、DE-3:43123052、DE-4:47355458、DE-5:40274730,序列在NR、Swiss-Prot、Pfam、COG、GO和KEGG公共数据库中进行注释。
2) NR结果表明刀鲚的uingene序列与大西洋鲱(Clupea harengus)的最为接近,达到了58.68%,符合二者同属鲱形目的动物学分类。其次有5.59%的unigene在齿鲱(Depticeps clupeoides)中得到注释,说明虽同属鲱形目,但是二者之间差异巨大。另外还有19.60%的unigene被注释到其他物种中。
3) 在GO注释的生物过程unigenes表明,细胞进程、生物调节、代谢过程这三类unigene占据很大比重,这些注释的unigenes均是参与调控和维持细胞正常生理活动的基因,这三类的高占比,在一定程度上体现了刀鲚的鳃细胞代谢旺盛,增殖快,新陈代谢速率快等特点。这些基因既保证了细胞的正常运转,也可能与调控刀鲚鳃细胞的增殖、分化密切相关。另外GO的注释结果中有相当部分的未知功能的unigenes没有得到注释,说明对于刀鲚unigenes的研究还有还大的空间。
4) KEGG通路注释分类结果中,生物体系统(Organismal Systems)的信号通路unigene数量最多,表明在生长发育及生命活动过程中的代谢活动非常旺盛,这些信号通路起着至关重要的生理调控作用;另外参与环境信息处理(Environmental Information Processing)的信号通路的unigene数也很多,说明刀鲚鳃组织细胞对环境因子的敏感程度很高。某些硬骨鱼类鳃组织的酶活性与盐度的变化有一定关系 [
在生物体内,不同基因产物之间通过有序的相互协调来行使其具体的生物学功能,基因表达量的变化一定程度上体现了细胞代谢的强弱,某些酶的表达对鳃的生理功能有着重要的作用,例如在某些硬骨鱼类中鳃丝Na+/K+-ATP酶活力会随着盐度的变化而变化,而某些硬骨鱼类从半海水过渡到淡水或者海水的过程中,其鳃丝Na+/K+-ATP酶活力没有明显的变化;HEIJDEN [
目前关于转录组的报道和研究主体还是以四大家鱼、鲆鲽类、大西洋鲑等市场经济型鱼类为主 [
辽宁省农业农村厅项目(JH20-210000-39754)、辽宁省农科院项目(2021HQ1918)及辽宁省科技厅项目(2021JH2/10200031)。
张伯序,胡宗云,张 健,王建军,杨培民. 大洋河刀鲚鳃转录组测序与分析Transcriptome Sequencing and Analysis for Gills of Coilia nasus from Dayang River[J]. 水产研究, 2021, 08(04): 175-184. https://doi.org/10.12677/OJFR.2021.84021