欢迎访问《安徽农学通报》官方网站,今天是
动物科学·动物医学

光倒刺鲃背部肌肉组织转录组测序及其特征分析

  • 李斯迅 ,
  • 赖洁 ,
  • 邓彬华 ,
  • 叶树政 ,
  • 林胜跃 ,
  • 陈炜坚 ,
  • 桂林 ,
  • 李强
展开
  • 广州大学生命科学学院,广东 广州 510006
桂 林(1975—),男,湖北武汉人,博士,讲师,从事鱼类育种研究;
李 强(1983—),男,广东韶关人,博士,实验师,从事鱼类育种研究。

李斯迅(2005—),男,广东揭阳人,从事鱼类育种研究;

赖 洁(2004—),女,广东河源人,从事鱼类育种研究。

Copy editor: 胡立萍

收稿日期: 2024-11-26

  网络出版日期: 2025-07-02

基金资助

广东省大学生创新创业省重点项目(S202411078013)

国家级大学生创新创业项目(202511078046)

Transcriptome sequencing and characteristic analysis of dorsal muscle tissue in Spinibarbus hollandi

  • LI Sixun ,
  • LAI Jie ,
  • DENG Binhua ,
  • YE Shuzheng ,
  • LIN Shengyue ,
  • CHEN Weijian ,
  • GUI Lin ,
  • LI Qiang
Expand
  • School of Life Sciences, Guangzhou University, Guangzhou 510006, China

Received date: 2024-11-26

  Online published: 2025-07-02

摘要

为探究光倒刺鲃的转录组信息特征,以200 g的雌雄个体各3尾为试验材料,对其转录组进行高通量测序并对其结果进行分析。结果表明,共获得95 231 190条clean reads,拼接得到91 467个Unigene,总长为73 474 804 nt;其中,49 061个Unigene可以注释到蛋白数据库;48 912个Unigene注释到NR数据库,与光倒刺鲃基因匹配率较高的是犀角金线鲃、安水金线鲃和金线鲃,匹配率分别为26%、23%和18%;17 557个Unigene注释到GO数据库,包括生物过程、细胞组分和分子功能3个主要生物类别的49个功能亚类;28 503个Unigene被分为了25个KOG聚类,包括信号转导机制、一般功能预测等;注释到KEGG中的25 927个Unigene富集到295条代谢通路,占比较高的是刺激神经组织的配体受体交互、MAPK信号传导通路等。微卫星特征分析中共检测到9 036个微卫星位点,二核苷酸重复序列最多,有5 204条,其次是三核苷酸重复序列和四核苷酸重复序列,分别有2 523和965条。本研究测得的转录组数据为光倒刺鲃种质资源与遗传结构的研究以及分子标记开发和遗传多样性探索提供参考。

本文引用格式

李斯迅 , 赖洁 , 邓彬华 , 叶树政 , 林胜跃 , 陈炜坚 , 桂林 , 李强 . 光倒刺鲃背部肌肉组织转录组测序及其特征分析[J]. 安徽农学通报, 2025 , 31(12) : 63 -68 . DOI: 10.16377/j.cnki.issn1007-7731.2025.12.016

Abstract

To explore the transcriptomic characteristics of Spinibarbus hollandi, three female and three male individuals (200 g each) were used as experimental materials for high throughput sequencing and subsequent analysis of the transcriptome. The results showed that a total of 95 231 190 clean reads were obtained, which were assembled into 91 467 Unigenes with a total length of 73 474 804 nt. Among these, 49 061 Unigenes were annotated in protein databases, while 48 912 Unigenes were annotated in the NR database. The highest gene matching rates for Spinibarbus hollandi were with Sinocyclocheilus rhinocerous (26%), Sinocyclocheilus anshuiensis (23%), and Sinocyclocheilus grahami (18%). A total of 17 557 Unigenes were annotated in the GO database, covering 49 functional subcategories across three major biological categories: biological processes, cellular components, and molecular functions. Additionally, 28 503 Unigenes were classified into 25 KOG clusters, including signal transduction mechanisms and general function prediction. Among the 25 927 Unigenes annotated in the KEGG database, enrichment analysis revealed 295 metabolic pathways, with higher proportions observed in pathways such as ligand-receptor interactions in neuroactive stimulation and the MAPK signaling pathway. Microsatellite characteristic analysis detected 9 036 microsatellite loci, with dinucleotide repeats being the most abundant (5 204), followed by trinucleotide (2 523) and tetranucleotide repeats (965). The transcriptomic data obtained in this study provide a valuable reference for research on germplasm resources, genetic structure, molecular marker development, and genetic diversity exploration in Spinibarbus hollandi.

光倒刺鲃(Spinibarbus hollandi)属鲤形目(Cypriniformes)鲤科(Cyprinidae)鲃亚科(Barbinae)倒刺鲃属(Spinibarbus),广泛分布于长江以南各水系,是重要的经济鱼种之一,其抗病性较强,肉质鲜美,营养价值较高[1-2]。近年来,有关光倒刺鲃的研究大多集中在养殖技术[3]、性别标记[4]、功能基因[5-6]和线粒体基因组[7] 等方面。
转录组测序是一种能全面快速获得细胞或组织在某种状态下所有转录本的序列信息和基因表达信息的技术[8]。通过分析转录组数据,可以发掘未知和稀有基因,从而准确研究基因表达差异、基因组成变异、分子标记筛选等问题[9-12]。目前,转录组测序技术因其数量大、覆盖率高、成本低、操作方便等特点,在鱼类研究中广泛应用。Hao等[13]对草鱼进行转录组测序分析,评估了草鱼肌肉的肉质和肌肉品质相关基因的表达情况,发现氨基酸代谢途径与鱼肉品质密切相关;石立冬等[14]对红鳍东方鲀肝脏转录组进行分析,筛选出与牛磺酸抗应激功能有关的基因;邵嘉棋等[15]对大口黑鲈进行RNA-seq技术测序,获得64个与驯食性状相关的候选基因和1个单核苷酸多态性(Single nucleotide polymorphism,SNP)标记,为其食性驯化遗传改良提供参考。
目前,光倒刺鲃基因组研究较少,本研究对该鱼类进行转录组测序与分析,以构建光倒刺鲃转录组文库,探讨其基因组结构,为解决光倒刺鲃基因进化、遗传育种和资源恢复等问题提供参考,对揭示其生长机制、抗逆能力,选育优势养殖品种以及种质资源保护具有重大意义。

1 材料与方法

1.1 试验材料

试验所用光倒刺鲃样品采自广东省珠江水产研究所。选取约200 g的雌雄个体各3尾,刮去表面鳞片,剪取各尾背部肌肉约20 mg。

1.2 RNA提取、文库构建与测序

利用Trizol试剂盒提取光倒刺鲃肌肉组织的RNA,采用Thermo Nanodrop 2000c、Agilent 2100分别测定RNA纯度、浓度及完整性。用含有Oligo(dT)的磁珠富集mRNA,然后加入裂解缓冲剂将mRNA消化成小片段,再以片段化的mRNA为模板合成cDNA,合成的cDNA用试剂盒进行纯化,在cDNA 3’末端加polyA,并连接测序接头,利用Hieff NGS® DNA Selection Beads磁珠进行纯化目标片段,然后进行PCR文库扩增,经质检后用Illumina HiSeq™ 2000测序仪对合格文库进行测序。

1.3 原始数据的组装拼接

对原始序列进行处理,去除接头序列和低质量序列,以获得Clean Data。然后对Clean Data进行统计,以评估数据的成分和质量,包括产量、Q20、N含量、GC含量等。最后用组装软件Trinity [16]将短reads组装成Contig和Unigene,并统计组装质量。

1.4 转录组注释、分析

将拼接得到的Unigene与蛋白数据库进行比对,并对所有注释的Unigene数目进行统计。根据注释信息进行功能分类和途径注释。使用Blast GO软件[17]对获取的Unigene进行GO注释,并用WEGO软件[18]对所有Unigene做GO功能分类统计。用Blastx将基因比对到KOG数据库中,对基因及其产物进行同源分类。同时,将Unigene比对到KOG和KEGG数据库中,分析Unigene的功能及其在细胞代谢中参与的途径等。

1.5 微卫星查找和SNP检测

利用MicroSAtellite软件对拼接得到的Unigene进行微卫星定位。在MISA结果的基础上,保留前后序列均不小于150 bp的微卫星,对微卫星进行分型,用Primer primier 6.0软件的默认设置设计引物。最后使用SOAPsnp检测样品的SNP。

2 结果与分析

2.1 高通量测序产量统计

测序结果表明,总计产出13 525 001 683 nt数据,过滤后得到的clean reads数目为95 231 190个,Q20含量为96.40%,N含量为0,GC含量为49.43%。拼接后得到91 467个Unigene,总长为73 474 804 nt,Unigene长度分布如图1所示,其中序列长度均大于200 nt,且大于3 000 nt的有4 163个,最大、最小长度分别为40 474 和201 nt,平均长度为803 nt,N50达1 568个。
图1 光倒刺鲃Unigene长度统计

2.2 Unigene功能注释

利用Blast工具将91 467 个Unigene序列与NR、KEGG、KOG和GO数据库(E-value<10-5)进行比对,NR、GO、KOG、KEGG数据库分别注释了48 912、17 577、28 503、25 927个Unigene,共有49 061(53.64%)个Unigene注释到蛋白数据库。

2.2.1 NR注释

在NR注释中,用E-value来表示Unigene与NR库的匹配程度。如图2A所示,超过64%的Unigene的E-value小于e-50,可见光倒刺鲃基因的功能与NCBI的NR库注释结果相符度较高。对获得的48 912个Unigene进行物种分布匹配率统计(图2B),与光倒刺鲃基因匹配率较高的是犀角金线鲃(Sinocyclocheilus rhinocerous)、安水金线鲃(S. anshuiensis)和金线鲃(S. grahami),匹配率分别为26%、23%和18%。
图2 光倒刺鲃Unigene的NR注释

(A)、(B)分别表示E值分布图和物种分布匹配图。

2.2.2 GO功能注释及分类

与GO数据库进行比对注释,共有17 557个Unigene分别注释到生物过程、细胞组分和分子功能3个主要生物类别的49个功能亚类中(图3)。在生物过程中,最多的是与细胞过程相关的基因,共8 793个,其次是与单生物过程相关基因,共有8 508个;在细胞组分中,与细胞和细胞组分有关的基因均有6 071个;在分子功能中,主要是与结合和催化活性功能相关的基因,分别有8 880个和5 758个。
图3 光倒刺鲃Unigene的GO分布

2.2.3 KOG功能分类

将Unigene和KOG数据库进行比对(图4),结果显示,28 503个Unigene被分为25个KOG聚类。其中,排在前三的聚簇有信号转导机制,一般功能预测和翻译后修饰、蛋白质转化、分子伴侣,分别有14 872,10 527和4 846个Unigene,而Unigene数量最少的为细胞运动,仅181个。
图4 光倒刺鲃Unigene的KOG分布

2.2.4 KEGG代谢通路分析

在KEGG数据库注释结果中,注释到KEGG数据库中的25 927个Unigene富集到295条代谢通路上。如图5所示,所占比例较高的前10条通路分别为刺激神经组织的配体受体交互、MAPK信号传导通路、钙信号通路、黏着斑、内吞作用、肌动蛋白细胞骨架调节、单纯疱疹感染、细胞因子受体相互作用、紧密连接和心肌细胞肾上腺素能信号传导。
图5 光倒刺鲃Unigene的KEGG代谢途径注释(前20)

2.3 微卫星分析

表1可知,使用MISA软件共发现9 036条微卫星序列,含微卫星的Unigenes序列共有7 283条,占总Unigene(91 467条)的7.96%,其中,复合型的微卫星序列共有835条,其余为以不间断重复方式组成的单一型微卫星。由表2可知,在光倒刺鲃转录组中,二核苷酸重复序列最多,有5 204条,其次是三核苷酸重复序列和四核苷酸重复序列,分别有2 523和965条,五、六核苷酸重复序列共344条;此外,不同微卫星标记位点的重复次数也有差异,除了单碱基微卫星位点,最丰富的重复次数为6次,有2 718个位点,占总数的30.08%,其次是重复次数为5次,有1 605个位点,占总数的17.76%。由图6可知,在二核苷酸重复序列中,所占比例最高的是AC/GT,占总数的36.8%,其次是AG/CT和AT/AT,分别为14.6%和5.9%;在三核苷酸重复中,所占比例最高的是ATC/CTG,占总数的5.6%;四核苷酸重复序列中,比例最高的重复单元为AAAT/ATTT,占总数的3%;五、六核苷酸重复序列中,各重复序列所占比例均较低。
表1 微卫星位点检测结果
类型 量/个
Unigene数 91 467
发现微卫星位点数 9 036
包含微卫星位点的Unigene数 7 283
含有1个以上微卫星位点的Unigene数 1 240
复合型的微卫星序列 835
表2 微卫星不同重复单元的分布
重复类型 二核苷酸 三核苷酸 四核苷酸 五核苷酸 六核苷酸 总计 比例/%
4 0 0 620 150 96 866 9.58
5 0 1 356 187 42 20 1 605 17.76
6 2 039 617 46 15 1 2 718 30.08
7 1 025 290 43 3 0 1 361 15.06
8 616 75 14 3 2 710 7.86
9 442 27 10 1 0 480 5.31
≥10 1082 158 45 10 1 1 296 14.35
总计 5 204 2 523 965 224 120 9 036 100
图6 光倒刺鲃微卫星分布

3 结论与讨论

高通量测序是一种高质量、低成本、高效率的转录组测序分析法[20]。本研究对光倒刺鲃转录组基因进行测序、组装和拼接,再通过生物信息学方法分析得到光倒刺鲃Unigene序列,对其进行注释、功能分类和微卫星分子标记开发,结果表明,拼接得到91 467个Unigene,基因序列平均长度为803 nt。Franssen等[21]认为,较长的测序读长可有效减少拼接错误,提高拼接重叠群长度,对于无参考基因组的物种来说具有重要意义。91 467个Unigene共有49 061(53.64%)个Unigene可注释到蛋白数据库,有48 912个Unigene可与NR数据库匹配;未与任何已知蛋白匹配的Unigene,推断其可能为新的基因。在这些匹配的Unigene中,与犀角金线鲃的Unigene匹配率最高,达到26%,其次是安水金线鲃和金线鲃,分别为23%和18%,说明在数据库中,光倒刺鲃的基因序列信息较少,而本次获得的光倒刺鲃Unigene可以丰富数据库中光倒刺鲃的基因信息。
53.64%的Unigene被注释到KOG、GO和KEGG数据库,接近50%基因未搜索到同源基因序列,说明目前基因数据库中收录的鱼类基因丰富度有待进一步提高。这3个数据库的注释结果有助于进一步了解光倒刺鲃基因的分子功能、所处细胞位置、参与生物过程、代谢途径和信号通路等,为光倒刺鲃的功能基因、相关基因的信号通路、基因所处的位置及生理功能等的开发利用提供基础信息。其中一些与细胞免疫功能相关的基因可以用来制作基因表达芯片,用于光倒刺鲃免疫水平检测,还可作为光倒刺鲃抗病品系选育的生化指标。
在光倒刺鲃转录组中,二核苷酸重复序列的微卫星含量最高,其次是三核苷酸重复序列,这与大部分真核生物的研究结果一致;四、五、六核苷酸重复序列的微卫星丰富度明显低于二、三核苷酸,该结果也在其他真核生物中得到了验证[22-23]。在光倒刺鲃转录组的二核苷酸重复序列中,以AC/GT的数量最多,占36.8%,该结果与绝大多数脊椎动物的基因组序列研究结果相一致[24-26]。其次是AG/CT和AT/AT,而CG/CG的含量最少,极少的CG微卫星重复单元数量可能是因为在基因组中胞嘧啶C容易被甲基化脱氨基转化为胸腺嘧啶T。染色体间有频繁的滑链错配,具有较高的突变率。较高的突变率与高多态性相关联,序列越长,其在转录组中的多态率越高。本研究中,大多数的微卫星序列属于单一型,与大部分真核生物通过转录组检测到的微卫星序列结果相一致[27-28]。可能是因为转录组研究的是在RNA水平上的基因表达情况,其主要位于CDS区,基因序列的保守度高,变异小,因此微卫星重复数较少。
综上,本研究对光倒刺鲃转录组进行高通量测序并对其结果进行分析,在光倒刺鲃转录组的高通量测序中,共得到91 467个Unigene,其中49 061个Unigene注释到蛋白数据库,NR、GO、KOG、KEGG数据库分别注释了48 912、17 577、28 503、25 927个Unigene;在光倒刺鲃转录组中,二核苷酸重复序列的微卫星含量最高,有5 204条,其次是三核苷酸重复序列,有2 523条。研究结果为光倒刺鲃的功能基因、相关基因的信号通路及生理功能等的开发利用提供参考。
1
中国水产科学研究院珠江水产研究所. 广东淡水鱼类志[M]. 广州:广东科技出版社,1991.

2
陈意明,黄钧,蔡子德,等. 光倒刺鲃的含肉率和肌肉营养成分分析[J]. 水利渔业200122(2):22-24.

3
方园,刘斌,刘德亭,等. 浅谈光倒刺鲃健康高效养殖技术[J]. 科学养鱼2020(8):43-44.

4
HUANG W W LAI J LIANG W Q,et al. Identification of sex-specific DNA markers in the army fish (Spinibarbus hollandi) by whole genome re-sequencing method[J]. Aquaculture2024583:740605.

5
周惠强,陈凯棱,舒琥,等. 光倒刺鲃mc5r基因的克隆及对饥饿的响应[J]. 南方水产科学201915(4):99-106.

6
李文俊,李强,韩崇,等. 基于COI基因的光倒刺鲃群体遗传多样性与遗传分化研究[J]. 安徽农业科学202149(22):125-128.

7
CHEN I S BAI J C HAN C C,et al. The complete mitochondrial genome of Holland’s spinibarbel Spinibarbus hollandi Oshima (Cypriniformes,Cyprinidae)[J]. Mitochondrial DNA part A201627(3):1721-1723.

8
崔凯,吴伟伟,刁其玉. 转录组测序技术的研究和应用进展[J]. 生物技术通报201935(7):1-9.

9
王刚.棉花幼苗盐胁迫条件下Solexa转录组测序结果的分析及验证[D]. 泰安:山东农业大学,2011.

10
孙丽雪.高温处理后尼罗罗非鱼性逆转雄鱼与未逆转雌鱼的差异性腺转录组研究[D]. 泰安:山东农业大学,2017.

11
何飞祥,江东能,杨尉,等. 金钱鱼性腺差异表达基因的比较转录组分析[C]//2018年中国水产学会学术年会论文摘要集. 西安,2018:184.

12
邓素贞,韩兆方,陈小明,等. 大黄鱼高温适应的转录组学分析[J]. 水产学报201842(11):1673-1683.

13
HAO M L CHENG W J XIE Y X,et al. Identification of hub genes in meat quality of grass carp (Ctenopharyngodon idellus) fed with faba bean by muscle tissue transcriptomic analysis[J]. Italian journal of animal science202423(1):594-606.

14
石立冬,翟浩杰,卫力博,等. 牛磺酸对红鳍东方鲀热应激转录调控机制的影响[J]. 中国水产科学202027(10):1145-1155.

15
邵嘉棋,杜金星,雷彩霞,等. 基于转录组测序筛选大口黑鲈食性驯化相关基因和SNP标记[J]. 中国水产科学202229(3):421-434.

16
GRABHERR M G HAAS B J YASSOUR M,et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature biotechnology201129(7):644-652.

17
CONESA A GÖTZ S. Blast2GO:a comprehensive suite for functional analysis in plant genomics[J]. International journal of plant genomics2008(1):619832.

18
YE J FANG L ZHENG H K,et al. WEGO:a web tool for plotting GO annotations[J]. Nucleic acids research200634:W293-W297.

19
ISELI C JONGENEEL C V BUCHER P. ESTScan:a program for detecting,evaluating,and reconstructing potential coding regions in EST sequences[J]. Proceedings. international conference on intelligent systems for molecular biology1999:138-148.

20
周卫星,石海鹤. 高通量测序中序列拼接算法的研究进展[J]. 计算机科学201946(5):36-43.

21
FRANSSEN S U SHRESTHA R P BRÄUTIGAM A,et al. Comprehensive transcriptome analysis of the highly complex Pisum sativum genome using next generation sequencing[J]. BMC genomics201112:227-242.

22
栾生.日本囊对虾基因组串联重复序列分析及微卫星标记的开发与应用[D]. 青岛:中国海洋大学,2006.

23
刘焘,陈冰洁,史会来,等. 基于基因组survey的横带髭鲷(Hapalogenys analis)微卫星位点筛选与特征分析[J]. 海洋与湖沼202354(3):848-855.

24
TUSKAN G A GUNTER L E YANG Z K,et al. Characterization of microsatellites revealed by genomic sequencing of Populus trichocarpa [J]. Canadian journal of forest research200434(1):85-93.

25
CHISTIAKOV D A HELLEMANS B VOLCKAERT F A M. Microsatellites and their genomic distribution,evolution,function and applications:a review with special reference to fish genetics[J]. Aquaculture2006255(1/2/3/4):1-29.

26
ZHU H SENALIK D MCCOWN B H,et al. Mining and validation of pyrosequenced simple sequence repeats (SSRs) from American cranberry (Vaccinium macrocarpon Ait.)[J]. Theoretical and applied genetics2012124(1):87-96.

27
马海涛,鲁翠云,于冬梅,等. 草鱼基因组中微卫星分子标记的制备及筛选[J]. 上海水产大学学报200716(4):389-393.

28
徐杰杰,毕宜慧,程景颢,等. 中华绒螯蟹(Eriocheir sinensis)全基因组微卫星分布特征研究[J]. 基因组学与应用生物学202140():2422-2429.

文章导航

/