华北理工大学研究生院,华北理工大学研究生院官网

十字花科包含约4000种和338个属,是芸苔目中的一个大科。十字花科包含许多重要的蔬菜、油料和饲料作物。该科的拟南芥(Arabidopsis thaliana)是植物生物学中重要的模式生物。十字花科为研究植物基因组进化和多倍化提供了极好的系统模型。自2000年拟南芥基因组测序完成以来,相继有几十种十字花科物种的基因组进行了测序。最近,宋小明博士等也获得了埃塞俄比亚芥(Brassica carinata)高质量和染色体水平的基因组序列,相关研究发表在植物学领域经典期刊Plant physiology杂志(https://doi.org/10.1093/plphys/kiab048)。随着测序成本的不断下降和生物信息学分析技术的进步,十字花科植物的泛基因组研究也呈现了爆发的趋势,如油菜、甘蓝、油菜等。随着越来越多十字花科物种基因组的释放和发布,需要更多的工作来整合和挖掘这些基因组数据,以提升基因组数据资源的利益率。

近日,华北理工大学生命科学学院青年教师宋小明Plant Physiology在线发表了题为“The Brassicaceae Genome Resource (TBGR): a comprehensive genome platform for Brassicaceae plants”的研究论文,搭建了十字花科作物基因组学数据共享及分析平台(http://www.tbgr.org.cn)。

图1. TBGR网站设计框架图

该研究基于来自27个十字花科物种的82个已发布基因组,建立了一个用户友好的、基于网页的比较和功能基因组学研究数据库,命名为“十字花科基因组资源”库 (TBGR,http://www.tbgr.org.cn) (图1)。同时利用这些基因组数据资源进行了系统深入的比较基因组学分析,并将分析结果呈现在TBGR数据库中(图2)。TBGR数据库包含大量重要的功能基因,其中硫代葡萄糖苷基因4096个,生长素基因6625个,开花基因13805个,抗病基因36632个,花青素基因1939个和m6A基因1231个。在这些十字花科作物中共检测到1174049个CRISPR特异性指导序列和5856479个转座子。TBGR数据库还提供了27个十字花科物种的共线性、重复基因和直系同源基因的信息。同时,该数据库使用TrEMBL、Swiss-Prot、Nr、GO和Pfam等数据库获得的1183851个基因的功能注释。最后,数据库还提供了BLAST、Synteny、Primer Design、Seq_fetch和JBrowse等工具来帮助用户进行数据查询检索及比较基因组分析等。所有物种的基因组序列、基因信息、注释和该研究获得的生物信息分析结果都可以从TBGR数据库轻松下载,供科研人员免费使用。

图2. 27个十字花科物种基因功能注释、重复类型、CRISPR指导序列和转座子数量条形图

未来,研究团队将基于新组装的基因组和比较基因组学研究来不断丰富和提升该数据库,以期能够成为国际上进行十字花科作物比较基因组和功能基因组学研究的重要数据共享及分析平台。希望TBGR数据库为广大十字花科育种工作者和科研人员提供丰富的数据资源和便捷的服务。

华北理工大学生命科学学院学生刘卓为论文第一作者,青年教师宋小明为通论作者。此外,课题组多位教师和学生也参与了该项研究工作。中国农业科学院蔬菜花卉研究所青年教师任君和电子科技大学林昊教授对本研究也进行了指导。本项目得到了国家自然科学基金、河北省自然科学基金和中国博士后科学基金项目的大力资助与支持。

论文链接:

https://doi.org/10.1093/plphys/kiac266

华北理工大学研究生院(华北理工大学研究生院官网)

类似文章