pg电子官网

北京基因组所(国家生物信息中心)构建多物种转录图谱综合数据库

  随着高通量测序技术的不绝生长,转录组测序(RNA-seq)已成为系统研究基因转录及转录后水平调控状态的通例要领,并在多个物种中获得广泛应用。海量转录组数据以前所未有的速度爆发,以数据驱动为导向的大规模数据整合、挖掘与解析面临巨大挑战。为更充分展现转录组数据蕴含的富厚信息,效劳生物医学基础研究领域需求,构建标准化数据剖析流程和结构化元信息审编模型,建立面向多物种基因转录特征的数据集成与治理资源十分须要。

  近日,pg电子官网(国家生物信息中心)国家基因组科学数据中心在Nucleic Acids Research 期刊宣布题为“Gene Expression Nebulas (GEN): a comprehensive data portal integrating transcriptomic profiles across multiple species at both bulk and single-cell levels”的论文,建立了基于通例转录组测序(Bulk RNA-seq)和单细胞转录组测序(scRNA-seq)数据挖掘解析的多物种转录图谱整合型数据库Gene Expression Nebulas (GEN)。GEN应用结构化审编模型和标准化数据处理流程,对组织和细胞水平转录组测序数据集进行统一剖析,实现了多物种多层面转录调控水平信息的系统整合。目前,GEN共整合了323个高质量转录组数据集,涵盖 30个物种的50,500个样本和15,540,169个细胞,提供基准参考、遗传、表型、情况、时间、空间六类生物学场景下的转录图谱,为生物医学领域科研人员深入理解基因遗传调控结构和功效机制提供基础资源。

  基于严格的数据质控标准,GEN审编来自GSA、GEO、ENA和DRA数据库的高质量原始转录组测序数据和详细元数据信息,并利用自主搭建的标准化流程剖析处理相应数据,为用户提供包括基因/转录本表达、环形RNA表达、RNA选择性剪接和RNA编辑四个层面的转录图谱。同时,GEN为30个物种的1,191,846个基因提供富厚的注释信息,包括基本注释(例如基因组位置、生物类型、功效描述),以及基于基因表达数据的定量(差别实验条件下的表达水平)和定性(差别表达所处的生物学场景)的增值注释。别的,为便当下游个性化剖析,GEN还为用户提供表达谱数据剖析及可视化的在线及离线工具,包括基于Bulk RNA-seq表达谱的差别表达剖析、加权基因共表达网络剖析、功效富集剖析和基因调控网络推断,以及基于scRNA-seq表达谱的质量控制、数据标准化、缩放和回归、降维、基于图的聚类、细胞簇标记基因识别、细胞标记、细胞轨迹推断和细胞类型注释等多项剖析功效。

  GEN对用户免费开放,具备友好的浏览、检索与可视化功效,可便当用户探索多生物学场景下基因/转录本的表达及转录特征。研究团队将连续维护并按期更新GEN,以不绝整合更多物种的转录图谱数据资源和集成更为富厚的数据剖析功效。

  北京基因组所(国家生物信息中心)章张研究员与郝丽丽副研究员为本文配合通讯作者,张源笙、邹东、朱彤彤、徐添翼、陈铭为配合第一作者。该研究获得中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。

PG电子·(中国)官方网站

GEN数据库内容和功效�?楦爬�

  论文链接

附件下载:
网站地图