发布日期: 2024年07月06日
来源:中国科学技术大学 | 生命科学与医学部
文章内容
近年来,随着单细胞技术的飞速发展,大量单细胞转录组数据集不断积累,如何高效分析这些数据以挖掘其中蕴含的生物学知识,已成为单细胞研究领域亟待解决的关键问题。单细胞数据分析主要分为细胞层面和基因层面两种不同维度的分析。细胞层面的分析着重于揭示细胞异质性、鉴定细胞类型并推导它们的发育轨迹,该领域已积累了一系列成熟的分析工具。相比之下,基因层面的分析则侧重于发现调控细胞发育和功能的关键基因及分子模块。然而,单细胞数据的稀疏性特性极大限制了基因层面分析工具的开发。例如,基因共表达网络分析是探究基因功能的重要手段,但由于受到数据稀疏性的影响,传统的共表达网络分析方法难以直接应用于单细胞数据集。因此,开发适用于单细胞数据集的基因共表达网络分析算法,对于解锁海量单细胞数据集中隐藏的复杂生命调控逻辑机制至关重要。
2024年7月5日,中国科学技术大学生命科学与医学部马世嵩教授课题组在Cell出版社旗下杂志Cell Reports Methods在线发表了题为“SingleCellGGM enables gene expression program identification from single-cell transcriptomes and facilitates universal cell label transfer”的研究论文。在该研究中,课题组开发了针对单细胞数据集的单细胞基因共表达网络分析算法SingleCellGGM。该算法克服了单细胞数据稀疏性的挑战,成功构建出稳健的单细胞基因共表达网络,并高效地从网络中识别出多种基因表达程序(GEPs)。这些GEPs不仅可用于细胞类型注释,还为研究不同类型细胞的发育和功能提供了大量可靠候选基因。此外,该研究还开发了基于GEPs表达水平的单细胞数据降维方法,显著提升了降维结果的可解释性。同时,课题组进一步开发了CellGEP算法,实现了跨数据集的细胞标签转移。
SingleCellGGM算法基于高斯图模型(GGM)的思路,通过一个包含约20,000次迭代的循环过程计算基因间的偏相关性系数,进而以对缺失值不敏感的方式构建单细胞基因共表达网络。偏相关性系数能够准确衡量两个基因间的直接相关性,有效去除假阳性互作,因此比普通相关性系数更适合用于构建基因共表达网络。随后,研究利用MCL聚类算法对共表达网络进行聚类,得到基因共表达模块,并将这些模块定义为基因表达程序(GEPs)。通过进一步的功能富集和表达模式分析,揭示了这些GEPs的生物学功能和意义。利用SingleCellGGM算法,该研究成功构建出多个小鼠单细胞转录组数据集的基因共表达网络,鉴定出丰富的GEPs。这些GEPs可用于揭示细胞类型和状态的差异、发现不同细胞类型间共有的生命活动过程以及鉴定参与形态建成的分子通路等,比如在小鼠自然杀伤细胞中特异表达的GEP、在多种类型细胞中参与病毒响应过程的GEP和调控组织形态发生的GEP等(图1)。这些GEPs内包含的基因为后续相关研究提供了大量潜在的候选基因。
图1: SingleCellGGM的工作流程和应用。A:使用SingleCellGGM构建单细胞基因共表达网络和识别GEPs的流程。B:GEPs应用示意图。C-E:使用SingleCellGGM分析小鼠单细胞转录组数据集鉴定到的部分GEPs。
此外,除了小鼠单细胞数据,课题组还将SingleCellGGM算法应用于模式植物拟南芥根的发育研究,相关成果以“Single-cell network analysis reveals gene expression programs for Arabidopsis root development and metabolism”为题,于2024年5月22日在线发表于Plant Communications杂志。该研究整合分析了3套拟南芥根单细胞转录组数据集,识别出在不同发育阶段调控根部不同类型细胞发育的GEPs。研究进一步从一个在近端小柱细胞特异表达的GEP中挖掘出一个参与根向重力性响应的候选基因NRL27,随后通过反向遗传学方法验证该基因的确参与调控生长素途径相关的根向重力性响应过程(图2)。这一例子充分展示了GEPs在基因功能分析方面的应用潜力。
图2: 利用SingleCellGGM研究拟南芥根的发育。A:由SingleCellGGM计算得到的拟南芥根近端小柱细胞特异的GEP。B:从近端小柱细胞特异的GEP中挖掘并验证一个根向重力性响应基因NRL27。
综上所述,SingleCellGGM算法可用于构建单细胞基因共表达网络并鉴定出丰富的基因表达程序。这些基因表达程序在细胞类型注释、单细胞数据降维和跨数据集的细胞标签转移等方面展现出广泛的应用价值。此外,这些具有特定生物学意义的基因表达程序包含了丰富的候选基因,为后续深入研究相关生物学过程提供了宝贵的资源和线索。
中国科学技术大学生命科学与医学部马世嵩教授为两篇论文的通讯作者。课题组博士生徐玉璞为Cell Reports Methods论文的第一作者,已毕业博士生王玉舟为参与作者。课题组博士生韩尔上为Plant Communications论文的第一作者,博士生耿振兴、秦悦和王岳巍为参与作者。这两项研究得到国家自然科学基金及中国科学院战略性先导科技专项等项目的支持。
原文链接:
https://doi.org/10.1016/j.crmeth.2024.100813
https://doi.org/10.1016/j.xplc.2024.100978
SingleCellGGM算法下载链接:
https://github.com/MaShisongLab/SingleCellGGM
交流讨论