发布日期: 2024年10月23日
来源:Cell
文章内容
新算法在数十个完整的人类基因组上进行了训练,在识别复杂结构变异(可能由长段DNA组成)方面的准确率达到95%。右边的染色体有一个复杂的结构变异,左边的染色体没有。艾米丽·莫斯卡尔/斯坦福医学院
构成人类基因组的30亿个碱基对——腺嘌呤与胸腺嘧啶配对,胞嘧啶与鸟嘌呤配对——不仅仅是人体的说明书。这些碱基对的重排顺序是疾病起源和人类进化史的标志。当少数碱基对交换位置时,它们可以很简单。它们也可能是复杂的,例如当数万个碱基对的延伸反转并且缺少多个部分时。
目前最先进的解读基因组的技术,称为全基因组测序,适用于寻找简单的变异,但在寻找复杂的结构变异时就不足了。现在,斯坦福大学医学院领导的一项新研究开发了一种基于人工智能的方法,能够从全基因组测序数据中识别复杂的结构变异。
这项研究发表在9月30日的《Cell》杂志上,利用全球4000多个人类基因组创建了一个复杂结构变异的目录。这些变异通常发生在控制大脑的基因中,并且在与人类进化相关的基因组区域中被发现。研究人员还表明,一些复杂的结构变异影响了被诊断为精神分裂症或双相情感障碍的人的大脑中包含的大脑相关基因的指令的读出方式。
该研究的资深作者、精神病学、行为科学和遗传学副教授Alexander Urban博士说:“这项工作是在弄清精神疾病的遗传和分子基础方面迈出的重要一步,并表明大脑相关疾病和一般具有强烈遗传成分的疾病应该进行复杂的结构变异分析。任何全基因组序列都应该通过这种新算法运行;这将使我们能够从目前被忽视的数据中挖掘出重要的答案。”
Urban和Stephen R. Pierce家族高盛科学与人类健康教授、统计学和生物医学数据科学教授Wong Wing博士是共同资深作者。
到目前为止,在人类基因组中发现的几乎所有变异都很简单。但新算法的结果显示,每个基因组也有80到100个复杂的结构变异。
“只寻找简单的变化,就像校对一本书的手稿,只寻找改变单个字母的错别字,”Urban说。“你会忽略那些混乱、重复或顺序错误的单词——你甚至可能会错过半章不见了。在手稿送到印刷厂之前,所有这些东西都应该被抓住。”
ARC-SV (Automated Reconstruction of Complex Structural Variants)算法,简称ARC-SV,捕获了各种DNA重排,发现复杂结构变异的准确率达到95%。该算法使用人工智能模型,并在来自不同祖先的数十个完整的人类基因组(称为泛基因组)上进行了训练。
该算法发现了8000多个不同的复杂结构变体,长度在200到10万个碱基对之间。许多变异位于调节大脑发育和功能的基因组区域。研究人员更仔细地研究了这些变异是否与精神疾病有关。
容易发现和研究复杂结构变异的能力可以帮助解释基因组中的哪些改变导致可遗传的精神疾病。该研究调查了两种这样的疾病,精神分裂症和双相情感障碍。被称为GWAS的全基因组关联研究已经确定了基因组中许多携带被诊断为精神疾病风险的位置。但是GWAS的结果并没有给出足够的细节来解释遗传风险并据此采取行动。
“我们在识别精神疾病的遗传成分方面取得了惊人的进展,但仍有一些重要的缺失,”Urban说。“GWAS结果告诉我们基因组中与疾病相关的一些DNA变化位于何处。但是来自GWAS的信息有些模糊。这就像知道一本书的118页、237页和304页某处有错误一样。但我们不知道它们是什么样的错误,也不知道涉及哪些单词。”
Urban解释说,虽然GWAS的结果可能会指导研究人员在第118页上寻找错误的地方,但知道复杂结构变异的序列就像在那一页上有一个混乱的单词和另一个重复的单词的实际10个单词的句子上用黄色荧光笔。
研究人员对ARC-SV算法的输出进行了测试。他们使用了全基因组序列,并结合了来自健康个体和被诊断患有精神分裂症或双相情感障碍的人的100多个死后脑组织样本的基因表达测量,来研究复杂的结构变异可能在做什么。这些变异往往位于已知与精神分裂症或双相情感障碍风险相关的GWAS位点附近或重叠。复杂的结构变异也影响了附近基因的表达——改变了DNA中包含的指令的读数——这表明变异可能是导致疾病的原因。
“识别和研究复杂的结构变异将使我们更加了解DNA的变化方式,并将提供分子线索,从而绘制导致疾病和疾病治疗的生物功能轨迹,”精神病学和行为科学讲师、该研究的第一作者Bo Zhou博士说。
交流讨论