发布日期: 2024年03月15日
来源:AAAS
文章内容
染色体中的DNA重复序列,通常被称为“垃圾DNA”或“暗物质”,它们可能导致癌症或其他疾病,一直以来,识别和描述这些DNA重复序列都是一项挑战。
现在,约翰霍普金斯大学金梅尔癌症中心的研究人员已经开发出一种新方法,利用机器学习来识别癌组织中的这些元素,以及游离DNA (cfDNA)——从肿瘤中脱落并漂浮在血液中的片段。这种新方法可以提供一种非侵入性的检测癌症或监测治疗反应的方法。机器学习是一种人工智能,它使用数据和计算机算法来执行复杂的任务并加速研究。
在实验室测试中,这种称为ARTEMIS(Analysis of RepeaT EleMents in dISease,疾病重复元件分析,生物通注)的方法检测了超过1200种重复元素,占人类基因组的近一半,并发现大量以前不知道与癌症有关的重复元素在肿瘤形成过程中发生了改变。研究人员还能够识别cfDNA中这些元素的变化,为检测癌症和确定癌症在体内的起源提供了一种方法。
这项工作于3月13日发表在《科学转化医学》杂志上。
“当你考虑现有的癌症基因和它们周围的DNA序列时,它们好像只是充满了这些重复序列,”约翰霍普金斯Kimmel癌症中心癌症遗传学和表观遗传学项目的联合主任Victor E. Velculescu医学博士说。
“在ARTEMIS之前,基因组的暗物质基本上被忽视了,但现在我们看到这些重复并不是随机发生的。它们最终聚集在以各种不同方式在癌症中发生改变的基因周围,让我们第一次看到这些序列可能是肿瘤发展的关键。”
在一系列的实验室测试中,研究人员首先检查了定义独特重复序列的12亿kmers(DNA短序列)的分布情况,发现它们在人类癌症中通常改变的基因中富集。例如,在已知的736个驱动癌症的基因中,有487个包含的重复序列平均比预期的多15倍。这些重复序列在涉及细胞信号通路的基因中也显著增加,这些基因通常在癌症中失调。
利用新一代测序技术,研究人员可以快速检查整个基因组的序列,研究人员还研究了重复序列是否在癌症中直接改变。他们使用ARTEMIS分析了参与全基因组泛癌症分析(PCAWG)的525名不同癌症患者的肿瘤和正常组织中1200多种不同类型的重复元件,发现每个肿瘤中有807个改变元件。近三分之二的这些元素(1280个中的820个)在人类癌症中没有被观察到改变。然后,他们使用机器学习模型为每个样本生成ARTEMIS评分,以提供预测癌症的全基因组重复元件变化的摘要。ARTEMIS评分将525名PCAWG参与者的肿瘤与正常组织区分开来,在所有分析的癌症类型中表现优异(AUC=0.96),其中1分为满分。无论肿瘤类型如何,ARTEMIS评分增加与总生存期和无进展生存期缩短相关。
研究人员接下来评估了ARTEMIS在非侵入性癌症检测方面的潜力。他们将该工具应用于287名参与丹麦肺癌筛查研究(LUCAS)的肺癌患者和非肺癌患者的血液样本。ARTEMIS以曲线下面积(AUC)为0.82对肺癌患者进行分类。但是,当与另一种称为DELFI(用于早期拦截的DNA片段评估)的方法(一种由Velculescu、Scharpf和他们小组的其他成员先前开发的检测cfDNA片段在基因组中的大小和分布变化的方法)一起使用时,这种组合模型将肺癌患者分类为AUC为0.91。在208名有肝癌风险的个体中观察到类似的表现,其中ARTEMIS检测出肝癌患者和其他肝硬化或病毒性肝炎患者的AUC为0.87。与DELFI联合使用时,AUC增加到0.90。
最后,他们评估了ARTEMIS血液测试是否能识别癌症患者体内肿瘤的起源位置。当使用来自PCAWG参与者的信息进行训练时,该工具可以在12种肿瘤类型中对肿瘤组织来源进行分类,平均准确率为78%。然后,研究人员将ARTEMIS和DELFI结合起来,对226名患有乳腺、卵巢、肺、结肠、胆管、胃或胰腺肿瘤的患者的血液样本进行了评估。在这里,模型正确地将不同癌症类型的患者分类,平均准确率为68%,当模型被允许建议两种可能的肿瘤类型而不是单一的癌症类型时,准确率提高到83%。
Annapragada说:“我们的研究表明,ARTEMIS可以揭示全基因组重复序列,反映人类癌症的巨大潜在变化。通过阐明所谓的‘黑暗基因组’,这项工作为癌症基因组提供了独特的见解,并为全基因组重复序列作为癌症检测、表征和监测的组织和血液生物标志物的实用性提供了概念验证。”
下一步是在更大规模的临床试验中评估这种方法,Velculescu说:“你可以想象,它可以用于各种癌症类型的早期检测,但也可以用于其他应用,如监测对治疗的反应或检测复发。这是一个全新的领域。”
交流讨论