发布日期: 2025年01月07日
来源:AAAS
文章内容
一个由多机构科学家组成的团队开发了一个免费的、可公开访问的资源,以帮助根据癌症基因组图谱(TCGA)网络识别的不同分子特征对患者肿瘤样本进行分类。
该资源包括分类器模型,可以加速设计用于临床试验和癌症诊断的癌症亚型特异性检测试剂盒。这是一个重要的进展,因为属于不同亚型的肿瘤对癌症治疗的反应可能不同。
该资源是第一个在TCGA庞大的数据库和临床实施之间架起桥梁的资源。
一篇描述这种工具的论文在线发表在《癌细胞》杂志上。
“TCGA为每种主要类型的癌症定义了分子亚型。有了这个资源,我们的目标是为临床和科学界提供工具,将新诊断的肿瘤分配到这些已建立的亚型之一,”Peter W. Laird博士说,他是Van Andel研究所表观遗传学的Peter和Emajean Cook教授,也是该研究的主要通讯作者。“我们的新资源将成为创建基于癌症之间不同分子差异的临床分析的强大资产。”
TCGA是美国国家癌症研究所(National Cancer institute)领导的一个长达十年的项目,旨在创建33种癌症类型的详细分子图谱。与传统的基于癌症产生的器官或组织来定义癌症的方法不同,TCGA确定了细微的基因组、表观基因组、蛋白质组学和转录组学特征,这些特征更精确地描述了癌症亚型。
麻省理工学院和哈佛大学Broad研究所的Andrew D. Cherniack博士和俄勒冈健康与科学大学奈特癌症研究所的Kyle Ellrott博士也是这篇论文的通讯作者,这篇论文代表了来自十多个研究机构的科学家的合作成果。
Cherniack说:“由于许多TCGA分子亚型是使用来自多种数据类型的数百或数千个特征生成的,因此科学家和医生要求我们帮助他们对样本进行亚型划分。”“我们的资源大大简化了这一过程。”
该团队利用来自8,791个TCGA癌症样本的数据创建了新的资源,这些样本代表了26个癌症队列和106个癌症亚型。然后,他们使用现有的机器学习工具开发和测试了六个类别的近50万个模型——基因表达、DNA甲基化、miRNA、拷贝数、突变调用和多组学——并选择了那些表现最好的模型纳入在线资源。
总的来说,该资源包含737个现成的模型,代表了26个癌症队列、5种训练算法和6种数据类型中的顶级模型。
Ellrott说:“这项工作的主要内容是确保这些模型可以被其他小组部署到新的数据集上。通常情况下,这类工作很难复制或应用于新的样本。”
该资源可通过https://github.com/NCICCGPO/gdan-tmp-models访问。
交流讨论