破解生命密码:新的人工智能模型学习DNA的隐藏语言


  发布日期: 2024年08月07日

  来源:AAAS

  文章内容   

破解生命密码:新的人工智能模型学习DNA的隐藏语言

DNA包含维持生命所需的基本信息。了解这些信息是如何储存和组织的是上个世纪最大的科学挑战之一。有了GROVER,一种新的基于人类DNA的大型语言模型,研究人员现在可以尝试解码隐藏在我们基因组中的复杂信息。GROVER是由德累斯顿工业大学生物技术中心(BIOTEC)的一个团队开发的,它将人类DNA视为文本,通过学习其规则和背景来绘制DNA序列的功能信息。这个新工具发表在《自然机器智能》杂志上,它有可能改变基因组学,加速个性化医疗。

自从发现双螺旋结构以来,科学家们一直试图了解DNA中编码的信息。70年后,很明显,隐藏在DNA中的信息是多层的。只有1- 2%的基因组是由基因组成的,基因是编码蛋白质的序列。

“DNA除了编码蛋白质之外还有许多功能。一些序列调节基因,另一些用于结构目的,大多数序列同时具有多种功能。目前,我们还不了解大部分DNA的意义。当涉及到理解DNA的非编码区域时,我们似乎才刚刚开始触及表面。这就是人工智能和大型语言模型可以提供帮助的地方”。

DNA作为一种语言

像GPT这样的大型语言模型已经改变了我们对语言的理解。专门针对文本进行训练,大型语言模型开发了在许多上下文中使用语言的能力。

“DNA是生命的密码。为什么不把它当作一种语言呢?Poetsch博士说。Poetsch团队在参考人类基因组上训练了一个大型语言模型。由此产生的工具名为GROVER,或“通过提取的表示获得的基因组规则”,可用于从DNA中提取生物学意义。

GROVER学会了DNA的规则。在语言方面,我们谈论的是语法、句法和语义。对DNA来说,这意味着学习控制序列的规则,核苷酸和序列的顺序,以及序列的意义。就像GPT模型学习人类语言一样,GROVER基本上已经学会了如何‘说’DNA。

研究小组表明,GROVER不仅可以准确预测接下来的DNA序列,还可以用来提取具有生物学意义的上下文信息,例如,识别DNA上的基因启动子或蛋白质结合位点。GROVER还学习了通常被认为是“表观遗传”的过程,即发生在DNA之上而不是被编码的调节过程。

“令人着迷的是,通过仅用DNA序列训练GROVER,而不需要任何功能注释,我们实际上能够提取有关生物功能的信息。对我们来说,这表明功能,包括一些表观遗传信息,也在序列中编码,”Sanabria博士说。

DNA词典

“DNA类似于语言。它有四个字母组成序列,这些序列有一定的含义。然而,与语言不同的是,DNA没有明确的词汇。”DNA由四个字母(A、T、G和C)和基因组成,但没有预先定义的不同长度的序列组合起来构成基因或其他有意义的序列。

为了训练GROVER,研究小组必须首先创建一个DNA词典。他们使用了压缩算法中的一个技巧。“这一步至关重要,将我们的DNA语言模型与之前的尝试区分开来,”Poetsch博士说。

“我们分析了整个基因组,寻找最常出现的字母组合。我们从两个字母开始,一遍又一遍地检查DNA,以建立最常见的多字母组合。通过这种方式,在大约600个循环中,我们已经将DNA碎片化成'单词',让GROVER在预测下一个序列时表现得最好,”Sanabria博士解释说。

人工智能在基因组学中的前景

GROVER承诺将解开不同层次的遗传密码。DNA掌握着使我们成为人类的关键信息,我们的疾病倾向,以及我们对治疗的反应。

“我们相信,通过语言模型理解DNA的规则将帮助我们揭示隐藏在DNA中的生物学意义的深度,推进基因组学和个性化医疗,”Poetsch博士说。

最初的发布

Melissa Sanabria, Jonas Hirsch, Pierre M. Joubert和Anna R. Poetsch: DNA语言模型GROVER学习人类基因组中的序列上下文。Nature Machine Intelligence(2024年7月)链接:https://doi.org/10.1038/s42256-024-00872-0

 

  交流讨论   

 

相关视频 猜你喜欢

生物通 版权所有
未经书面授权,所有页面内容、图片和设计不得以任何形式进行复制
Copyright © 2000-2020 eBiotrade.com, All Rights Reserved
本栏目业务联系电话:广州 020-87511980