发布日期: 2024年10月15日
来源:Cell
文章内容
研究人员利用人工智能(AI)发现了70500种以前不为科学所知的病毒,其中许多病毒很奇怪,与已知物种完全不同。RNA病毒是用宏基因组学鉴定出来的,在宏基因组学中,科学家对环境中存在的所有基因组进行采样,而不必培养单个病毒。这种方法显示了人工智能在探索RNA病毒宇宙的“暗物质”方面的潜力。
病毒是一种无处不在的微生物,可以感染动物、植物甚至细菌,但只有一小部分被识别和描述。加拿大多伦多大学的计算病毒学家Artem Babaian说,病毒的发现“基本上是一个无底洞”。他说,其中一些病毒可能会导致人类疾病,这意味着描述它们的特征可能有助于解释神秘的疾病。
之前的研究使用机器学习在测序数据中发现新的病毒。本周发表在《Cell》杂志上的最新研究将这项工作推进了一步,并利用它来观察预测的蛋白质结构。
该人工智能模型结合了一个名为ESMFold的蛋白质预测工具,该工具是由Meta(前身为Facebook,总部位于加州门洛帕克)的研究人员开发的。一个类似的人工智能系统AlphaFold是由位于伦敦的谷歌深度思维(Google DeepMind)的研究人员开发的,该研究本周获得了诺贝尔化学奖。
在2022年,Babaian和他的同事搜索了570万个存档在公共数据库中的基因组样本,并确定了近13.2万个新的RNA病毒。其他组织也做出了类似的努力。
但是RNA病毒进化得很快,所以现有的在基因组序列数据中识别RNA病毒的方法可能会遗漏很多东西。一种常见的方法是寻找基因组中编码RNA复制中使用的关键蛋白质的部分,这种蛋白质被称为RNA依赖性RNA聚合酶(RdRp)。但是,如果病毒中编码这种蛋白质的序列与任何已知的序列都大不相同,研究人员就无法识别它。
中国深圳中山大学的进化生物学家、《Cell》研究的合著者Shi Mang和他的同事们在公开的基因组样本中寻找以前未被识别的病毒。
他们开发了一个名为LucaProt的模型,使用了支持ChatGPT的“转换器”架构,并为其提供了测序和ESMFold蛋白质预测数据。然后,他们训练他们的模型来识别病毒的RdRps,并用它在大量的基因组数据中找到编码这些酶的序列——这些序列属于病毒的证据。利用这种方法,他们发现了大约16万种RNA病毒,其中包括一些在温泉、盐湖和空气等极端环境中发现的异常长病毒。其中将近一半以前没有被描述过。Babaian说,他们发现了“RNA病毒生物多样性的小口袋,它们在进化空间的荒野中真的很遥远”。
“这是一种非常有前途的扩大病毒圈的方法,”Jackie Mahar说,他是位于吉朗的CSIRO澳大利亚疾病预防中心的进化病毒学家。她说,描述病毒的特征将有助于研究人员了解微生物的起源以及它们如何在不同的宿主中进化。
Babaian说,扩大已知病毒的范围可以更容易地发现更多相似的病毒。“突然之间,你可以看到以前看不到的东西。”
Mahar说,研究小组无法确定他们发现的病毒的宿主,这应该进一步研究。研究人员特别感兴趣的是,是否有任何一种新病毒会感染古生菌,这是生命之树的一个完整分支,目前还没有证据表明RNA病毒会感染古生菌。
Shi现在正在开发一个模型来预测这些新发现的RNA病毒的宿主。他希望这将有助于研究人员了解病毒在其环境生态位中的作用。
交流讨论