发布日期: 2024年08月12日
来源:AAAS
文章内容
基因疗法有可能治愈遗传性疾病,但如何安全有效地将新基因打包并输送到特定细胞中仍然是一个挑战。腺相关病毒(AAV)是最常用的基因传递载体之一,现有的工程方法往往是缓慢和低效的。
现在,麻省理工学院博德研究所和哈佛大学的研究人员已经开发出一种机器学习方法,有望加快基因治疗的AAV工程。该工具可以帮助研究人员设计aav的蛋白质外壳,称为衣壳,使其具有多种理想的特性,例如能够将货物运送到特定的器官而不是其他器官,或者在多个物种中工作。其他方法一次只寻找具有一种特征的衣壳。
研究小组利用他们的方法为一种常用的AAV设计了衣壳,这种AAV9更有效地靶向肝脏,而且很容易制造。他们发现,他们的机器学习模型预测的大约90%的衣壳成功地将货物运送到人类肝细胞中,并符合其他五个关键标准。他们还发现,他们的机器学习模型正确地预测了猕猴体内蛋白质的行为,即使它只接受了小鼠和人类细胞数据的训练。这一发现表明,新方法可以帮助科学家更快地设计跨物种的aav,这对于将基因疗法转化为人类至关重要。
最近发表在《自然通讯》上的研究结果来自Ben Deverman的实验室,他是布罗德研究所斯坦利精神病学研究中心的研究所科学家和载体工程主任。Deverman小组的高级机器学习科学家Fatma-Elzahraa Eid是这项研究的第一作者。
“这是一种非常独特的方法,”德弗曼说。“它强调了湿实验室生物学家与机器学习科学家早期合作设计实验产生机器学习数据的重要性,而不是作为事后的想法。”
研究组组长Ken Chan、研究生Albert Chen、研究助理Isabelle Tobey和科学顾问Alina Chan都在Deverman的实验室,他们也为这项研究做出了重要贡献。
为机器让路
设计aav的传统方法包括生成包含数百万衣壳蛋白变体的大型文库,然后在细胞和动物中进行几轮选择测试。这一过程既昂贵又耗时,而且通常导致研究人员只能识别出少数具有特定特征的衣壳。这使得寻找满足多个标准的衣壳变得非常困难。
其他研究小组已经使用机器学习来加速大规模分析,但大多数方法都是以牺牲另一种功能为代价来优化蛋白质的。
Deverman和Eid意识到,基于现有大型AAV库的数据集不太适合训练机器学习模型。“我们不是简单地把数据交给机器学习科学家,而是想,‘我们需要什么来更好地训练机器学习模型?’弄清楚这一点真的很有帮助。”
他们首先使用第一轮机器学习建模来生成一个新的中等大小的库,称为Fit4Function,其中包含被预测可以很好地包装基因货物的衣壳。研究小组在人类细胞和小鼠中筛选了这些文库,以找到对每个物种的基因治疗具有重要特定功能的衣壳。然后,他们利用这些数据建立了多个机器学习模型,每个模型都可以从衣壳的氨基酸序列中预测某种功能。最后,他们结合使用这些模型创建了针对多个特征同时优化的“多功能”aav库。
蛋白质设计的未来
为了证明这一概念,Eid和Deverman实验室的其他研究人员结合了六个模型来设计一个衣壳库,该衣壳库具有多种期望的功能,包括可制造性和跨越人类细胞和小鼠靶向肝脏的能力。几乎90%的这些蛋白质同时显示出所有所需的功能。
研究人员还发现,该模型——仅用来自小鼠和人类细胞的数据进行训练——正确地预测了aav如何分布到猕猴的不同器官,这表明这些aav是通过一种跨物种翻译的机制来实现的。这可能意味着在未来,基因治疗研究人员可以更快地识别出具有多种理想特性的衣壳,供人类使用。
将来,Eid和Deverman说,他们的模型可以帮助其他团体创造针对肝脏或专门避免肝脏的基因疗法。他们还希望其他实验室将使用他们的方法来生成自己的模型和库,这些模型和库可以共同形成一个机器学习图谱:一个可以预测AAV衣壳在数十个特征上的表现,以加速基因治疗发展的资源。
交流讨论