首页 生活 > 内容

AI技术从零开始生成原始蛋白质

时间:2023-02-21 16:47:04 来源:
导读 科学家们已经创建了一个能够从头开始生成人造酶的人工智能系统。在实验室测试中,其中一些酶与自然界中发现的酶一样有效,即使它们的人工生

科学家们已经创建了一个能够从头开始生成人造酶的人工智能系统。在实验室测试中,其中一些酶与自然界中发现的酶一样有效,即使它们的人工生成的氨基酸序列与任何已知的天然蛋白质存在显着差异。

该实验表明,自然语言处理虽然是为读写语言文本而开发的,但至少可以学习一些生物学的基本原理。SalesforceResearch开发了名为ProGen的AI程序,该程序使用下一个标记预测将氨基酸序列组装成人造蛋白质。

科学家表示,这项新技术可能比获得诺贝尔奖的蛋白质设计技术定向进化更强大,并将通过加速可用于几乎任何事物的新蛋白质的开发,为已有50年历史的蛋白质工程领域注入活力从治疗到降解塑料。

“人工设计的性能比受进化过程启发的设计要好得多,”加州大学旧金山分校药学院生物工程和治疗科学教授JamesFraser博士说,他也是该作品的作者,该作品于1月26日发表,在自然生物技术。自2021年7月以来,该论文的先前版本已在预印本服务器BiorXiv上发布,在同行评审期刊上发表之前,它获得了数十次引用。

“语言模型正在学习进化的各个方面,但它不同于正常的进化过程,”弗雷泽说。“我们现在能够针对特定效果调整这些属性的生成。例如,一种非常热稳定或喜欢酸性环境或不会与其他蛋白质相互作用的酶。”

为了创建模型,科学家们只需将2.8亿种不同蛋白质的氨基酸序列输入机器学习模型,让它消化信息几周。然后,他们通过使用来自五个溶菌酶家族的56,000个序列以及有关这些蛋白质的一些上下文信息来启动模型,从而对模型进行微调。

该模型迅速生成了一百万个序列,研究团队根据它们与天然蛋白质序列的相似程度以及AI蛋白质的潜在氨基酸“语法”和“语义”的自然程度,选择了100个进行测试。

在第一批由TierraBiosciences进行体外筛选的100种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶)进行比较。HEWL)。在人类的眼泪、唾液和牛奶中发现了类似的溶菌酶,它们可以抵御细菌和真菌。

其中两种人工酶能够以与HEWL相当的活性分解细菌的细胞壁,但它们的序列彼此只有约18%相同。这两个序列与任何已知蛋白质的同一性约为90%和70%。

天然蛋白质中的一个突变就可以使其停止工作,但在另一轮筛选中,研究小组发现,即使只有31.4%的序列与任何已知的天然蛋白质相似,AI生成的酶仍显示出活性。

人工智能甚至能够通过研究原始序列数据来了解酶应该如何形成。用X射线晶体学测量,人造蛋白质的原子结构看起来和它们应该的一样,尽管这些序列是前所未有的。

SalesforceResearch在2020年开发了ProGen,基于他们的研究人员最初开发用于生成英语文本的一种自然语言编程。

他们从之前的工作中了解到,人工智能系统可以自学语法和单词的含义,以及其他使写作井井有条的基本规则。

“当你用大量数据训练基于序列的模型时,它们在学习结构和规则方面确实非常强大,”SalesforceResearch人工智能研究主管、该论文的资深作者NikhilNaik博士说。“他们了解哪些词可以同时出现,以及组合性。”

对于蛋白质,设计选择几乎是无限的。溶菌酶和蛋白质一样小,最多约有300个氨基酸。但是有20种可能的氨基酸,就有大量(20300)种可能的组合。这比将整个时间生活的所有人类乘以地球上沙粒的数量乘以宇宙中的原子数量还要多。

鉴于无限的可能性,该模型能够如此轻松地产生工作酶是非常了不起的。

ProfluentBio创始人、SalesforceResearch前研究科学家AliMadani博士说:“开箱即用地从头开始生成功能性蛋白质的能力表明我们正在进入蛋白质设计的新时代。”第一作者。“这是蛋白质工程师可用的多功能新工具,我们期待看到治疗应用。”

标签:
最新文章