神经网络模型预测酵母中非编码DNA序列的变化如何影响基因表达和繁殖适应性。该模型创建了称为健身景观的地图,如图所示,并以化石鸟类和鱼类的形状渲染。这些高级生物的进化是非编码DNA序列进化变化的结果,就像健身景观中所描绘的那样(MartinKrzywinski)
科学家们开发了一种基于人工智能(AI)的神经网络模型,可以准确预测酵母中的基因表达。该团队已经在高通量实验中验证了其神经网络的能力,这项工作为解决广泛的科学问题打开了大门。该模型可以帮助设计具有定制表达水平的基因,用于基因疗法或工业应用的开发,并阐明调节基因表达的进化机制。
研究结果发表在《自然》杂志上,题为“基因调控DNA的进化、进化性和工程”的文章中。
麻省理工学院生物学教授、哈佛大学博德研究所核心成员、麻省理工学院院长阿维夫·雷格夫(AvivRegev)博士表示:“这项工作凸显了当我们设计新型实验以生成正确数据来训练模型时所带来的可能性。”基因泰克研究与早期开发博士,也是该研究的资深作者。
麻省理工学院生物学教授AvivRegev博士是该研究的资深作者。
研究人员采用了两项关键技术来预测酿酒酵母中的基因表达。第一个测量了酵母细胞中编码黄色荧光蛋白(YFP)的基因的表达。作者建立了一个包含超过3000万个不同的80个碱基对启动子(基因转录起始处的DNA非编码序列)的文库,并测量了每个携带不同启动子的细胞产生的YFP。
然后,研究人员使用YFP表达数据集来训练称为卷积神经网络的人工智能系统,以根据数据集预测基因表达。他们验证了该网络预测一组新启动子基因表达的能力。
作者测试了网络从随机起始序列预测基因表达的能力。他们在计算机模拟的进化周期中使用这些数据,在十轮中改变起始序列,以生成驱动非常高或非常低的YFP表达的启动子序列。研究人员使用高通量分析测试了500个计算机生成的启动子序列,并验证了这些启动子序列是否如神经网络预测的那样驱动了极端的YFP表达。
“我们的研究涉及尖端机器学习(深度变压器神经网络模型)和高通量实验(大型并行报告分析)技术以及最先进的计算基础设施(张量处理单元),”EeshitVaishnav说,麻省理工学院的博士生,也是该研究的第一作者。
该网络可用于更深入地了解进化机制。例如,作者表明三到四个突变足以将随机起始序列改变为驱动YFP表达非常高或非常低的序列。他们还表明,超过一半的酵母基因以启动子序列的变化不会改变基因表达的方式稳定。
不列颠哥伦比亚大学生物医学工程学院助理教授卡尔·德波尔博士是该研究的作者之一。
除了预测酵母中启动子序列的变化如何影响基因表达之外,该团队还设计了一种独特的方法,使用称为适应度景观的二维数学图来表示哪些基因将被表达以及基因表达将如何影响性状。这些适应度景观将允许更简单地描述过去基因表达的变化,并预测酵母以外的生物体中非编码序列的未来进化。
“我们现在有了一个‘预言’,可以询问它:如果我们尝试这个序列的所有可能的突变会怎样?或者,我们应该设计什么新的序列来给出我们想要的表达?”雷格夫说。“科学家现在可以使用该模型来解决他们自己的进化问题或场景,以及其他问题,例如制作以所需方式控制基因表达的序列。”
“我也对对可解释性感兴趣的机器学习研究人员的可能性感到兴奋。他们可以反向提出问题,以更好地了解潜在的生物学原理,”Regev补充道。“我相信这类方法对于许多问题都很重要,例如了解赋予人类基因组疾病风险的调控区域的遗传变异,而且对于预测突变组合的影响或设计新分子也很重要。”
“创建准确的模型无疑是一项成就,但对我来说,这实际上只是一个起点,”瓦什纳夫说。“该模型可以充当进化研究中的‘预言机’,在计算机实验中进行和解释,预测哪些调节突变影响表达和适应性,设计或进化具有所需特征的新序列,确定选择多快达到表达最佳状态,识别特征对现有调控序列的选择性压力,可视化适应度景观,并表征突变的鲁棒性和进化性。”
爱丁堡大学医学研究委员会人类遗传学部门的遗传学教授MartinTaylor博士(未参与这项研究)表示,这项研究表明人工智能可以预测DNA调控变化的影响,并揭示控制的基本原理。数百万年的进化。
“近期有明显的应用,例如酿造、烘焙和生物技术领域酵母调控DNA的定制设计,”Taylor说。“但这项工作的扩展还可以帮助识别人类调节DNA中的疾病突变,这些突变目前很难发现,并且在临床上很大程度上被忽视。这项工作表明,在更丰富、更复杂、更多样化的数据集上训练的基因调控人工智能模型有着光明的前景。”
Vaishnav说:“这篇论文介绍了一个研究和设计基因调控DNA序列以控制基因表达的通用框架。该框架可以应用于其他生物体,包括人类。例如,这最终将使我们能够设计调控序列,仅在基因治疗应用的特定情况下编码所需基因的表达。该论文还解决了基因调控序列、其进化历史和未来进化性研究中的几个基本的开放性问题。”
在接下来的实验中,该团队打算进行一组类似的实验,以生成预测人类细胞中基因表达的模型。