基因只占人类基因组的一小部分。它们之间是广泛的DNA序列,指导细胞何时、何地以及应该使用多少基因。这些生物学指导手册被称为调节基序。如果这听起来很复杂,那么,确实如此。
基因调控的指令是用复杂的代码写成的,科学家们求助于人工智能来破解它。为了了解DNA调控规则,他们正在使用深度神经网络(DNN),它擅长在大型数据集中寻找模式。DNN是ChatGPT等流行人工智能工具的核心。多亏了冷泉港实验室助理教授PeterKoo开发的新工具,现在可以用比仅通过实验获得的数据多得多的数据来训练基因组分析DNN。
“对于DNN,口头禅是数据越多越好,”Koo说。“我们确实需要这些模型来观察基因组的多样性,以便它们能够学习强大的基序信号。但在某些情况下,生物学本身就是限制因素,因为我们无法生成比细胞内部更多的数据。”
如果人工智能从太少的例子中学习,它可能会误解调节基序如何影响基因功能。问题是有些图案并不常见。在自然界中发现的例子很少。
为了克服这一限制,Koo和他的同事开发了EvoAug——一种增强用于训练DNN的数据的新方法。EvoAug的灵感来自一个隐藏在众目睽睽之下的数据集——进化。该过程首先生成与细胞中发现的真实序列几乎匹配的人工DNA序列。这些序列的调整方式与基因突变在进化过程中自然改变基因组的方式相同。
接下来,使用一个关键假设对模型进行训练,以使用新序列识别调控基序。假定绝大多数调整不会破坏序列的功能。Koo将以这种方式扩充数据比作用同一只猫的镜像来训练图像识别软件。计算机了解到一张落后的猫图片仍然是一张猫图片。
Koo说,现实情况是某些DNA变化确实会破坏功能。因此,EvoAug包括仅使用真实生物数据的第二个训练步骤。Koo解释说,这会引导模型“回到数据集的生物学现实”。
Koo的团队发现,使用EvoAug训练的模型比仅使用生物数据训练的模型表现更好。因此,科学家们很快就能更好地了解编写生命规则本身的调控DNA。最终,这可能有一天会提供对人类健康的全新理解。