多伦多大学(UofT)和纽约大学格罗斯曼医学院的研究人员开发了一种名为ZFDesign的新型人工智能技术,该技术可以设计锌指(ZF)蛋白来靶向人类基因组中的任何DNA片段,从而打开一个通向针对更广泛健康状况的基因疗法的大门。研究人员将ZF蛋白质和DNA之间数十亿次相互作用的数据输入机器学习模型,然后该模型可以生成与给定DNA序列结合的工程锌指。
“几十年来,设计锌指以结合特定的DNA靶点一直是一个未解决的问题,”多伦多大学Temerty医学院唐纳利细胞和生物分子研究中心教授PhilipM.Kim博士说。“我们的工作应该能够实现新一代体内疗法,这已被证明很难用CRISPR和其他DNA靶向技术开发。”
纽约大学朗格健康学院前研究生DavidIchikawa博士补充说:“我们的程序可以为任何修饰识别正确的锌指分组,使这种类型的基因编辑比以往任何时候都更快。”
Ichikawa是该团队在NatureBiotechnology上发表的论文的主要作者,该论文的标题为“Auniversaldeep-learningmodelforzincfingerdesignenablestranscriptionfactorreprogramming”。研究人员表示,“在这项研究中,我们提出了ZFDesign,这是一种基于注意力的分层人工智能模型,在ZF-DNA交互的综合屏幕上进行训练,考虑了多个相邻手指环境的影响……ZFDesign捕捉这些影响以提供通用设计模型对于ZF阵列。”
包括囊性纤维化、泰-萨克斯病和镰状细胞性贫血在内的疾病都是由编码每个人体细胞操作指令的DNA碱基顺序错误引起的。在某些情况下,科学家可以通过基因编辑方法纠正这些错误。其他情况不是由DNA代码本身的错误引起的,而是由细胞机器如何读取DNA的问题引起的——表观遗传学。
一个基因通常与转录因子合作,这些转录因子告诉细胞要制造多少蛋白质。当这个过程出错时,过度活跃或不活跃的基因会导致糖尿病、癌症和神经系统疾病等疾病。因此,研究人员一直在探索恢复正常表观遗传活动的方法。“基因表达的可编程调控将提供强大的研究工具和巨大的治疗潜力,”作者说。“由单倍体不足、功能获得性突变或基因表达错误引起的疾病可以通过基因表达的修饰直接治疗。”
ZF是一类常见的人类蛋白质,可调节此类基因表达,这是一种将遗传信息转录为RNA分子和蛋白质的过程。科学家们早就看到了它们的潜力,因为它们自然地与DNA结合,比CRISPR和相关技术更不可能引发免疫反应,并且足够小以用于临床分娩方法。ZF编辑既可以改变也可以控制基因。在人体中最丰富的蛋白质结构中,ZF可以通过抓住类似剪刀的酶并引导它们从代码中剪下错误片段来引导DNA修复。
同样,ZFs也可以钩住转录因子并将它们拉向需要调节的基因片段。通过定制这些指令,基因工程师可以定制任何基因的活动。
然而,缺点是人工ZF很难针对特定任务进行设计。“……ZF结构域与DNA的结构错综复杂的结合使它们的设计具有挑战性,”作者指出。由于这些蛋白质以复杂的组群附着在DNA上,因此研究人员需要能够从无数可能的组合中分辨出每个ZF如何与其邻居相互作用以实现每个所需的基因变化。因此,对于每一个新的DNA目标,科学家都必须通过费力且通常不成功的工作流程来设计一种新的蛋白质。调查人员指出,“虽然设计师ZF阵列的潜在效用早已得到认可,但他们的工程设计仍然具有挑战性,迄今为止还没有出现合适的设计代码。”
他们继续说,这并不是因为缺乏努力,因为已经使用多种方法生成ZF库和ZF模块,以提供设计师ZF阵列。即便如此,该团队表示,“这些方法要么需要多轮费力的选择,从而产生活动不一致的ZF,要么应用预选模块,这些模块在表达出所选上下文时往往会失败。”
新报告的ZFDesign方法通过通用模型解决了这个问题,该模型提供与CRISPR相当的易用性,并可能具有更高的DNA特异性。该技术使用人工智能来建模和设计交互。“因为一半的人类TF使用ZF来接合DNA,我们推断这些内源性ZF域可以被设计的ZF无缝替换,而不会影响蛋白质的调节功能,”该团队评论道。“这种方法在ZF自然发生在母体蛋白质中的确切背景下呈现设计的ZF。”
“我认为这个系统为锌指和CRISPR提供了公平的竞争环境,”同时也是多伦多大学分子遗传学和计算机科学教授的Kim说。“CRISPR在基础科学方面非常成熟,但我们的系统有很多优势特别是在生命系统中的应用,锌指是人类蛋白质,作为注射药物会更安全。”
ZFDesign技术还可以生成许多不同的蛋白质来做同样的事情,为将治疗推向临床提供更多选择。“我们的程序可以为任何修改识别正确的锌指分组,使这种类型的基因编辑比以往任何时候都更快,”Ichikawa评论道。
ZF模型是由纽约大学朗格健康中心的一个研究小组开发的,该小组由格罗斯曼医学院系统遗传学研究所生物化学和分子药理学助理教授MarcusNoyes博士领导。
该模型基于研究人员实验室中数十亿可能的ZF-DNA相互作用筛选生成的数据。Noyes实验室多年来一直研究锌指,并通过创建多个锌指文库的高通量筛选,汇编了锌指蛋白和DNA之间490亿次相互作用的数据。他们的方法结合了两个层面的数据:单个锌指与DNA之间的相互作用,以及每个锌指与其相邻指之间的相互作用。这些锌指对相互作用影响DNA结合,从而影响基因表达。
Kim和他的团队开发的机器学习模型反映了Noyes实验室的数据合成方法。“我们的模型是分层的,因此它利用了他们第一阶段筛选的现有数据——以及他们第二阶段数据的一个子集——来预测在某些情况下哪些锌指会与其他锌指相容,”合作伙伴说。第一作者OsamaAbdin,Kim实验室的博士生。
该模型部分基于构成ChatGPT基础的技术,ChatGPT是OpenAI开发的模拟人类对话的软件应用程序。该模型使用大型、高度详细的数据集和类似于自然语言处理的技术为ZF蛋白生成氨基酸序列。
研究人员通过重新编程人类转录因子(调节DNA到RNA转录的ZF蛋白)展示了ZF系统的实用性。他们与唐纳利中心的TimHughes教授和MikkoTaipale教授合作,调整了几种转录因子的DNA结合靶标,并对其进行编程以激活或抑制多个基因。“我们提出了一种可推广的设计方法,允许无缝替换TF天然DNA结合域,以将TF定向到任何感兴趣的目标,”作者说。“这些RTF[重新编程的转录因子]可以产生类似于基于CRISPR的工具的激活和抑制活动,使这些蛋白质成为仅包含人类成分的有吸引力的疗法。”
重新编程的转录因子的临床应用可以针对由单倍体不足引起的疾病——复制基因的缺失或失活,如某些癌症和称为埃勒斯-当洛斯综合征的结缔组织疾病——或与毒性基因重复相关的疾病,如神经退行性疾病,如如肌萎缩侧索硬化症、帕金森症和亨廷顿氏病。
Kim表示,该系统已经为具有临床潜力的ZF蛋白生成了设计,他在多伦多的团队和纽约的团队都对它的工作效果感到惊讶。新系统也有望用于基因编辑和CRISPR有用的其他应用,尽管它的影响可能在重编程转录因子领域最强,Kim说。研究作者补充说,除了带来较低的免疫风险外,与CRISPR相比,小尺寸的锌指工具还可以提供更灵活的基因治疗技术,因为它可以通过更多方式将工具输送到患者体内的正确细胞。
“通过加快锌指设计并使其尺寸更小,我们的系统为使用这些蛋白质同时控制多个基因铺平了道路,”Noyes说。“在未来,这种方法可能有助于纠正具有多种遗传原因的疾病,例如心脏病、肥胖症和许多自闭症病例。”
开发人员进一步评论说:“ZFDesign代表了一个重要的进步,因为现在只需按一下按钮就可以为任何给定目标设计ZF,并且向学术界开放,用于研究无数的学术和治疗应用,体积小和免疫原性低的优点。”
纽约大学朗格尼分校生物化学和分子药理学系助理教授诺伊斯警告说,虽然ZF很有希望,但可能难以控制。由于它们并不总是特定于单个基因,因此某些组合会影响特定目标以外的DNA序列,从而导致遗传密码发生意外变化。因此,诺伊斯表示,该团队下一步计划改进其AI程序,以便构建更精确的ZF分组,仅提示所需的编辑。诺伊斯还是纽约大学朗格尼系统遗传学研究所的成员。
下一步是提高系统的特异性。“目前的模型旨在优化给定锌指蛋白与其靶标的结合,但没有内置对与其他靶标相互作用的认识,”Kim说。“针对特异性进行优化将需要对这些其他相互作用进行建模。”
Kim说,研究人员正在努力构建一个提供更多特异性的模型。“在表观遗传学和基因治疗领域,这项工作令人兴奋不已,我期待看到我们可以利用这项技术取得什么成就。”
Noyes是TBGTherapeutics的联合创始人,该公司正在开发设计ZF并将其应用于治疗具有遗传成分的疾病的方法。