尽管在临床实践中越来越多地使用基因组测序,但解释罕见的基因突变,即使是在经过充分研究的疾病基因中,仍然很困难。当前的预测模型可用于解释这些突变,但它们容易将那些不会引起疾病的突变分类错误,从而导致误报。
来自德累斯顿马克斯普朗克分子细胞生物学和遗传学研究所(MPI-CBG)、德国德累斯顿系统生物学中心(CSBD)和美国波士顿哈佛医学院的研究人员开发了一种名为DecipheringMutations的工具可操作基因(DeMAG)。该研究发表在《自然通讯》杂志上。
DeMAG是一个开源网络服务器(demag.org),它提供了对316个临床相关基因中可能发生的所有潜在单个氨基酸突变的影响的解释,这些基因会导致疾病,而预防性诊断和治疗已经可用。DeMAG为医疗专业人员提供了一种工具,使他们能够通过降低假阳性率更准确地评估这些基因突变的影响,这意味着不太良性的突变被预测为致病性。因此,该工具可以支持临床决策。
近年来,基因组测序变得更便宜、更先进。一方面,这使临床医生能够越来越多地将测序用于诊断目的,同时也使科学家能够探索更多的研究假设。另一方面,许多检测到的突变没有明确的临床解释。突变是否会导致疾病的不确定性可能会给患者带来压力,并导致与诊断不足和过度诊断相关的心理负担、发病率和医疗保健费用。
虽然现有工具已被用于预测这些变异的功能影响,但由于临床数据有限,它们的性能存在偏差,这使得区分给定基因内的致病(致病)和良性(中性)变异变得困难,并且经常导致错误分类不引起疾病的突变称为致病性。解决这些困难对于开发可靠的临床应用预测器至关重要。
MPI-CBG和CSBD的AgnesToth-Petroczy研究小组与哈佛医学院布莱根妇女医院遗传学部的医学助理教授ChristopherCassa和该部门的研究员IvanAdzhubei合作哈佛医学院生物医学信息学博士,开发统计模型和网络服务器DeMAG,在解释疾病基因的基因突变方面达到高精度。为此,研究人员仔细选择了已知的致病性和良性突变来训练模型。
“我们使用了临床和各种人口数据库。我们只选择了临床解释在多个提交者(例如医生和遗传学实验室)中达成一致的突变。我们还包括来自当前人口数据库中代表性不足的血统的数据,例如韩国或日语,使其更具代表性和准确性,”该研究论文的第一作者和博士FedericaLuppino解释道。Toth-Petroczy小组的学生。
DeMAG包括一个新功能,即“合作伙伴得分”,它可以识别蛋白质中具有相同临床效果的氨基酸簇。借助合作伙伴的得分,DeMAG利用了基于许多生物体基因组进化信息的氨基酸关系,以及最近使用GoogleDeepMind开发的AlphaFold算法预测蛋白质3D形状的AI(人工智能)革命。
监督该研究的AgnesToth-Petroczy总结说:“我们提供了一个整合临床和蛋白质数据的基本框架,以帮助评估突变的影响。我们希望我们的工具和网络服务器能够简化变异效应评估和临床决策制定.此外,新开发的功能可以应用于人类以外的其他基因和生物。DeMAG代码可在GitLab(git.mpi-cbg.de/tothpetroczylab/DeMAG)上获得,所有数据均可在demag.org/的网络服务器上免费获得。