相对于参考人类基因组,每个人的基因组中大约有400万个序列差异。这些差异称为变体。精准医学的一个核心目标是了解这些变异中的哪些会导致特定患者的疾病。因此,人类基因组注释的大部分工作都致力于开发资源,以帮助解释人类变异对不同可观察表型的相对贡献——即确定变异影响。
最近,耶鲁大学医学院领导了一项由NIH赞助的大型研究,多个机构和国际合作者齐心协力应对这一挑战。这项研究从四个个体捐献者那里生成了一个大型的、有组织的数据集,使用高质量的基因组测序来识别所有变异和许多不同的分析,以确定它们对25种不同组织中分子表型的影响。该资源被称为EN-TEx,是迈向未来个性化护理的重要一步。该团队于3月30日在Cell上发表了其发现。
“我们的工作有助于更好地注释基因组并更好地理解变异的影响,”生物医学信息学AlbertWilliams教授、耶鲁大学生物医学信息学与数据科学新科成员MarkGerstein博士说。他还在耶鲁大学附属于分子生物物理学和生物化学、计算机科学以及统计和数据科学。“一个普通人的个人基因组在400万个地方都有变异。我们正试图找出其中哪些导致有意义的差异。”
这项工作代表了耶鲁准备创建、协调或参与的创新型大规模数据挖掘和团队合作。随着我们新学术部门的发展,我们期望看到越来越多的此类示范性生物医学数据科学工作起源于此。”
在他们的最新项目中,该团队利用长读长测序技术高精度地确定了来自四个捐赠者的二倍体基因组。每个人都有二倍体基因组。这意味着我们有两份22条染色体以及性染色体——一份来自我们的母亲,一份来自我们的父亲。“现在,对于基因组上的每个位置,我们可以以一种完美平衡的方式在许多不同的功能测定中寻找妈妈和爸爸之间的差异,从而使我们能够准确地确定许多组织中的变异效应,”Gerstein说。
该团队开发了多种统计和深度学习方法,以便能够将数据集用于实际应用。特别是,他们建立了统计模型,识别人类基因组中与疾病变异高度相关的调控区域子集。他们还发现了变异与附近基因表达变化之间的许多新联系,将有影响但未表征的变异与具有已知功能的基因联系起来。这大大扩展了先前确定的目录,尤其是在许多难以检测的组织中。
更重要的是,该团队开发了一种深度学习模型,能够预测变异是否会破坏调节因子的结合位点——一种与基因组中特定序列结合以打开或关闭附近基因的蛋白质。有趣的是,他们发现要准确预测这一点,他们需要超越结合位点本身,并考虑该位点周围的大基因组区域。结合位点是否会受到影响的关键是附近是否存在其他调节因素的结合序列。“将调节因素视为登月舱的腿,”格斯坦说。“如果它有四条腿,其中一条腿不起作用,那么其他三条腿就可以固定有缺陷的腿。”相似地,
该资源的一个局限性是只有四个欧洲人后裔被描述。该团队希望最终扩大他们的研究范围,以涵盖数百名具有更多样化血统的个体。
总的来说,这些进步将使研究人员和临床医生能够更好地解释个体潜在的致病变异,将它们与调节位点、附近基因及其作用组织联系起来。Gerstein说:“我们提供了一个一致、漂亮的数据集和注释资源来进行这些解释。”
全球团队由NIH内的国家人类基因组研究所(NHGRI)组建,作为NHGRI编码联盟的一部分,该联盟旨在对基因组进行功能注释。该团队包括来自贝勒医学院等机构的合作者;麻省理工学院和哈佛大学博德研究所;加州理工学院;基因组调控中心;冷泉港实验室;达纳-法伯癌症研究所;欧洲生物信息学研究所;HudsonAlpha生物技术研究所;约翰霍普金斯大学;纽约理工学院;斯坦福大学;加州大学尔湾分校;加州大学圣地亚哥分校;香港大学;马萨诸塞大学医学院;多伦多大学(加拿大);和西雅图华盛顿大学。