破解遗传密码是人类对理解生命的终极命题,寻找导致疾病的遗传改变更是其中的重头戏。
人类基因组有上万个基因,可能的基因突变达到百万级,从中寻找致病突变又何异于大海捞针。
人工智能的出现让这种“妄想”成为可能。
近期,DeepMind团队再发文,他们基于AlphaFold开发了新的人工智能模型AlphaMissense,预测了19233个人类蛋白质编码基因的7100万个错义突变,32%是潜在的致病突变,而其中仅有0.1%已被人类专家证实。
这篇论文发表于《科学》杂志,并被选为本周的封面论文。
AlphaMissense利用了AlphaFold的高度精确的蛋白质结构模型和从相关序列中学习的约束进化算法,并在此基础上整合了三个策略:
一,基于人口频率数据进行弱标签训练,避免人工注释带来的偏倚;二,使用无监督蛋白质语言建模来学习以序列上下文为条件的氨基酸分布;三,使用AlphaFold衍生系统来纳入结构背景。
AlphaMissense训练分为两个阶段,第一阶段与AlphaFold训练类似,在蛋白质语言建模上增加了权重;第二阶段微调模型匹配致病性,按照人口频率为突变分配良性或致病性标签。
研究者在临床数据库ClinVar提供的人类致病性错义突变数据中进行了测试,AlphaMissense的auROC达到0.940,优于第二名EVE的0.911。专门针对癌症热点突变分类的模型中,AlphaMissense也优于次优模型VARITY(auROC 0.907 vs 0.885)。
与AlphaMissense模型同时,研究团队还公布了四个数据集资源,一是以导致氨基酸变化的单核苷酸突变为单位的7100万个错义突变的预测数据集,其中32%被归类于潜在致病,使用者可以调整精度进行进一步筛选;二是基因水平的致病性预测;三是19233种人类标准蛋白质的2.16亿个单氨基酸取代拓展数据集;四是6万个转录异构体中可能的错义突变和氨基酸替换数据集。
数据集示例
普通人携带的错义突变超过9000种,其中大多是良性的不会造成疾病,但少数严重破坏蛋白质功能的错义突变可能导致罕见遗传病。错义突变对于2型糖尿病等复杂疾病也有一定意义。
在已经发现的400余万个错义突变中,仅有2%被明确为良性或致病性,其余则因缺乏实验或临床证据只能被暂时定义为“意义未知”。
在AlphaMissense等人工智能模型的协助下,我们将能够更有效地识别致病性错义突变,并提高罕见遗传病的诊断率。
参考资料:
[1]https://www.science.org/doi/10.1126/science.adg7492
[2]https://www.deepmind.com/blog/alphamissense-catalogue-of-genetic-mutations-to-help-pinpoint-the-cause-of-diseases
本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。