其中80%结构的可信度达到了足以支撑研究实验的水平,更有35%达到了高置信度。
这是我们给全人类的一份礼物。
这次数据集更新,主要增加了植物、细菌、动物和其他生物的蛋白质结构。
去年7月,ALPHAFOLD数据集发布了人类98.5%的蛋白质结构,以及包含大肠杆菌、果蝇、小鼠等20个科研常用生物的蛋白质组数据。
数据集规模从之前的35万个蛋白质结构,一下子提升到了大约2.14亿个。
DEEPMIND创始人哈撒比斯表示,这基本上可以说是“整个蛋白质宇宙”了。
这意味着更多领域的研究可以被大幅提速。
要知道,蛋白质作为生命活动的基石,其相关研究对药物研发、疾病攻克、食品工程、农业、工业等领域都有重要影响。
因为其功能由结构决定,而其3D结构又是由氨基酸以脱水缩合的方式组成多肽链,多肽链再盘曲折叠而成。
也就是说,即使科学家们已知了蛋白质的氨基酸序列,可能的3D结构情况仍旧非常多。
假设一个蛋白质由100个氨基酸序列组成,那么它可能的3D结构情况将多达2的100次方个。
过去很长一段时间里,蛋白质预测工作主要通过科学家手动完成,比如施一公院士,就是用冷冻电镜预测蛋白质结构的顶级专家。
计算机虽然也能预测蛋白质结构,但是其准确性始终不高。
而这一局面,随着ALPHAFOLD2的诞生后开始发生变化。
2020年12月,ALPHAFOLD2在CASP14(蛋白质结构预测比赛)中的成绩,达到了史无前例的92.4/100。
和蛋白质真实结构之间只差一个原子的宽度,真正解决了蛋白质折叠的问题。
在此半年后,DEEPMIND先后开源ALPHAFOLD2、ALPHAFOLD数据集,可谓是在学术圈扔下了一记重磅炸弹。
而学者们利用ALPHAFOLD开展研究的成果也已经开始显现。
最近,发表在SCIENCE上的一篇研究表明,他们利用ALPHAFOLD拼出了核孔复合体。
这个结构由数百个蛋白质组成,控制着细胞核的物质进出,其相关研究是生物领域内的重点课题。
在ALPHAFOLD的辅助下,该团队预测出了这一结构中一些未知区域。
DNDI(被忽视疾病药物开发组织)也曾表示,ALPHAFOLD2推动了他们在热带疾病药物开发方面的研究。
朴茨茅斯大学酶创新中心(CEI)则利用ALPHAFOLD2开发一些新的酶,可以用来降解污染环境的一次性塑料。
此外,过去一年来不少学术机构都在开展ALPHAFOLD的相关研究,以使得这一工具能够让更多学者便捷使用。
与此同时,计算生物行业也成为了人们关注的焦点,不少公司都在推出相关业务。