人类必需蛋白(Human essential protein,HEP)对于个体的生存和发育是必不可少的。然而,鉴定HEP的实验方法往往昂贵、耗时和劳动密集型的,例如CRISPR-Cas9基因敲除实验及基因过表达实验,且这些实验方法难以推广到人类全蛋白质组。
因此,亟需计算方法来快速准确预测人类全部蛋白质的重要性,但现有的计算方法只能在人源细胞系水平预测HEP,而实际上,HEP在人类、细胞系和动物模型中存在高度差异性。这就要求我们在设计预测算法时,不仅需要提升算法的预测精度,还要需要考虑蛋白质重要性存在的变异性。
近年来,深度学习(Deep Learning,DL)和大语言模型(Large Language Model,LLM)技术的快速发展,为蛋白质重要性预测提供了新思路。
2024年11月27日,崔庆华团队在 Nature 子刊 Nature Computational Science 上发表了题为:Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model 的研究论文。
该研究通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型——蛋白质重要性计算器(Protein Importance Calculator,PIC),实现人类蛋白必要性/重要性的综合预测和分析。
该研究提出的PIC算法相较于此前最先进的计算方法DeepCellEss获得显著性能提升(AUROC和AUPRC分别提升9.64%和10.52%)。
除了具有优异的性能外,PIC算法是首个可以同时预测蛋白质在人体、人源细胞系和小鼠中的重要性评分的工具,能够为人类所有蛋白质的重要性进行综合的预测评估。在案例研究中,研究团队使用PIC算法成功预测了人类乳腺癌中的关键蛋白质靶点,并证明了其作为乳腺癌患者预后标志物的价值。
最后,研究团队使用PIC算法首次为617462种人类微蛋白(Human microproteins)的重要性进行了预测,这将为微蛋白的研究提供有力帮助。
北京大学基础医学院医学生物信息学系博士生康伯铭和已毕业博士樊锐为论文共同第一作者,崔庆华教授(现为武汉体育学院教授)为论文通讯作者,北京大学基础医学院为论文第一单位。
论文链接:https://www.nature.com/articles/s43588-024-00733-1
合作咨询
肖女士 021-33392297 Kelly.Xiao@imsinoexpo.com