cellsarts
(2023-04-30 23:11):
#paper SignalP 6.0使用蛋白质语言模型预测所有五种类型的信号肽https://doi.org/10.1038/s41587-021-01156-3 信号肽(SPs)是控制所有生物体中蛋白质分泌和转运的短氨基酸序列。SPs可以从序列数据中预测,但现有算法无法检测到所有已知类型的SPs。我们介绍了SignalP 6.0,这是一个机器学习模型,可以检测所有五种SP类型,并适用于宏基因组数据。SPs是一种短的n端氨基酸序列,在真核生物中将蛋白定向到分泌(Sec)途径,并在原核生物中跨血浆(内)膜进行转运。由于SPs的综合实验鉴定是不现实的,因此SPs的计算预测与细胞生物学的研究具有很高的相关性。SP预测工具能够识别遵循一般分泌或双精氨酸易位(Tat)途径的蛋白质,并预测信号肽酶(SPase)在序列中切割sp2,3的位置。SignalP 5.0能够预测SPase I (Sec/SPI)或SPase II (Sec/ SPII,原核脂蛋白)切割的Sec底物和SPase I (Tat/SPI)切割的Tat底物4。然而,由于缺乏注释数据,SignalP 5.0无法检测由SPase II切割的Tat底物或由SPase III (prepilin peptide ase,有时称为SPase IV2)加工的Sec底物。此类Sec/SPIII SPs控制IV型匹林样蛋白的易位,而IV型匹林样蛋白在原核生物的粘附、运动和DNA摄取中起关键作用。此外,SignalP 5.0对SP结构是不可知的,因为它不能定义构成SP生物学功能的子区(n端n区、疏水h区和c端c区)。
在这里,我们提出了基于蛋白质语言模型(LMs) 6-9的SignalP 6.0,该模型使用了来自生命所有领域数百万未注释的蛋白质序列的信息。LMs创建捕获其生物特性和结构的蛋白质的语义表示。使用这些蛋白质表示,SignalP 6.0可以预测以前版本无法检测到的其他类型的SPs,同时更好地推断与用于创建模型的蛋白质和来源未知的宏基因组数据有远亲性的蛋白质。此外,它还能够确定SPs的分区域.
SignalP 6.0 predicts all five types of signal peptides using protein language models
翻译
Abstract:
Signal peptides (SPs) are short amino acid sequences that control protein secretion and translocation in all living organisms. SPs can be predicted from sequence data, but existing algorithms are unable to detect all known types of SPs. We introduce SignalP 6.0, a machine learning model that detects all five SP types and is applicable to metagenomic data.
翻译