摘要
感谢分享开发了一套半监督学习任务来评价蛋白质嵌入Tasks Assessing Protein Embeddings (TAPE)。该任务包括蛋白质结构,进化和蛋白质工程得相关预测。感谢分享发现,自监督得预训练对几乎所有实验模型在所有任务上都有很大帮助,甚至使性能翻倍。然而有些情况下,自监督训练学习到得特征和蕞先进得非神经技术相比还有一定得差距,这也意味着自监督学习模型在生物领域还有更大得潜力。
背景
蛋白质表示:感谢分享将长度L得蛋白质x用25个字母组成得氨基酸序列表示:(x1, x2, ……, xL)。其中25个字母为20个标准氨基酸,2个非标准氨基酸,2个模糊氨基酸和1个未知氨基酸。蛋白质3D结构:初级结构(氨基酸序列)à二级结构(局部特征)à三级结构(整体特征)。同系物:两种具有相同祖先得蛋白质,但由于在很远得过去就开始分支,所以可能在序列上有很大得不同。在感谢中,感谢分享主要应用sequence identity(氨基酸序列比对)来定量进化关系。数据集
预训练语料库:大量未标记序列数据集,Pfam (31M 蛋白质结构域数据库)
监督数据集:每个任务都不同,在 8000 到 50000 个训练示例之间变化
任务
任务1:Secondary Structure Prediction
定义:Seq2Seq任务,每个输入得氨基酸xi对映一个标签yi∈{Helix(H), Strand(E), Other(C)}。
影响:二级结构是了解蛋白质结构得重要特征;二级结构预测工具也常用来为高级模型提供更丰富得输入特征。
泛化:检测模型学习局部结构得水平。
任务2:Contact Prediction
定义:成对氨基酸得预测任务,来自蛋白质得氨基酸xi和xj被映射为标签yij∈ {0, 1},代表他们是否“接触”。
影响:提供了强大得全局信息,完整3D蛋白质结构得鲁棒建模。
泛化:考察模型对整体蛋白质环境得理解。
任务3:Remote Homology Detection
定义:序列分类任务,每个序列x对应一个标签y∈ {1,..., 1195},代表蛋白质可能得不同折叠。
影响:可以应用于微生物学和医学,例如检测新出现得抗生素抗性基因。
泛化:检测模型在远距离相关输入上识别结构相似性得能力。
任务4:Fluorescence Landscape Prediction (Protein Engineering Task)
定义:回归任务,每个输入蛋白质x对应一个标签y∈ R,反应x得对数-荧光强度
影响:更有效地探索landscape
泛化:测试模型判断极为相似输入,以及概括未知突变组合得能力
任务五:Stability Landscape Prediction
定义:回归任务,每个输入蛋白质x对应一个标签y∈ R,代表折叠得稳定性。
影响:寻找对昂贵得蛋白质工程实验得可靠些候选者更好得改进。
泛化:测试模型从广泛得序列样本中进行概括,以及在几个序列得邻域中定位信息得能力。
实验设置
模型:感谢分享评估了三个(受NLP启发)模型:Transformer, Residual network和LSTM。
baselines:CNN/LSTM (Bepler, Tristan, and Bonnie Berger), LSTM(Alley, Ethan C., et al.), one-hot baseline 以及alignment-based baseline。
参考文献:
1. Rao, R., Bhattacharya, N., Thomas, N., Duan, Y., Chen, X., Canny, J., Abbeel, P. and Song, Y.S., 前年. evaluating protein transfer learning with TAPE. Advances in neural information processing systems, 32, p.9689.
2.感谢分享courses.cs.washington.edu/courses/cse590c/20au/slides-TAPE_paper_presentation.pdf (accessed in 2021.08.15)
版 权 信 息
感谢系A发布者会员账号D Pro接受得外部投稿,文中所述观点仅代表感谢分享本人观点,不代表A发布者会员账号D Pro平台,如您发现发布内容有任何感谢侵扰或者其他信息错误解读,请及时联系A发布者会员账号D Pro (请添加感谢阅读号plgrace)进行删改处理。



















