近日,数据科学学院于彬教授团队在生物信息学研究领域取得进展,相关成果以“RPI-GGCN: Prediction of RNA-Protein Interaction Based on Interpretability Gated Graph Convolution Neural Network and Co-Regularized Variational Autoencoders”为题发表在人工智能领域的国际期刊IEEE Transactions on Neural Networks and Learning Systems(中科院一区TOP期刊,影响因子10.4)。于彬教授为论文的唯一通讯作者,2021级研究生王逸飞为第一作者,英国正版365官网为第一完成单位。
近年来,随着人工智能和生物信息学的快速发展,高通量蛋白质组学数据挖掘研究已成为国内外生物信息学研究的热点和学科前沿。研究表明,RNA-蛋白质相互作用(RPI)的异常可能导致多种疾病的发生,如癌症、神经系统疾病等。因此,准确预测RNA-蛋白质相互作用对于理解细胞功能、疾病诊断和治疗具有重要意义。传统的实验方法通常耗时耗力,迫切需要开发快速而准确的人工智能方法对RPI预测研究。
提出一种基于可解释性RNA-蛋白质相互作用预测的人工智能算法模型—RPI-GGCN。首次将门控循环单元(GRU)引入图卷积神经网络(GCN)构建RPI预测模型。其中,GCN通过聚合邻居节点的特征来更新每个节点的表示,该方法能够充分利用RNA和蛋白质之间的拓扑结构信息,分析卷积操作的具体计算过程,理解模型如何利用图结构信息更新节点表示。进而通过GRU使用更新门和重置门来选择性地保留或清除信息,从而有效去除无关信息。本研究首次使用协正则变分自编码器特征选择方法,结合自编码器和变分自编码器的优点,并引入协方差正则化项提高模型的稳定性和泛化能力。该方法进一步增强模型的功效,从而对RPI进行更准确、高效和稳定的预测。在5折交叉验证测试中,RPI-GGCN模型在数据集RPI369、RPI488、RPI1446、RP11807和RPI2241上优于其它现有RPI预测算法。为了测试模型的泛化性能,在六个独立的测试集上,均取得了优异的性能。通过对Escherichia coli数据集的预测和可解释性分析,RPI-GGCN模型不仅能够准确预测RPI网络,还能够深入探究RNA-蛋白质相互作用的本质和规律,可为相关性机理研究提供新思路和方法。本文提出的RPI-GGCN人工智能算法模型可以成为生物信息学的一个有效工具,为揭示蛋白质的生物学功能提供重要线索和理论依据,也为探讨疾病机理、新一代药物设计、药物开发等方面提供新的见解。
文章链接:https://doi.org/10.1109/TNNLS.2024.3390935.
此外,该团队近一年来基于人工智能算法在生物信息学、人工智能领域的高水平SCI期刊Pattern Recognition、Briefings in Bioinformatics、Knowledge-Based Systems取得多项重要科研成果。
以上研究得到了国家自然科学基金面上项目(62172248)和山东省自然科学基金面上项目(ZR2021MF098)的资助。