BIBM2022 1. Bioinformatics and Computational Biology of Molecular Structure, Function and Evolution

编辑 / 发布于2023-09-07 / 更新于2023-09-27 / 阅读 92

1. Kernel Risk Sensitive Loss-based Echo State Networks for Predicting 基于内核风险敏感损失的回波状态网络,用于通过稀疏学习预测治疗肽

2023.9.6

Abstract

提出了一种具有稀疏学习功能的基于内核风险敏感均值 p 幂误差的回波状态网络(KRP-ESN-SL)。使用高效的迭代优化算法来训练模型,主要目的是检测治疗肽。

Introduction

介绍了两种治疗肽,细胞穿透肽( cell-penetrating peptides CPP)能把药物运输到细胞内,群体感应肽(Quorum sensing peptides,QSP)能与细胞反应,对癌症治疗有重要作用。然后介绍了多种肽的预测方法:随机森林,word2vec+卷积,LSTM,互信息最大元学习,BiLISTM等。

主要内容

  1. 预训练模型提取特征

  2. 引入核风险敏感的平均 p 幂误差和 L2,1/2 矩阵范数来减少噪声引起的偏差

  3. 训练模型的优化算法

  4. 实验

Wres 是一个NxN的初始随机生成的矩阵。感觉是用了一个有点怪怪的带时序的模型,实验数据也不多,可能通用模型表现也不太行。

Think

可以多搜集一点数据,先用transform通用模型试试效果

2. DeepFusionGO: Protein function prediction by fusing heterogeneous features through deep learning 通过深度学习融合异构特征进行蛋白质功能预测

2023.9.7

蛋白质互作网络(Protein-Protein Interaction Networks,PPI)是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节

Abstract

DeepFusionGo 是一个使用图表示学习方法从异构数据源中提取特征的蛋白质功能预测方法。首先用预训练的蛋白质语言模型和具有缩放梯度的InterPro(是一个蛋白质家族,蛋白质结构域和功能位点的数据库)分别生成蛋白质序列嵌入向量。用可调整特征权重整合这两个向量到PPI graph 并且使用 GraphSAGA 生成表征向量。最后建立分类模型预测蛋白质功能。

The source code and data sets are available at: https://github.com/Hhhzj-7/DeepFusionGO.

Introduction

首先讲了蛋白质的功能及重要性,为了更好的描述这些功能,引入Gene Ontology (GO)及它的三个方面:分子功能,生物过程,细胞组分。

数据库中的蛋白质序列数量越来越多,传统的生物方法给这些序列注释是非常耗时的,已经跟不上序列数量的发展速度了。所以需要新的稳定并且高效的方法。比如传统及去学习方法随机森林,支持向量机和神经网络 和深度学习方法。最开始使用深度学习的蛋白质功能预测方法主要基于蛋白质序列特征和PPI 网络的位置信息。DeepGO 结合卷积神经网络学到的特征和PPI网络学到的特征获得最终的蛋白质特征。DeepGOPLus为了减少参数量,使用onehot编码,结合了DeepGO CNN 和称为 DiamondScore的k最近邻方法。DeepAdd 把蛋白质序列当作自然语言使用word2vec 获取蛋白质的特征表示。

图神经网络的快速发展导致蛋白质功能预测新结构和新应用的大量出现。蛋白质特征中,它的3D结构和PPI网络可以很好的映射为图结构。DeepFri 使用一个带有LSTM的循环神经网络结构的自监督语言模型提取残差特征,然后使用图卷积网络在相邻残基之间传播残基级特征。DeepGraphGO是一个半监督深度学习方法,它通过图卷积网络同时使用PPI网络和InterPro特征。

为了评估不同蛋白质功能预测方法的性能,生物信息学界举办了功能注释的评估CAFAI, CAFA2, CAFA3融合多源异构信息以提高预测性能仍存在巨大挑战。

本文提出DeepFisonGO方法可以融合PPI网络,InterPro domain和蛋白质序列的信息,使用GraphSAGA 通过PPI网络形成的边传输每个蛋白质节点的信息。使用预训练语言模型Esm-1b获取蛋白质嵌入信息。对于InterPro 中的蛋白质特征,通过频率缩放梯度的策略获得蛋白质水平的嵌入。然后使用融合层融合,获得融合的蛋白质嵌入作为最终的蛋白质节点特征。

Materials and Method

A. Datasets

DeepGraphGO (https:// github.com/yourh/DeepGraphGO).

B. Input Features

a) PPI network

矩阵 P \in R^{N \times N}代表PPI网络,N是PPI网络中蛋白质的数量 P_{ij} 是蛋白质 i 和蛋白质 j 之间相互作用力的大小。为了过滤蛋白质之间的弱相互作用,只保留前100个蛋白质。虽然它在功能预测中很重要,但很多未标注的蛋白质序列经常缺失这个信息。对于数据集中缺少PPI信息的蛋白质,采用了DeepGraphGO相同的方法。我们使用BLAST寻找和这个蛋白质最相似的序列,然后由他的PPI信息替代。

b) InterPro domains

二进制矩阵 I\in R^{N \times M} 表示包含蛋白质结构域信息的Interpro domains。M代表InterPro中结构域的数量。 I_{aj} = 1 代表蛋白质 a 由InterPro结构域 j 注释。使用one-hot编码向量 T 表示Interpro domains,通过全连接层可以获得蛋白质结构域 j 的低纬向量表示 t_j \in R^d

t_{j}=f(W^{(I)}T_{j}+b^{(I)})

蛋白质的表示向量 H_a^I \in R^d

H_a^I = \sum_{j=0}^{I_{aj}=1}t_j

c) Protein Sequences

使用预训练的ESM-1b中获得每个蛋白质的嵌入信息。假设输入的蛋白质 an 个氨基酸,模型输出 n 个 1280 维向量 p \in R^{1280} , 氨基酸水平平均获得蛋白质的表示向量 h_a^E \in R^{1280}

h_a^E = \frac {\sum_{i=1}^nP_i}{n}

为了统一维度,用全连接层将 1280 维削减到 d 维

H_a^E = f(W^{(E)}h_a^E + b^{(E)})

这里蛋白质的表示向量直接取氨基酸的平均值感觉不太行,可以用 self-attention 替代

C. Fusion layer

a_I = \frac {e^{w_I^{(F)}}}{e^{w_I^{(F)}} + e^{w_E^{(F)}}}
a_E = \frac {e^{w_E^{(F)}}}{e^{w_I^{(F)}} + e^{w_E^{(F)}}}
v^0 = a_I \times H^I + a_E \times H^E

v^0 \in R^{N \times d} 是输入到 GraphSAGE 的蛋白质表示, a_I, a_E是平衡两个特征的权重

D. GraphSAGE Layer

GraphSAGE 是 GCN 算法的拓展,可以使我们的训练的模型更加通用灵活。

v_{S_a}^k = Sum(v_n^{k-1} | n \in S_a)
v_a^k = f(W^k[v_{S_a}^k,v_a^{k-1}])

S_a 是蛋白质 a 的邻居集合, v_{S_a}^k \in R^d 是 k 次更新的聚合表示向量, W^k \in R^{2d \times d} 是可训练的参数。

E. Classification layer

为了减少信息损失,首先把 GraphSAGE 的输出层 v_a^k 和从 ESM-1b 得到的蛋白质表示向量 H_a^E 连接起来,然后输出到全连接层。

S_a = s(W^{(O)} \cdot [v_a^k,H_a^E] + b^{(O)})

F. Model Training

使用二元交叉熵做损失函数 AdamW 做优化器,学习率 1e-3 , dropout 0.5 避免过拟合,

Results

A. Evaluation

Fmax和AUPR做评估

B. Competing methods

使用了DeepGraphGO提取的数据,和 BLAST-KNN, LR-InterPro, Net-KNN, DeepGOPlus , DeepGraphGO 比较。

C. Comparison with competing methods on test dataset

D. Comparison with competing methods on difficult proteins

E. Ablation experiment

Conclusion and Discussion

Think

把PPI网络拿过来,放到GraphSEGE里面,用 InterPro特征更新,把获得的特征和从预训练的ESM-1b获得的特征连接起来,加一个全连接层做分类。

3. inACP: An integrated approach to the prediction of anticancer peptides 一种预测抗癌肽的综合方法

2023.9.15

Abstract

抗癌多肽(Anticancer peptides ,ACPs)作为癌症治疗的一个新方向吸引了强大的兴趣。因此开发预测 ACPs 的计算机方法(silico approaches)是必要和急切的。inACP 结合深度序列表示学习特征嵌入和预测的蛋白质结构特征作为输入,并且结合了3个机器学习分类器方法。

https://github.com/lnr3/inACP/

Introduction

几种癌症可能会对身体或者正常细胞造成巨大的伤害,引出肽类药物的优越性。

ACPs 是能杀死或者限制癌细胞的一类多肽,通常只于癌细胞的阴离子细胞膜相互作用,所以是治疗癌症非常有潜力的方法,然而在肽数据库中ACPs非常有限,只有一少部分能用关于治疗应用。通过传统方法需要花费极大的精力时间预算去评估,所以本文的方法很重要。

然后简单的介绍了前几年的一些相关的工作,它们所用的方法。 SVM,随机树,RF,GBDT,LightGBM。介绍了几种可能能用在这方面的深度学习方法 CNN,RNN,BiLISTM,NLP领域的 word2vec,TAPE,ProtVec,UniRep。

本文提出inAcp从多肽中识别ACPs。方法结合序列和结构特征,利用集成技术对独立模型预测进行结合。多肽的特征分别输入到三个独立的机器学习方法,CNN,LightGBM 和 RF 。随后inACP对结果整合推断出最终预测。

Materials and Methods

Overview of inACP
Benchmark datasets

两个数据集用于训练和评估 。(1) iACP-LRDF 工作的数据集,ACP是从CancerPPD数据库中提取的,non-ACPs 是基于SwissProt随机生成的序列。第二个独立的测试数据集来自DBAASP

The Predictive Model

用了softmax ,cross entropy 交叉熵损失函数, 激活函数 relu,把这些公式列了一下

已经感觉有点水了。。

Results and Discussion

Predictor optimization

交叉验证不同的超参数设置,

Independent Comparisons

独立的比较,说明混合的模型更有效

Discussion and Conclusions


4. ST-ChIP: Accurate prediction of spatiotemporal ChIP-seq data with recurrent neural networks 用递归神经网络精确预测时空ChIP-seq数据

2023.9.19

染色质免疫沉淀后测序(ChIP-seq)是定位蛋白质DNA结合位点的一种强大方法。时空的ChIP-seq 包含时间和空间信息,有助于动态生物过程的研究。ST-ChIP 使用LSTM 预测时空 ChIP-seq数据的覆盖率或者峰值。

http://dna.cs.miami.edu/ST-ChIP/

Introduction

染色质免疫沉淀后测序被广泛的用到在全基因组水平上识别蛋白质绑定位点。时空ChIP-seq数据是在生物发育过程中捕获的一组时间ChIP-seq数据,发育过程可能是血液形成,干细胞重编程或心脏发育。ChIP-seq 有助于研究特定核或者细胞过程中DNA相关蛋白的动态或静态。

AlphaFload在预测蛋白质结构的第三个网络用到了LSTM,HiCLSTM用LSTM学习Hi-C数据的低纬潜在特征,deepRAM用 CNN 和 RNN 预测DNA/RNA特异性结合。

作者发现ChromTime和TempoMAGE和时空ChIP-seq数据相关。前者模拟了峰值的空间变化,并使用了随时间变化的峰值(峰值的随时间变化)而不是每个时间点的峰值。后者基于卷积神经网络预测特定时间峰值,使用了DNA序列read深度,基因表达和参考时间点处峰值的先验概率作为输入。ST-ChIP不止能预测覆盖深度同时能预测峰值。

Material and Methods

A. Temporal ChIP-seq data sets

用了两组时间ChIP-seq数据,第一个bigWig数据包括四种不同的组蛋白修饰(H3K4me1,H3K4me2, H3K4me3, and H3K27ac)包括血液形成的16个发育阶段(GEO with accession ID GSE60103)这16个发育阶段用于创建几个造血分化阶段,使用了从造血干细胞(HSC)到骨髓细胞的6个时间步长的阶段,即t1:LT-HSC、t2:STSCC、t3:MPP、t4:CMP、t5:GMP和t6:Mono。

第二个包括峰值数据,本文中主要用了上面四种组蛋白修饰,每种修饰都包含九个ChIP-seq数据,对应于九个时间步长,包括t1:d0、t2:dl、t3:d3、t4:d5、t5:d7、t6:dl1、t7:d15、t8:d18和t9:iPSC),这些数据在体细胞重编程过程中依次捕获。

B. ST-ChIP pipeline

ST-ChIP用先前捕获的数据预测未来的数据,把预测问题分为覆盖深度回归和峰值分类两个问题,第一个数据集用于覆盖深度回归,第二个用于峰值分类(峰值预测)。两个pipeline一样,只有输出一个是数字,一个是预测概率。
对于覆盖深度回归,前三个时刻作为输入,后三个时刻作为 ground truth。峰值分类中,前五个时刻作为输入,后四个作为ground truth。

ST-ChIP通过简单将多个LSTM层堆叠形成。分别用了三种LSTM层,FC-LSTM,ConvLSTM和ST-LSTM。

C. Fully connected LSTM

D. Convolutional LSTM

E. Spatiotemporal LSTM

F. Implementation details

Adam优化器,MSE和BCE损失函数。


Results

A. Hyperparameter optimization

测试了不同的超参数对结果的影响,感觉没必要

B. Coverage regression

分析比较使用三个不同的层对coverage的预测结果

C. Peak classification

分析比较使用三个不同的层对peak的预测结果

Conclusion

Think

transformer感觉很符合

5. Predicting circRNA-disease associations using similarity assessing graph convolution from multi-source information networks 利用多源信息网络的相似性评估图卷积预测环状RNA疾病关联

2023.9.19

相关工作

https://github.com/JesseYule/CircRNA-DiseaseAnalysis

https://www.nature.com/articles/s41419-021-03743-3

Abstract

环状RNA(circRNA)是一种环状结构的内源非编码区RNA分子,可以作为很多复杂人类疾病的生物标志物。确定circRNAs和疾病的关系能帮助我们了解复杂疾病的诊断,治疗和发病机制,临床中非常重要。临床手段检测耗时耗力,需要有效的计算方法降低和减少假阳率。SAGCN 相似性评估图卷积网络算法,结合了cirRAN构建的多元相似性网络和疾病,首先分别混合circRNA和疾病的多元相似性信息构建网络,然后使用SAGCN算法提取cirRAN和疾病的隐藏特征,测量网络中不同节点间的相似性。最后将获得的circRNAs 和疾病的高维特征后加一个MLP层预测,该模型可用作预测cirRNAs疾病关联的有效计算工具,为生物实验提供有可能的候选者。

Introduction

circRNA 在细胞增值,凋亡和代谢等细胞过程中有重要作用。它也可以是许多疾病的重要生物学标志物,在许多人类疾病,例如冠状病毒,乳腺癌症,阿兹海默症和各种癌症中起到重要作用。传统湿实验的高代价导致只有一小部分circRNA-diease之间的关系被验证。

现在,预测circRNA-disease关系的计算方法大概可以分类机器学习方法和复杂网络方法。机器学习方法主要使用circRNA 和diseases 的生物学特征训练分类器,然后用监督或者半监督模型预测二者的关系。如NMFCDA融合circRNA和disease的相似性信息到一个同一的矩阵,然后混合NMF和一个随机伪逆学习算法预测circRNA和disease的方法挖掘潜在的circRNA-disease对。MRLDR设计图正则化的低秩近似模型来预测。DWNN-RLS 集成circRNAs和疾病的相似性信息,通过计算Kronecker乘积核的正则化最小二乘来预测。

基于复杂网络的方法是它们通过集成多个生物数据构建网络从而能充分考虑已知的circRNA-disease拓扑信息。PWCDA,IBNPKATZ,MGRCDA

本文模型主要贡献:

  1. 引入circRNAs的原始结构信息,分别充分重合 circRNAs 和 diseases 的相似性信息去构建多源相似性网络

  2. 使用相似性评估的GCN算法提取网络中潜在的高级特征,以保留传播过程中节点之间的相似性度量信息

Materials and Methods

A. Method Overview

本文提出了一种能在多源相似性网络的特征传播过程中能保留不同节点之间的相似性评估信息的,用于研究circRNA-disease关系的模型。波形包裹3个步骤,首先计算circRNA的序列和功能相似性,diseases的Gaussian interaction profile kernel(GIPK) 和 语义相似性,分别基于这些相似性构建多源相似性网络。然后采用基于相似性评估的图卷积网络学习不同节点间的相似性测量信息。由节点嵌入表示网络的高维特征。最后潜在的circRNA-disease联系有MLP预测。

B. CircRNA-Disease Association Dataset

circR2Disease 数据集,内有607个实验验证过的circRNA-disease,包括561个circRNA和100个disease。建立561x100的矩阵,有关系设为1没有为0。

C. Disease Similarity Construction

1) Disease semantic similarity SV

表示两个疾病之间关系的远近,相同之间的值为1。公共祖先越多,公共祖先距离这两个疾病越近,值越大,这里可能是根据公共祖先确定相似度。

2) Disease GIPK similarity GD

Gaussian interaction profile kernel (GIPK) 把每个数据映射到一个无限维度的特征空间里,能更好的确定数据之间的相似性。要确定两个疾病之间的相似性,公式在这里的意思是,一个 disease 和所有 circRNA 之间有一个相互作用表,两个diseases的相互作用表之间取模的平方,标准化后,以 e为底数,该数的负值为指数。两个diseases越相近,他们之间相互作用差值模的平方越小,像相似度越高。这里根据与其他circRNA的关系确定相似度。

D. CircRNA Similarity Construction

1) CircRNA functional similarity FS

根据circRNA和疾病 以及先前计算过的疾病与疾病之间语义相似度的关系,确定circRNA的相似度。

2) CircRNA sequence similarity CSS

使用3-mer核苷酸(AAA,ACC,GGG)出现频率形成的64维向量代表序列,使用Spearman相关系数计算相似性。

E. Multi-source Similarity Network Construction

CSim 如果两个circRNA 之间有功能相似性用FS,否则用CSS
DSim 如果两个疾病之间有语义相似性SV,否则GD

F. Similarity Assessing Graph Convolutional Networks (SAGCN)

用相似性评估代替卷积。


(1) Common Neighbors (CN):

(2) Hub Depressed Similarity (HDS):

(3) Salton Similarity (Salton):

(4) Hub Promoted Similarity (HPS):

Results and Discussion

A. Evaluation Criteria

使用了五折交叉验证避免过拟合。

accuracy,precision,sensitivity,Matthews correlation coefficient,F1-score 评估。

然后画了ROC AUC

B. Assessment of Model Performance

circR2Disease dataset

E. Case Study

circR2Disease dataset

think

疾病之间的关系可以考虑用大模型试试

论文里是用不同的相似性方法分别做预测,可以把这些相似性方法给结合起来预测