BIBM2022 2. Computational Systems Biology

编辑 / 发布于2023-09-27 / 更新于2023-10-17 / 阅读 32

1. Predicting circRNA-disease associations using similarity assessing graph convolution from multi-source information networks 利用多源信息网络的相似性评估图卷积预测环状RNA疾病关联

2023.9.19

相关工作

https://github.com/JesseYule/CircRNA-DiseaseAnalysis

https://www.nature.com/articles/s41419-021-03743-3

Abstract

环状RNA(circRNA)是一种环状结构的内源非编码区RNA分子,可以作为很多复杂人类疾病的生物标志物。确定circRNAs和疾病的关系能帮助我们了解复杂疾病的诊断,治疗和发病机制,临床中非常重要。临床手段检测耗时耗力,需要有效的计算方法降低和减少假阳率。SAGCN 相似性评估图卷积网络算法,结合了cirRAN构建的多元相似性网络和疾病,首先分别混合circRNA和疾病的多元相似性信息构建网络,然后使用SAGCN算法提取cirRAN和疾病的隐藏特征,测量网络中不同节点间的相似性。最后将获得的circRNAs 和疾病的高维特征后加一个MLP层预测,该模型可用作预测cirRNAs疾病关联的有效计算工具,为生物实验提供有可能的候选者。

Introduction

circRNA 在细胞增值,凋亡和代谢等细胞过程中有重要作用。它也可以是许多疾病的重要生物学标志物,在许多人类疾病,例如冠状病毒,乳腺癌症,阿兹海默症和各种癌症中起到重要作用。传统湿实验的高代价导致只有一小部分circRNA-diease之间的关系被验证。

现在,预测circRNA-disease关系的计算方法大概可以分类机器学习方法和复杂网络方法。机器学习方法主要使用circRNA 和diseases 的生物学特征训练分类器,然后用监督或者半监督模型预测二者的关系。如NMFCDA融合circRNA和disease的相似性信息到一个同一的矩阵,然后混合NMF和一个随机伪逆学习算法预测circRNA和disease的方法挖掘潜在的circRNA-disease对。MRLDR设计图正则化的低秩近似模型来预测。DWNN-RLS 集成circRNAs和疾病的相似性信息,通过计算Kronecker乘积核的正则化最小二乘来预测。

基于复杂网络的方法是它们通过集成多个生物数据ll构建网络从而能充分考虑已知的circRNA-disease拓扑信息。PWCDA,IBNPKATZ,MGRCDA

本文模型主要贡献:

  1. 引入circRNAs的原始结构信息,分别充分重合 circRNAs 和 diseases 的相似性信息去构建多源相似性网络

  2. 使用相似性评估的GCN算法提取网络中潜在的高级特征,以保留传播过程中节点之间的相似性度量信息

Materials and Methods

A. Method Overview

本文提出了一种能在多源相似性网络的特征传播过程中能保留不同节点之间的相似性评估信息的,用于研究circRNA-disease关系的模型。波形包裹3个步骤,首先计算circRNA的序列和功能相似性,diseases的Gaussian interaction profile kernel(GIPK) 和 语义相似性,分别基于这些相似性构建多源相似性网络。然后采用基于相似性评估的图卷积网络学习不同节点间的相似性测量信息。由节点嵌入表示网络的高维特征。最后潜在的circRNA-disease联系有MLP预测。

B. CircRNA-Disease Association Dataset

circR2Disease 数据集,内有607个实验验证过的circRNA-disease,包括561个circRNA和100个disease。建立561x100的矩阵,有关系设为1没有为0。

C. Disease Similarity Construction

1) Disease semantic similarity SV

表示两个疾病之间关系的远近,相同之间的值为1。公共祖先越多,公共祖先距离这两个疾病越近,值越大,这里可能是根据公共祖先确定相似度。

2) Disease GIPK similarity GD

Gaussian interaction profile kernel (GIPK) 把每个数据映射到一个无限维度的特征空间里,能更好的确定数据之间的相似性。要确定两个疾病之间的相似性,公式在这里的意思是,一个 disease 和所有 circRNA 之间有一个相互作用表,两个diseases的相互作用表之间取模的平方,标准化后,以 e为底数,该数的负值为指数。两个diseases越相近,他们之间相互作用差值模的平方越小,像相似度越高。这里根据与其他circRNA的关系确定相似度。

D. CircRNA Similarity Construction

1) CircRNA functional similarity FS

根据circRNA和疾病 以及先前计算过的疾病与疾病之间语义相似度的关系,确定circRNA的相似度。

2) CircRNA sequence similarity CSS

使用3-mer核苷酸(AAA,ACC,GGG)出现频率形成的64维向量代表序列,使用Spearman相关系数计算相似性。

E. Multi-source Similarity Network Construction

CSim 如果两个circRNA 之间有功能相似性用FS,否则用CSS
DSim 如果两个疾病之间有语义相似性SV,否则GD

F. Similarity Assessing Graph Convolutional Networks (SAGCN)

用相似性评估代替卷积。


(1) Common Neighbors (CN):

(2) Hub Depressed Similarity (HDS):

(3) Salton Similarity (Salton):

(4) Hub Promoted Similarity (HPS):

Results and Discussion

A. Evaluation Criteria

使用了五折交叉验证避免过拟合。

accuracy,precision,sensitivity,Matthews correlation coefficient,F1-score 评估。

然后画了ROC AUC

B. Assessment of Model Performance

circR2Disease dataset

E. Case Study

circR2Disease dataset

think

疾病之间的关系可以考虑用大模型试试

论文里是用不同的相似性方法分别做预测,可以把这些相似性方法给结合起来预测

2. Integrating Prior Knowledge with Graph Encoder for Gene Regulatory Inference from Single-cell RNA-Seq Data 结合先验知识和图编码器根据单细胞RNA序列推理基因调控

2023.9.27

Abstract

基于单细胞转录组推断基因调控网络有助于理解细胞特异性调控网络和发现肿瘤细胞中的药物靶点。现有方法蹦年很好的利用验证的基因调控拓扑结构,本文提出了通过转导学习,根据已知的调控关系,基于图的端到端GRN推理模型。

Introduction

基因调控网络(GRN)的推断对于理解细胞从基因型到表型的综合调控机制至关重要。调控因子(TF)和目标之间的调控关系可以通过共表达或者共现模式体现。因此GRN可以通过基于基因表达的逆向工程推理出来。

本文提出了一个基于图的端到端深度学习网络,利用已知的调控拓扑信息来发现新的调控关系。将单细胞基因表达数据格式化为基因调控网络图 GRNInfer,该网络图连接基因对和报告调控关系。图中每个节点代表一个基因,节点特征表示细胞中的表达。最后通过解码器推理基因对之间的调控关系。

Related Work



A. Unsupervised GRN inference methods

大多数无监督方法基于共表达分析或者互信息构建对称TF-gene相互作用。常微分方程(ODE)模型使用时程表达数据或伪时间信息进行参数估计用于GRN重建。

B. Supervised GRN inference methods


有监督方法将GRN推理问题划为边预测分类问题。监督方法不需要基于数据分布假设。可以灵活适用于不同分布。现有的有监督方法主要将两个基因表达分布投影到2d图像,非欧洲数据强制映射到网格图像上。伪图像输入到卷积或循环网络。

本文提出使用报告和研究证明的GRN作为先验拓扑知识,通过图编码器编码每个基因的表达模式,解码基因对的调控。

Methods

A. Encoder

使用单细胞转录数据和先验基因拓扑结构通过编码器获取基因节点的嵌入特征。假设具有调控关系的基因节点的基因表达数据应