BIBM2022 2. Computational Systems Biology

编辑 / 发布于2023-09-27 / 更新于2023-10-17 / 阅读 47

1. Predicting circRNA-disease associations using similarity assessing graph convolution from multi-source information networks 利用多源信息网络的相似性评估图卷积预测环状RNA疾病关联

2023.9.19

相关工作

https://github.com/JesseYule/CircRNA-DiseaseAnalysis

https://www.nature.com/articles/s41419-021-03743-3

Abstract

环状RNA(circRNA)是一种环状结构的内源非编码区RNA分子,可以作为很多复杂人类疾病的生物标志物。确定circRNAs和疾病的关系能帮助我们了解复杂疾病的诊断,治疗和发病机制,临床中非常重要。临床手段检测耗时耗力,需要有效的计算方法降低和减少假阳率。SAGCN 相似性评估图卷积网络算法,结合了cirRAN构建的多元相似性网络和疾病,首先分别混合circRNA和疾病的多元相似性信息构建网络,然后使用SAGCN算法提取cirRAN和疾病的隐藏特征,测量网络中不同节点间的相似性。最后将获得的circRNAs 和疾病的高维特征后加一个MLP层预测,该模型可用作预测cirRNAs疾病关联的有效计算工具,为生物实验提供有可能的候选者。

Introduction

circRNA 在细胞增值,凋亡和代谢等细胞过程中有重要作用。它也可以是许多疾病的重要生物学标志物,在许多人类疾病,例如冠状病毒,乳腺癌症,阿兹海默症和各种癌症中起到重要作用。传统湿实验的高代价导致只有一小部分circRNA-diease之间的关系被验证。

现在,预测circRNA-disease关系的计算方法大概可以分类机器学习方法和复杂网络方法。机器学习方法主要使用circRNA 和diseases 的生物学特征训练分类器,然后用监督或者半监督模型预测二者的关系。如NMFCDA融合circRNA和disease的相似性信息到一个同一的矩阵,然后混合NMF和一个随机伪逆学习算法预测circRNA和disease的方法挖掘潜在的circRNA-disease对。MRLDR设计图正则化的低秩近似模型来预测。DWNN-RLS 集成circRNAs和疾病的相似性信息,通过计算Kronecker乘积核的正则化最小二乘来预测。

基于复杂网络的方法是它们通过集成多个生物数据ll构建网络从而能充分考虑已知的circRNA-disease拓扑信息。PWCDA,IBNPKATZ,MGRCDA

本文模型主要贡献:

  1. 引入circRNAs的原始结构信息,分别充分重合 circRNAs 和 diseases 的相似性信息去构建多源相似性网络

  2. 使用相似性评估的GCN算法提取网络中潜在的高级特征,以保留传播过程中节点之间的相似性度量信息

Materials and Methods

A. Method Overview

本文提出了一种能在多源相似性网络的特征传播过程中能保留不同节点之间的相似性评估信息的,用于研究circRNA-disease关系的模型。波形包裹3个步骤,首先计算circRNA的序列和功能相似性,diseases的Gaussian interaction profile kernel(GIPK) 和 语义相似性,分别基于这些相似性构建多源相似性网络。然后采用基于相似性评估的图卷积网络学习不同节点间的相似性测量信息。由节点嵌入表示网络的高维特征。最后潜在的circRNA-disease联系有MLP预测。

B. CircRNA-Disease Association Dataset

circR2Disease 数据集,内有607个实验验证过的circRNA-disease,包括561个circRNA和100个disease。建立561x100的矩阵,有关系设为1没有为0。

C. Disease Similarity Construction

1) Disease semantic similarity SV

表示两个疾病之间关系的远近,相同之间的值为1。公共祖先越多,公共祖先距离这两个疾病越近,值越大,这里可能是根据公共祖先确定相似度。

2) Disease GIPK similarity GD

Gaussian interaction profile kernel (GIPK) 把每个数据映射到一个无限维度的特征空间里,能更好的确定数据之间的相似性。要确定两个疾病之间的相似性,公式在这里的意思是,一个 disease 和所有 circRNA 之间有一个相互作用表,两个diseases的相互作用表之间取模的平方,标准化后,以 e为底数,该数的负值为指数。两个diseases越相近,他们之间相互作用差值模的平方越小,像相似度越高。这里根据与其他circRNA的关系确定相似度。

D. CircRNA Similarity Construction

1) CircRNA functional similarity FS

根据circRNA和疾病 以及先前计算过的疾病与疾病之间语义相似度的关系,确定circRNA的相似度。

2) CircRNA sequence similarity CSS

使用3-mer核苷酸(AAA,ACC,GGG)出现频率形成的64维向量代表序列,使用Spearman相关系数计算相似性。

E. Multi-source Similarity Network Construction

CSim 如果两个circRNA 之间有功能相似性用FS,否则用CSS
DSim 如果两个疾病之间有语义相似性SV,否则GD

F. Similarity Assessing Graph Convolutional Networks (SAGCN)

用相似性评估代替卷积。


(1) Common Neighbors (CN):

(2) Hub Depressed Similarity (HDS):

(3) Salton Similarity (Salton):

(4) Hub Promoted Similarity (HPS):

Results and Discussion

A. Evaluation Criteria

使用了五折交叉验证避免过拟合。

accuracy,precision,sensitivity,Matthews correlation coefficient,F1-score 评估。

然后画了ROC AUC

B. Assessment of Model Performance

circR2Disease dataset

E. Case Study

circR2Disease dataset

think

疾病之间的关系可以考虑用大模型试试

论文里是用不同的相似性方法分别做预测,可以把这些相似性方法给结合起来预测

2. Integrating Prior Knowledge with Graph Encoder for Gene Regulatory Inference from Single-cell RNA-Seq Data 结合先验知识和图编码器根据单细胞RNA序列推理基因调控

2023.9.27

Abstract

基于单细胞转录组推断基因调控网络有助于理解细胞特异性调控网络和发现肿瘤细胞中的药物靶点。现有方法蹦年很好的利用验证的基因调控拓扑结构,本文提出了通过转导学习,根据已知的调控关系,基于图的端到端GRN推理模型。

Introduction

基因调控网络(GRN)的推断对于理解细胞从基因型到表型的综合调控机制至关重要。调控因子(TF)和目标之间的调控关系可以通过共表达或者共现模式体现。因此GRN可以通过基于基因表达的逆向工程推理出来。

本文提出了一个基于图的端到端深度学习网络,利用已知的调控拓扑信息来发现新的调控关系。将单细胞基因表达数据格式化为基因调控网络图 GRNInfer,该网络图连接基因对和报告调控关系。图中每个节点代表一个基因,节点特征表示细胞中的表达。最后通过解码器推理基因对之间的调控关系。

Related Work



A. Unsupervised GRN inference methods

大多数无监督方法基于共表达分析或者互信息构建对称TF-gene相互作用。常微分方程(ODE)模型使用时程表达数据或伪时间信息进行参数估计用于GRN重建。

B. Supervised GRN inference methods


有监督方法将GRN推理问题划为边预测分类问题。监督方法不需要基于数据分布假设。可以灵活适用于不同分布。现有的有监督方法主要将两个基因表达分布投影到2d图像,非欧洲数据强制映射到网格图像上。伪图像输入到卷积或循环网络。

本文提出使用报告和研究证明的GRN作为先验拓扑知识,通过图编码器编码每个基因的表达模式,解码基因对的调控。

Methods

A. Encoder

使用单细胞转录数据和先验基因拓扑结构通过编码器获取基因节点的嵌入特征。假设具有调控关系的基因节点的基因表达数据应该相似。通过图神经网络的聚合,可以解决单机包RNA序列数据的dropout问题。编码器可以将先验的拓扑信息整合到基因节点的嵌入特征。

实现了4个不同的编码器结构

  1. 单层编码器,单个层的图神经网络,只能聚合一阶相邻节点的信息。

  2. 多层编码器,两层图神经网络,能聚合二阶相邻节点的信息。

  3. 多层级编码器,结合1的第一层输出和2的第二层输出

  4. 多通道编码器。结合两个不同平行的图神经网络。

1) GCN:

2) GAT:

B. Decoder

分别对TF和Gene用全连接层,加了个LeakyReLU( x<0 , x\times0.1 ) 结合这两个特征,Sigmoid预测概率。

C. Loss Function


1) BCE Loss:

2) FOCAL Loss:

D. Model Training and Validation

分训练集验证集测试集,

  • 训练:输入训练集训练 、,预测训练集

  • 验证:输入训练集验证集训练,预测验证集

  • 测试:输入所有数据,预测测试集

Experiments and Results

数据集 hESC and hHEP from the DGRNS
比较的模型 GNE、CNNC、DGRNS

Think

直接用attention训练输出?或者套个预训练先

IMRDriver: coding and non-coding cancer driver genes identification based on network propagation 基于网络传播的癌症驱动基因识别

2023.10.6

https://github.com/cczxsong/IMRDriver

Abstract

癌症驱动基因(CDG)预测的假阳率很高,分编码区也可能是CDG。IMRDriver 首先利用基因表达数据,拷贝数编译数据,单核苷酸变异数据,基因相互作用数据构建节点加权基因网络。将网络拓扑和反向网络传播结合给所有基因排名,考前的基因预测为CDG候选。

Introduction

驱动基因一般有较高的突变率,最近研究表示低突变率的基因也可能是驱动基因。区分驱动基因和其他基因在了解癌症发病机制和癌症靶向治疗中至关重要。

除了已知的单核苷酸变异,染色体结构畸变(拷贝数变异,插入,删除)也可能导致癌症的发生的进展。

有许多识别CDG的计算方法,大多基于突变或网络。基于突变的策略通过分析基因突变及相关特征识别,如 ActiveDriver CoMEtDriverMLMutSigCVOncodriveCLUST e-DriverDendrixiPACMSEAdeepDriverEPIMUTESTR。基于网络的方法通过交互网络评估相关基因的重要性来识别。

传统网络传播方法分为保守分布和非保守分布,保守分布在传播时有固定的 影响,非保守的大小不同。它们都根据当前节点的值去散布和评估多轮散布后节点的影响。为了重新评估节点的初始传播能力,需要将网络恢复到初始传播状态,尽管当前构建的网络状态已经是多轮传播的结果(即反向网络传播)。

Materials and Methods

A. Datasets


BRCA, LUAD, PRAD, BLCA, HNSC, LUSC, SKCM, and UCEC 8个癌症数据集。

B. IMRDriver

使用BioMart数据库将每个mRNA的ENsembl ID映射到基因符号,丢弃缺少基因符号的。具有同义基因符号的基因表达值在样本中进行平均。miRNA同样处理。然后归一化。

一个RNA就用一个数字表示? 感觉不太好。

不想看这篇了😭

Purification of tumor methylomes through residual decomposition

3. Purification of tumor methylomes through residual decomposition 通过残余分解纯化肿瘤甲基化组

httos://github.com/Xiaoc1izheng/InfiniumPuriR

Abstract

由于肿瘤组织的高度异质性,临床实验中获得的肿瘤样本的甲基化谱往往是来自不同细胞成分的混合信号,包括癌细胞、正常细胞和基质细胞等。其中,正常细胞的混合被认为是主要的。许多下游分析的混杂因素。将混合信号分解为其原始成分的概况对于准确的差异识别和患者分组至关重要。然而,即使给出了肿瘤纯度的可靠估计,仍然缺乏纯化肿瘤甲基化组的方法。在这项工作中,我们提出了 ResDec,一种用于肿瘤甲基化纯化的残差分解线性回归模型。我们在模拟数据和 TCGA 甲基化样本上系统地评估了我们的方法与现有方法的性能。 ResDec 在不同情况下始终取得更好的性能,包括不同数量的匹配正常样本、输入肿瘤纯度的扰动和匹配的正常甲基化组。

4. iCircDA-ENR: identification of circRNA-disease associations based on ensemble network representation 基于集成网络识别circRNA-disease关系

2023.10.9

Abstract

circRNA是多种生理和病理生命活动的重要调节因子。大多数预测方法都集中再识别已知的circRNA和disease中缺少的联系。由于它们生成能力有限且配对代表性不足,探测潜在的circRNA-disease联系很难。iCircDA-ENR 用于基于集成网络表示来识别 circRNA-disease关联,它引入多种生物信息和元路径构建异构关系网络,然后把不同的网络表示算法纳入排名框架中捕获丰富的网络特征。学习到的排名预测器根据查询circRNA和候选疾病的相关程度优先级排序。

Introduction

介绍了下 circRNA-disease

网络传播的方法通过在不同的生物网络里传播先验知识推理 circRNA-disease 联系。PWCDA在异构网络里搜索关系路径。许多网络的方法用到了KATZ策略。基于子空间学习和基于判别的方法,例如ICircDA-MF 和 DWNN-RLS 获取子空间特征和通过图正则化非负矩阵分解和正则化最小二乘恢复邻接矩阵。GBDTCDA通过结合多元生物信息预测circRNA-disease。iCDA-CGR引入Chaos Game Representation technology 提取特征,使用SVM预测。然后是卷积神经网络自动学习高纬特征

本文呢提出的方法把 circRNA-disease 的识别看成一个搜索网络。

Materials and Methods

A. Method Overview

首先构建异构网络,然后用3种网络提取网络结构特征,训练基于判别的模型计算关联分数,结合疾病相似向量构建成对的特征描述。

B. Heterogeneous network construction

网络包括circRNA相似性网络,disease相似性网络,circRNA和disease的二分关联网络。为了减轻circRNA-disease的稀疏,考虑的 circRNA-miRNA-disease 和circRNA-gene-disease。miRNA-disease和ene-disease从 HMDD3.2和DisGeNET数据库中下载,已知的circRNA-miRNA 和circRNA-gene 从CircFunBase和NPInter v4.0收集。miRNA和基因作为中间的联系。

由于伪k元组核苷酸组成(PseKNC)可以捕获全局和远程序列顺序信息,因此使用BioSeq-Analysis获得每个circRNA的PseKNC特征向量,然后使用它们计算相似性分数。疾病的层次关系由有向无环图表示。疾病的相似性计算和 第一篇 类似。

C. Ensemble network representation


iCircDA-MF 通过非负矩阵分解从构建的异构网络中学习子空间特征。

5. Discovering eQTL Regulatory Patterns Through eQTLMotif 揭露eQTL调控模式

Abstract

表达数量性状基因座 (eQTL) 分析对于了解基因组变异对组织特异性基因表达的调节功能非常重要,并且已广泛应用于从微生物到哺乳动物的各个物种。当前eQTL 主要集中于变异和基因之间一对一的调控。eQTLMotif 以多对多的凡是发现调控模式。框架包括两个步骤(1)集合二分eQTL网络,eQTL中介影响和基因调控网络构建一个新eQTL调控网络。(2)通过精确列举频繁出现的eQTL调控结构挖掘motif。

6. Phenotype Prediction by Heterogeneous Molecular Network Embedding 异构分子网络嵌入表型预测

Abstract

表型预测旨在基于基因组数据推断生物体的特征