Accurate Binning of Metagenomic Contigs Using Composition, Coverage, and Assembly Graphs

编辑 / 发布于2024-09-12 / 更新于2024-09-13 / 阅读 23

ABSTRACT

  1. Metagenomic 作用是什么

  2. Metagenomic 的流程是什么

  3. 目前软件可以改进的地方

  4. 本文提出的MetaCoAG简述,然后方法的结果和突破。

Metagenomic 可以恢复不同物种的不同基因原料,可以给微生物社区提供有效的信息。Metagenomic bin不同组织的序列,然后将短read组装成更长的contig,然后将这些contig分类的不同的组中,代表宏基因组样本中不同的分类的组。目前的软件没有用到组装图。本文提出的MetaCoAG使用了组装图和contig的覆盖信息,用single-copy marker gene 估计初始bins的数量,迭代的将contigs分配到bin中,通过binning 过程动态调整bins的数量,比其他结果都好,而且是以第一个直接使用了组装图的方法。

INTRODUCTION

  1. Metagenomic的背景及为什么需要

  2. Metagenomic 目前的工具的流程

  3. 为什么 reference-free的越来越流行

  4. reference-free的主要用的特征

  5. 目前最新的工具介绍

  6. 本文使用marker的介绍

  7. 之前工具的缺陷的点

  8. 为什么需要本文的工具

  9. 本文工具介绍

二代数据的出现,Metagenomic 的背景,直接从环境样本中测序,识别样本的组成和存在的微生物,可以用来对下游分析,为了促进这种分析,Metagenomic

在组装前 bin这些reads,因为read长度限制,所以不太可靠,因此,流行的宏基因组流程的分析是先将短reads组装成更长的contig,然后将这些contigs 分到不同组中,代表不同的分类群,contigs的bins有助于构建组装的宏基因组,代表部分生物完整的基因组。

最新的contig-binning方法主要有两类

  1. 基于reference的,通过与参考序列进行比较,对带有已知分类组特征的 contig 进行分类,

  2. 不基于reference的,将contig根据它们的genomic特征,聚类到未知标签的bins中,

之前是基于reference的,但由于reference可能不完整或者质量低,而且之前未识别的微生物参考基因组可能不可靠,因此,不基于reference的越来越多,并且它们可以不依赖参考数据库识别新物种。

不基于reference的主要使用两个特征去bin(分箱)

  1. 组成:以 k-mer 的归一化频率获得

  2. 覆盖深度,比对到contig每个碱基的read的平均覆盖深度,这些工具通过结合这两个信息,提升了性能。

最新的Vamb、LRbinner、RepBin采用机器学习去获取种类序列的信号到低纬特征,促进聚类。然而准确重建相似组成和覆盖深度的仍具挑战。

估计样本中的样本数量是宏基因组中的另外的一个挑战,最近的binning 工具采用single-copy marker gene (在基因组中只出现一次,并且出现在大多数细菌基因组中)估计种类的数量。MaxBin ,MaxBin2 and SolidBin 用到了这个信息,但他们只有了一个marker,所以值得探索如何用多个marker获取一个更好的bins数量的估计结果,获取过呢更多的contig的特征提升bin

Special assemblers known as metagenomic ,大多数组装工具使用 assembly graph作为主要的结构,简化DBG图获的contig。metaSPAdes 输出的contig中带有连接信息,但现有的bins工具忽略了contig中有效的连接信息。

最近的bin-refinement工具。GraphBin,GraphBin2,METAMVGL and GraphPlas 优化bins 结果,这些工具依靠目前的binning 工具并且不能动态的调整bins的数量。此外罪行的metabinner DAS和MetaWRAP整合和优化了多种binning方法的结果。尽管这些工具都提升了binning的性能,他们仍然需要其他现有binning工具的结果,并且有些不能动态调整bins的数量。因此值得探索一个单独的contig-bin工具,使用assembly graph信息,compositing 和 coverage 信息。

MetaCoAG 不使用reference ,binning metagenomic 的方法。

比对实验中好像没和refinement后的binning结果比较?

METHODS

Step 0: Assemble reads into contigs and construct the assembly graph

用metaSPAdes 获取contigs和assembly graph,输入到MetaCoAG。 也可以使用其他工具的产生的assembly graph 像MEGAHIT和metaFlye

Step 1: Identify contigs with single-copy marker genes

Single-copy marker gene 是特殊的marker gene 在细菌的基因组中只出现一次,并且在大多数的细菌染色体中都出现(conserverd)。用FragGeneScan 和 HMMER 识别包含 marker的contigs。如果marker的50%以上可以比对到一个contig,这个marker被认为被包含在这个contig。像MaxBin,MaxBin2 和 SolidBin,MetaCoAG使用marker识别属于不同物种的contigs,如果多个contig包含相同的marker,它们分别都属于不同的物种。

Step 2: Order single-copy marker genes and estimate the number of initial bins

包含相一个marker的contigs应该来自不同的物种,理想情况下,包含相同marker的contig数量就是样本中物种的数量,实际上组装的不完整性(fragmented)和错误,会降低包含一个marker的contig数量。

将marker按照包含它的contig的数量降序排序,这个列表称为SMG,每个marker g_i,有一个包含它的contig的集合C(g_i) , 初始bins的数量设置为第一个SMG中第一个marker gene的contig数量。

Step 3: Bin contigs with single-copy marker genes

Step 3a: Initialize bins

第一个marker gene中,每个contig初始化为一个bin,bin的数量在binning的过程中会改变的。

Calculating composition and coverage similarities.

最常用的表征组成信息的基因组特征是核苷酸频率,使用总核苷酸数量标准化每个每个contig的核苷酸频率,获得它们的向量tetra(c)

S_{comp}(c‚ c') = \frac {N_{intra}(d_{tetra}(c‚ c')| \mu_{intra}, \sigma^2_{intra} )} {N_{intra}(d_{tetra}(c‚ c')| \mu_{intra}, \sigma^2_{intra} ) + N_{inter}(d {tetra}(c‚ c')| \mu_{inter}, \sigma^2_{inter} )}

𝑆_{𝑐⁢𝑜⁢𝑣}⁡(𝑐,𝑐')=min⁡(\prod_{n=1}^𝑀 𝑃⁢𝑜⁢𝑖⁢𝑠⁢𝑠⁢𝑜⁢𝑛⁡(𝑐⁢𝑜⁢𝑣_𝑛⁡(𝑐)|𝑐⁢𝑜⁢𝑣_𝑛⁡(𝑐')),\prod_{n=1}^𝑀 𝑃⁢𝑜⁢𝑖⁢𝑠⁢𝑠⁢𝑜⁢𝑛⁡(𝑐⁢𝑜⁢𝑣_𝑛⁡(𝑐')|𝑐⁢𝑜⁢𝑣_𝑛⁡(𝑐)))

Step 3b: Construct a weighted bipartite graph and find a minimum-weight full matching

Step 3c: Assign contigs to existing bins and dynamically adjust bins.

EXPERIMENTAL SETUP

RESULTS AND DISCUSSION

DISCUSSION AND CONCLUSION