测序数据解释

编辑 / Bioinformatics / 发布于2021-03-22 / 更新于2023-03-16 / 阅读 371

二代测序数据 (hiseq X)

二代测序

  1. 经过各种酶的反应处理后,将测序片段经过PCR扩增进行复制,复制到足够多的数量,然后对单链进行测序
  2. 测序
    1. single read 单端测序,对要读取的序列单向测序
    2. paired-end 双端测序(主流)对一序列分别进行双向测序,两个方向的测序数据是反向互补的
  3. 双端测序是一段序列两个方向的分别测序,Read 1 和 Read 2 分别保存在不同的 fastq 文件中,而且每一对 Read 1 和 Read 2 都具有相同的 ID,双端测序中每一个单独的 Read 其长度都超过整个待测序列的一半,所以可以根据两个 Reads 重合的部分进行拼接

常用的双端测序拼接软件有 ABYSS 和 h

fastq.gz文件查看

zcat是一个命令行实用程序,用于查看压缩文件的内容,而无需对其进行解压缩。 它将压缩文件扩展为标准输出,使您可以查看其内容。 另外,zcat与运行gunzip -c命令完全相同。

  • -S:指定gzip格式的压缩包的后缀。当后缀不是标准压缩包后缀时使用此选项;
  • -c:将文件内容写到标注输出;
  • -d:执行解压缩操作;
  • -l:显示压缩包中文件的列表;
  • -L:显示软件许可信息;
  • -q:禁用警告信息;
  • -r:在目录上执行递归操作;
  • -t:测试压缩文件的完整性;
  • -V:显示指令的版本信息;
  • -l:更快的压缩速度;
  • -9:更高的压缩比。

fastq 文件格式

FASTQ格式文件中每个read由四行描述,如下:

  1. 其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);格式如下
    @instrument:run number:flowcell ID:lane:tile:x-pos:y-pos read:is filtered:control number:sample number
    其中 read : 1 表示单端测序,2表示双端测序 (Read number. 1 can be single read or Read 2 of paired-end)
  2. 第二行是碱基序列;
  3. 第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);
  4. 第四行是对应序列的测序质量。 使用 Q +33 编码,使用ASCII编码表示 , Q = -10log10(e),e是预估的碱基错误检出率,Q值高表示错误率低
    例如!的ACSCII为33,Q=33-33=0,e=1,表示错误率为1

三代测序数据 (pacbio)

BAM format specification for PacBio

bam/sam sam

  1. bam和sam其实是同一种文件,bam是sam的二进制表示,便于存储和运算

  2. 注释信息以@开头
    @HD,说明符合标准的版本、对比序列的排列顺序;
    @SQ,参考序列说明;
    @RG,比对上的序列(read)说明;
    @PG,使用的程序说明;
    @CO,任意的说明信息。

  3. 除注释外每行是一个Read,每行由11个必须字段和1个可选的字段组成,字段可以定义为‘0’或者‘*’

    1. QNAME 比对片段的(template)的编号;read name,read的名字通常包括测序平台等信息 eg.{movieName}/{holeNumber}/{qStart}_{qEnd} [qStart, qEnd)是ZMW read中的间隔
    2. FLAG 位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;flag取值见备注 eg.16
    3. RNAME 参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是'*';eg.chr1
    4. POS 比对上的位置,注意是从1开始计数,没有比对上,此处为0; eg.36576599
    5. MAPQ mappint的质量,,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一; eg.42
    6. CIGAR 简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,match/mismatch、insertion、deletion 对应字母 M、I、D。比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;eg.36M 表示36个碱基在比对时完全匹配
      在pacbio中M是被禁用的,用含义更清楚的"X"(BAM_CDIFF) 和"=" (BAM_CEQUAL)代替

    注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义

    1. RNEXT 下一个片段(即mate)比对上的参考序列的编号,没有另外的片段,这里是'*',同一个片段,用'=';eg.*
    2. PNEXT 下一个片段(即mate)比对到参考序列上的第一个碱基位置,若无mate,则为0;eg.0
    3. TLEN Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0(ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0); eg.0
    4. SEQ 序列片段的序列信息,如果不存储此类信息,此处为'*',注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
    5. QUAL 序列的质量信息,read质量的ASCII编码。,格式同FASTQ一样。eg.PY[[YY_______________QQQQbILKIGEFGKB
    6. 第十二列之后:Optional fields,以tab建分割。eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
  4. 可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。

    • qs i 在 ZWM read 中开始的位置
    • qe i 在 ZWM read 中结束的位置
    • zm i ZMW hole number
    • np i NumPasses (1 for subreads, variable for CCS—encodes number of complete passes of the insert)
    • rq f [0,1]的浮点数,表示编码的期望准确率
    • sn B,f 4个浮点数,分别表示A、C、G、T的平均信噪比
    • ip B,C or B,S IPD (raw frames or codec V1) 脉冲间隔
    • pw B,C or B,S PulseWidth (raw frames or codec V1) 脉冲宽度

组装结果

fasta文件,组装序列

  1. 描述行(定义行)或标题行以“>”开始,紧随着序列的名称和/或唯一标识符
  2. 之后是一行或多行构成的序列数据,其中每行的长度应短于80字符。

gff文件 注释基因组

gff是纯文本文件,由tab键隔开的9列组成

  1. Column 1: seqid 序列的编号
  2. Column 2: source 注释信息的来源,比如"Genescan"、"Genbank"等,可以为空,为空用"."点号代替
  3. Column 3: type 注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号
  4. Columns 4 & 5: start and end 开始与结束的位置,注意计数是从1开始的。结束位置不能大于序列的长度
  5. Column 6: score 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。"."表示为空。
  6. Column 7: strand 序列的方向, +表示正义链, -反义链 , ? 表示未知.
  7. Column 8: phase 仅对注释类型为 "CDS"有效,表示起始编码的位置,有效值为0、1、2。
  8. Column 9: attributes 属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔,这一列最后没有分号。
    • ID 注释信息的编号,在一个GFF文件中必须唯一;
    • Name 注释信息的名称,可以重复;
    • Alias 别名
    • Parent 它表明了当前的特征是Parent特征的子集。用于将exons聚集成transcript,将transripts聚集成gene。
    • Gap

几种类型

DNA:不多说;
genome:一个物种的全部遗传物质,真核生物包括核基因和质基因;
gene:按最新的分子生物学解释,包括表达这个基因产物的全部DNA序列,包括ORF序列,内含子外显子,启动子,3'UTR,5'UTR,以及调控区;
ORF:在mRNA上从起始密码子到终止密码子之间的一段序列,该段序列可能编码蛋白质,也可能不编码;
CDS:能翻译成氨基酸序列的DNA序列,从起始密码子到终止密码子,也就是说CDS与所翻译的氨基酸序列存在严格的3对1的关系;
mRNA:基因转录后加工成熟用于翻译蛋白质的序列,包括ORF(此时ORF与CDS相同)序列,3'UTR,5'UTR,5'帽子及3'Poly (A)尾;
hnRNA:核不均一RNA,是指转录获得的最原始序列,没有经过任何加工,序列包含从转录起始位点到转录终止位点的全部序列;
cDNA:通过mRNA反转录所得,与mRNA序列互补的单链DNA或者与mRNA对应的DNA双链;
EST:表达序列标签,是指从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性,有时多个EST代表同一基因或基因组,将其归类形成EST簇(EST cluster);
几者关系:
1、DNA就是表示一段脱氧核糖核酸序列;
2、包含关系:gene ∈ genome;EST ∈ cDNA;CDS ∈ ORF;mRNA ∈ hnRNA
说明:基因组上包含若干基因,不多说;一段mRNA上可能包含很多个ORF(只要是以起始密码子开始,终止密码子结束),但是只有能翻译成蛋白质的ORF才能称之为CDS;EST序列是在随机测序过程中获得的cDNA序列的一部分;hnRNA需要经过加工,生成成熟的功能RNA,一条hnRNA可能加工成多条mRNA,也有可能不加工成mRNA而是其他功能RNA,如rRNA,tRNA,核酶等;
3、映射关系:mRNA & cDNA
mRNA与cDNA单链互补,且A与U互补