测序数据解释

二代测序数据 (hiseq X)

二代测序

经过各种酶的反应处理后，将测序片段经过PCR扩增进行复制，复制到足够多的数量，然后对单链进行测序
测序
1. single read 单端测序，对要读取的序列单向测序
2. paired-end 双端测序（主流）对一序列分别进行双向测序，两个方向的测序数据是反向互补的
双端测序是一段序列两个方向的分别测序，Read 1 和 Read 2 分别保存在不同的 fastq 文件中，而且每一对 Read 1 和 Read 2 都具有相同的 ID，双端测序中每一个单独的 Read 其长度都超过整个待测序列的一半，所以可以根据两个 Reads 重合的部分进行拼接

常用的双端测序拼接软件有 ABYSS 和 h

fastq.gz文件查看

zcat是一个命令行实用程序，用于查看压缩文件的内容，而无需对其进行解压缩。它将压缩文件扩展为标准输出，使您可以查看其内容。另外，zcat与运行gunzip -c命令完全相同。

-S：指定gzip格式的压缩包的后缀。当后缀不是标准压缩包后缀时使用此选项；
-c：将文件内容写到标注输出；
-d：执行解压缩操作；
-l：显示压缩包中文件的列表；
-L：显示软件许可信息；
-q：禁用警告信息；
-r：在目录上执行递归操作；
-t：测试压缩文件的完整性；
-V：显示指令的版本信息；
-l：更快的压缩速度；
-9：更高的压缩比。

fastq 文件格式

FASTQ格式文件中每个read由四行描述，如下：

其中第一行以“@”开头，随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分)；格式如下
@instrument:run number:flowcell ID:lane:tile:x-pos:y-pos read:is filtered:control number:sample number
其中 read ： 1 表示单端测序，2表示双端测序（Read number. 1 can be single read or Read 2 of paired-end）
第二行是碱基序列；
第三行以“+”开头，随后为Illumina 测序标识符(选择性部分)；
第四行是对应序列的测序质量。使用 Q +33 编码，使用ASCII编码表示 , Q = -10log10(e)，e是预估的碱基错误检出率，Q值高表示错误率低
例如!的ACSCII为33,Q=33-33=0，e=1,表示错误率为1

三代测序数据 (pacbio)

BAM format specification for PacBio

bam/sam sam

bam和sam其实是同一种文件，bam是sam的二进制表示，便于存储和运算
注释信息以@开头
@HD，说明符合标准的版本、对比序列的排列顺序；
@SQ，参考序列说明；
@RG，比对上的序列（read）说明；
@PG，使用的程序说明；
@CO，任意的说明信息。
除注释外每行是一个Read，每行由11个必须字段和1个可选的字段组成，字段可以定义为‘0’或者‘*’
1. QNAME 比对片段的（template）的编号；read name，read的名字通常包括测序平台等信息 eg.{movieName}/{holeNumber}/{qStart}_{qEnd} [qStart, qEnd)是ZMW read中的间隔
2. FLAG 位标识，template mapping情况的数字表示，每一个数字代表一种比对情况，这里的值是符合情况的数字相加总和；flag取值见备注 eg.16
3. RNAME 参考序列的编号，如果注释中对SQ-SN进行了定义，这里必须和其保持一致，另外对于没有mapping上的序列，这里是'*'；eg.chr1
4. POS 比对上的位置，注意是从1开始计数，没有比对上，此处为0; eg.36576599
5. MAPQ mappint的质量,，比对的质量分数，越高说明该read比对到参考基因组上的位置越唯一; eg.42
6. CIGAR 简要比对信息表达式（Compact Idiosyncratic Gapped Alignment Report），其以参考序列为基础，使用数字加字母表示比对结果，match/mismatch、insertion、deletion 对应字母 M、I、D。比如3S6M1P1I4M，前三个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了，是按照顺序的；eg.36M 表示36个碱基在比对时完全匹配
  在pacbio中M是被禁用的，用含义更清楚的"X"(BAM_CDIFF) 和"=" (BAM_CEQUAL)代替
注：第七列到第九列是mate(备注1)的信息，若是单末端测序这几列均无意义
1. RNEXT 下一个片段（即mate）比对上的参考序列的编号，没有另外的片段，这里是'*'，同一个片段，用'='；eg.*
2. PNEXT 下一个片段（即mate）比对到参考序列上的第一个碱基位置，若无mate,则为0；eg.0
3. TLEN Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，不分区段（single-segment)的比对上，或者不可用时，此处为0(ISIZE，Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing，是负数，推测应该是两条read之间的间隔(待查证)，若无mate则为0); eg.0
4. SEQ 序列片段的序列信息，如果不存储此类信息，此处为'*'，注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度；eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
5. QUAL 序列的质量信息,read质量的ASCII编码。，格式同FASTQ一样。eg.PY[[YY_______________QQQQbILKIGEFGKB
6. 第十二列之后：Optional fields，以tab建分割。eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
可选字段（optional fields)，格式如：TAG:TYPE:VALUE，其中TAG有两个大写字母组成，每个TAG代表一类信息，每一行一个TAG只能出现一次，TYPE表示TAG对应值的类型，可以是字符串、整数、字节、数组等。
- qs i 在 ZWM read 中开始的位置
- qe i 在 ZWM read 中结束的位置
- zm i ZMW hole number
- np i NumPasses (1 for subreads, variable for CCS—encodes number of complete passes of the insert)
- rq f [0,1]的浮点数，表示编码的期望准确率
- sn B,f 4个浮点数，分别表示A、C、G、T的平均信噪比
- ip B,C or B,S IPD (raw frames or codec V1) 脉冲间隔
- pw B,C or B,S PulseWidth (raw frames or codec V1) 脉冲宽度

组装结果

fasta文件，组装序列

描述行（定义行）或标题行以“>”开始，紧随着序列的名称和/或唯一标识符
之后是一行或多行构成的序列数据，其中每行的长度应短于80字符。

gff文件注释基因组

gff是纯文本文件，由tab键隔开的9列组成

Column 1: seqid 序列的编号
Column 2: source 注释信息的来源，比如"Genescan"、"Genbank"等，可以为空，为空用"."点号代替
Column 3: type 注释信息的类型，比如Gene、cDNA、mRNA等，或者是SO对应的编号
Columns 4 & 5: start and end 开始与结束的位置，注意计数是从1开始的。结束位置不能大于序列的长度
Column 6: score 得分，数字，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值。"."表示为空。
Column 7: strand 序列的方向， +表示正义链, -反义链 , ? 表示未知.
Column 8: phase 仅对注释类型为 "CDS"有效，表示起始编码的位置，有效值为0、1、2。
Column 9: attributes 属性。一个包含众多属性的列表，格式为“标签＝值”（tag=value），不同属性之间以分号相隔，这一列最后没有分号。
- ID 注释信息的编号，在一个GFF文件中必须唯一；
- Name 注释信息的名称，可以重复；
- Alias 别名
- Parent 它表明了当前的特征是Parent特征的子集。用于将exons聚集成transcript，将transripts聚集成gene。
- Gap

几种类型

DNA：不多说；
genome：一个物种的全部遗传物质，真核生物包括核基因和质基因；
gene：按最新的分子生物学解释，包括表达这个基因产物的全部DNA序列，包括ORF序列，内含子外显子，启动子，3'UTR，5'UTR，以及调控区；
ORF：在mRNA上从起始密码子到终止密码子之间的一段序列，该段序列可能编码蛋白质，也可能不编码；
CDS：能翻译成氨基酸序列的DNA序列，从起始密码子到终止密码子，也就是说CDS与所翻译的氨基酸序列存在严格的3对1的关系；
mRNA:基因转录后加工成熟用于翻译蛋白质的序列，包括ORF（此时ORF与CDS相同）序列，3'UTR，5'UTR，5'帽子及3'Poly (A)尾；
hnRNA:核不均一RNA，是指转录获得的最原始序列，没有经过任何加工，序列包含从转录起始位点到转录终止位点的全部序列；
cDNA：通过mRNA反转录所得，与mRNA序列互补的单链DNA或者与mRNA对应的DNA双链；
EST：表达序列标签，是指从一个随机选择的cDNA 克隆，进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分，在数据库中其长度一般从20 到7000bp 不等，平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性，有时多个EST代表同一基因或基因组，将其归类形成EST簇（EST cluster)；
几者关系：
1、DNA就是表示一段脱氧核糖核酸序列；
2、包含关系：gene ∈ genome；EST ∈ cDNA；CDS ∈ ORF；mRNA ∈ hnRNA
说明：基因组上包含若干基因，不多说；一段mRNA上可能包含很多个ORF（只要是以起始密码子开始，终止密码子结束），但是只有能翻译成蛋白质的ORF才能称之为CDS；EST序列是在随机测序过程中获得的cDNA序列的一部分；hnRNA需要经过加工，生成成熟的功能RNA，一条hnRNA可能加工成多条mRNA，也有可能不加工成mRNA而是其他功能RNA，如rRNA，tRNA，核酶等；
3、映射关系：mRNA & cDNA
mRNA与cDNA单链互补，且A与U互补

二代测序数据 (hiseq X)

二代测序

常用的双端测序拼接软件有 ABYSS 和 h

fastq.gz文件查看

fastq 文件格式

三代测序数据 (pacbio)

bam/sam sam

组装结果

fasta文件，组装序列

gff文件 注释基因组

几种类型

gff文件注释基因组