二代测序数据 (hiseq X)
二代测序
- 经过各种酶的反应处理后,将测序片段经过PCR扩增进行复制,复制到足够多的数量,然后对单链进行测序
- 测序
- single read 单端测序,对要读取的序列单向测序
- paired-end 双端测序(主流)对一序列分别进行双向测序,两个方向的测序数据是反向互补的
- 双端测序是一段序列两个方向的分别测序,Read 1 和 Read 2 分别保存在不同的 fastq 文件中,而且每一对 Read 1 和 Read 2 都具有相同的 ID,双端测序中每一个单独的 Read 其长度都超过整个待测序列的一半,所以可以根据两个 Reads 重合的部分进行拼接
常用的双端测序拼接软件有 ABYSS 和 h
fastq.gz文件查看
zcat是一个命令行实用程序,用于查看压缩文件的内容,而无需对其进行解压缩。 它将压缩文件扩展为标准输出,使您可以查看其内容。 另外,zcat与运行gunzip -c命令完全相同。
- -S:指定gzip格式的压缩包的后缀。当后缀不是标准压缩包后缀时使用此选项;
- -c:将文件内容写到标注输出;
- -d:执行解压缩操作;
- -l:显示压缩包中文件的列表;
- -L:显示软件许可信息;
- -q:禁用警告信息;
- -r:在目录上执行递归操作;
- -t:测试压缩文件的完整性;
- -V:显示指令的版本信息;
- -l:更快的压缩速度;
- -9:更高的压缩比。
fastq 文件格式
FASTQ格式文件中每个read由四行描述,如下:
- 其中第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);格式如下
@instrument:run number:flowcell ID:lane:tile:x-pos:y-pos read:is filtered:control number:sample number
其中 read : 1 表示单端测序,2表示双端测序 (Read number. 1 can be single read or Read 2 of paired-end) - 第二行是碱基序列;
- 第三行以“+”开头,随后为Illumina 测序标识符(选择性部分);
- 第四行是对应序列的测序质量。 使用 Q +33 编码,使用ASCII编码表示 , Q = -10log10(e),e是预估的碱基错误检出率,Q值高表示错误率低
例如!的ACSCII为33,Q=33-33=0,e=1,表示错误率为1
三代测序数据 (pacbio)
BAM format specification for PacBio
bam/sam sam
-
bam和sam其实是同一种文件,bam是sam的二进制表示,便于存储和运算
-
注释信息以@开头
@HD,说明符合标准的版本、对比序列的排列顺序;
@SQ,参考序列说明;
@RG,比对上的序列(read)说明;
@PG,使用的程序说明;
@CO,任意的说明信息。 -
除注释外每行是一个Read,每行由11个必须字段和1个可选的字段组成,字段可以定义为‘0’或者‘*’
- QNAME 比对片段的(template)的编号;read name,read的名字通常包括测序平台等信息
eg.{movieName}/{holeNumber}/{qStart}_{qEnd}
[qStart, qEnd)是ZMW read中的间隔 - FLAG 位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;flag取值见备注
eg.16
- RNAME 参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是'*';
eg.chr1
- POS 比对上的位置,注意是从1开始计数,没有比对上,此处为0;
eg.36576599
- MAPQ mappint的质量,,比对的质量分数,越高说明该read比对到参考基因组上的位置越唯一;
eg.42
- CIGAR 简要比对信息表达式(Compact Idiosyncratic Gapped Alignment Report),其以参考序列为基础,使用数字加字母表示比对结果,match/mismatch、insertion、deletion 对应字母 M、I、D。比如3S6M1P1I4M,前三个碱基被剪切去除了,然后6个比对上了,然后打开了一个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;
eg.36M 表示36个碱基在比对时完全匹配
在pacbio中M是被禁用的,用含义更清楚的"X"(BAM_CDIFF) 和"=" (BAM_CEQUAL)代替
注:第七列到第九列是mate(备注1)的信息,若是单末端测序这几列均无意义
- RNEXT 下一个片段(即mate)比对上的参考序列的编号,没有另外的片段,这里是'*',同一个片段,用'=';
eg.*
- PNEXT 下一个片段(即mate)比对到参考序列上的第一个碱基位置,若无mate,则为0;
eg.0
- TLEN Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0(ISIZE,Inferred fragment size.详见Illumina中paired end sequencing 和 mate pair sequencing,是负数,推测应该是两条read之间的间隔(待查证),若无mate则为0);
eg.0
- SEQ 序列片段的序列信息,如果不存储此类信息,此处为'*',注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;
eg.CGTTTCTGTGGGTGATGGGCCTGAGGGGCGTTCTCN
- QUAL 序列的质量信息,read质量的ASCII编码。,格式同FASTQ一样。
eg.PY[[YY_______________QQQQbILKIGEFGKB
- 第十二列之后:Optional fields,以tab建分割。
eg.AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
- QNAME 比对片段的(template)的编号;read name,read的名字通常包括测序平台等信息
-
可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。
- qs i 在 ZWM read 中开始的位置
- qe i 在 ZWM read 中结束的位置
- zm i ZMW hole number
- np i NumPasses (1 for subreads, variable for CCS—encodes number of complete passes of the insert)
- rq f [0,1]的浮点数,表示编码的期望准确率
- sn B,f 4个浮点数,分别表示A、C、G、T的平均信噪比
- ip B,C or B,S IPD (raw frames or codec V1) 脉冲间隔
- pw B,C or B,S PulseWidth (raw frames or codec V1) 脉冲宽度
组装结果
fasta文件,组装序列
- 描述行(定义行)或标题行以“>”开始,紧随着序列的名称和/或唯一标识符
- 之后是一行或多行构成的序列数据,其中每行的长度应短于80字符。
gff文件 注释基因组
gff是纯文本文件,由tab键隔开的9列组成
- Column 1: seqid 序列的编号
- Column 2: source 注释信息的来源,比如"Genescan"、"Genbank"等,可以为空,为空用"."点号代替
- Column 3: type 注释信息的类型,比如Gene、cDNA、mRNA等,或者是SO对应的编号
- Columns 4 & 5: start and end 开始与结束的位置,注意计数是从1开始的。结束位置不能大于序列的长度
- Column 6: score 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值。"."表示为空。
- Column 7: strand 序列的方向, +表示正义链, -反义链 , ? 表示未知.
- Column 8: phase 仅对注释类型为 "CDS"有效,表示起始编码的位置,有效值为0、1、2。
- Column 9: attributes 属性。一个包含众多属性的列表,格式为“标签=值”(tag=value),不同属性之间以分号相隔,这一列最后没有分号。
- ID 注释信息的编号,在一个GFF文件中必须唯一;
- Name 注释信息的名称,可以重复;
- Alias 别名
- Parent 它表明了当前的特征是Parent特征的子集。用于将exons聚集成transcript,将transripts聚集成gene。
- Gap
几种类型
DNA:不多说;
genome:一个物种的全部遗传物质,真核生物包括核基因和质基因;
gene:按最新的分子生物学解释,包括表达这个基因产物的全部DNA序列,包括ORF序列,内含子外显子,启动子,3'UTR,5'UTR,以及调控区;
ORF:在mRNA上从起始密码子到终止密码子之间的一段序列,该段序列可能编码蛋白质,也可能不编码;
CDS:能翻译成氨基酸序列的DNA序列,从起始密码子到终止密码子,也就是说CDS与所翻译的氨基酸序列存在严格的3对1的关系;
mRNA:基因转录后加工成熟用于翻译蛋白质的序列,包括ORF(此时ORF与CDS相同)序列,3'UTR,5'UTR,5'帽子及3'Poly (A)尾;
hnRNA:核不均一RNA,是指转录获得的最原始序列,没有经过任何加工,序列包含从转录起始位点到转录终止位点的全部序列;
cDNA:通过mRNA反转录所得,与mRNA序列互补的单链DNA或者与mRNA对应的DNA双链;
EST:表达序列标签,是指从一个随机选择的cDNA 克隆,进行5’端和3’端单一次测序挑选出来获得的短的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。由于cDNA文库的复杂性和测序的随机性,有时多个EST代表同一基因或基因组,将其归类形成EST簇(EST cluster);
几者关系:
1、DNA就是表示一段脱氧核糖核酸序列;
2、包含关系:gene ∈ genome;EST ∈ cDNA;CDS ∈ ORF;mRNA ∈ hnRNA
说明:基因组上包含若干基因,不多说;一段mRNA上可能包含很多个ORF(只要是以起始密码子开始,终止密码子结束),但是只有能翻译成蛋白质的ORF才能称之为CDS;EST序列是在随机测序过程中获得的cDNA序列的一部分;hnRNA需要经过加工,生成成熟的功能RNA,一条hnRNA可能加工成多条mRNA,也有可能不加工成mRNA而是其他功能RNA,如rRNA,tRNA,核酶等;
3、映射关系:mRNA & cDNA
mRNA与cDNA单链互补,且A与U互补