文件格式
常用文件格式有fa、sam、bam
- sam一般是比对后的序列信息
- bam是sam的二进制表示,占用空间比sam小得多,二者之间可以相互转化
bwa
- bwa使用时首先需要建立参考序列的索引
bwa index refer.fa
- 想要将reads比对到参考序列时
bwa mem refer.fa reads.fq > result.sam
samtools
- 将bam文件转化成fastq文件
samtools bam2fq -s abc.fq abc.bam
- 将sam文件转化成bam文件
samtools view -b -S abc.sam > abc.bam
- 提取比对到参考序列上的比对结果
samtools view -b -F 4 abc.bam > abc.F.bam
samtools view -b -S -F 4 abc.sam > abc.F.bam
- bam文件转化为sam文件
samtools view -h abc.bam > abc.sam
- 提取fastq中的基因
#首先为利用faidx为fasta文件建立索引
samtools faidx input.fa
#创建索引之后就可以快速提取了
samtools faidx input.fa gene3 gene5
samtools faidx input.fa chr1:100-200 > chr1.fa
- sort
samtools sort in.bam -o out.sort.bam
- 可视化查看比对结果(查看序列gene1,400bp开始的比对结果)
samtools tview in.sorted.bam ref.fa -p gene1:400
blast
-
构建数据库
makeblastdb -in genome.fasta -dbtype nucl -parse_seqids -out ./index -
将核苷酸序列比对至核苷酸数据库
blastn -query input.fa -db ./index -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file第1列:输入序列的名称。
第2列:比对到的目标序列名称。
第3列:序列相似度。
第4列:比对的有效长度。
第5列:错配数。
第6列:gap数。
第7-8列:输入序列比对上的起始和终止位置。
第9-10列:比对到目标序列的起始和终止位置。
第11列:e-value。e-value低于1e-5就可认为序列具有较高的同源性。
第12列:比对得分
如果想要知道序列每个碱基的比对情况,删去outfmt参数即可。 -
centos挂载windows共享文件夹
首先需要安装cifs-ufils
yum install cifs-ufils
然后挂载
mount -t cifs -o username=xxx //shared_link/path /mount_path
Bowtie2 是将测序reads与长参考序列比对工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组(如哺乳动物)进行比对。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。
Xshell 上传下载文件
- rz 上传到Linux上
- sz file 下载到本地电脑上