基因组文件处理

编辑 / Bioinformatics / 发布于2021-03-17 / 更新于2023-03-16 / 阅读 448

文件格式

常用文件格式有fa、sam、bam

  1. sam一般是比对后的序列信息
  2. bam是sam的二进制表示,占用空间比sam小得多,二者之间可以相互转化

bwa

  1. bwa使用时首先需要建立参考序列的索引
  bwa index refer.fa
  1. 想要将reads比对到参考序列时
    bwa mem refer.fa reads.fq > result.sam 

samtools

  1. 将bam文件转化成fastq文件
samtools bam2fq -s abc.fq abc.bam 
  1. 将sam文件转化成bam文件
samtools view -b -S abc.sam > abc.bam
  1. 提取比对到参考序列上的比对结果
samtools view -b -F 4 abc.bam > abc.F.bam
samtools view -b -S -F 4 abc.sam > abc.F.bam

  1. bam文件转化为sam文件
samtools view -h abc.bam > abc.sam
  1. 提取fastq中的基因
#首先为利用faidx为fasta文件建立索引
samtools faidx input.fa
#创建索引之后就可以快速提取了
samtools faidx input.fa gene3 gene5
samtools faidx input.fa chr1:100-200 > chr1.fa
  1. sort
samtools sort in.bam -o out.sort.bam
  1. 可视化查看比对结果(查看序列gene1,400bp开始的比对结果)
samtools tview in.sorted.bam ref.fa -p gene1:400

blast

  1. 构建数据库
    makeblastdb -in genome.fasta -dbtype nucl -parse_seqids -out ./index

  2. 将核苷酸序列比对至核苷酸数据库
    blastn -query input.fa -db ./index -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file

    第1列:输入序列的名称。
    第2列:比对到的目标序列名称。
    第3列:序列相似度。
    第4列:比对的有效长度。
    第5列:错配数。
    第6列:gap数。
    第7-8列:输入序列比对上的起始和终止位置。
    第9-10列:比对到目标序列的起始和终止位置。
    第11列:e-value。e-value低于1e-5就可认为序列具有较高的同源性。
    第12列:比对得分
    如果想要知道序列每个碱基的比对情况,删去outfmt参数即可。

  3. centos挂载windows共享文件夹
    首先需要安装cifs-ufils

yum install cifs-ufils

然后挂载

mount -t cifs -o username=xxx //shared_link/path /mount_path

Bowtie2 是将测序reads与长参考序列比对工具。适用于将长度大约为50到100或1000字符的reads与相对较长的基因组(如哺乳动物)进行比对。Bowtie2使用FM索引(基于Burrows-Wheeler Transform 或 BWT)对基因组进行索引,以此来保持其占用较小内存。对于人类基因组来说,内存占用在3.2G左右。Bowtie2 支持间隔,局部和双端对齐模式。可以同时使用多个处理器来极大的提升比对速度。

Xshell 上传下载文件

  1. rz 上传到Linux上
  2. sz file 下载到本地电脑上