title: 【迁移】二代测序数据处理之数据格式说明 urlname: er-dai-ce-xu-shu-ju-chu-li-zhi-shu-ju-ge-shi-shuo-ming date: 2022-01-17 11:33:15
从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ
>ENSMUSG00000020122ENSMUST00000138518
,后可接空格表示注释前缀CCCTCCTATCATGC……GGGCCCACCTGTTCTCTGGT
基因名独占一行,序列信息为基因名后一行至下一个 >
基因名标记前
>ENSMUSG00000020122ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT
TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA
GGGCCCACCTGTTCTCTGGT
FASTA文件为基本单元的简单罗列
>ENSMUSG00000020122ENSMUST00000138518
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT
TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT
TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA
GGGCCCACCTGTTCTCTGGT
>……
……
>ENSMUSG00000020122ENSMUST00000125984
GAGTCAGGTTGAAGCTGCCCTGAACACTACAGAGAAGAGAGGCCTTGGTGTCCTGTTGTC
TCCAGAACCCCAATATGTCTTGTGAAGGGCACACAACCCCTCAAAGGGGTGTCACTTCTT
CTGATCACTTTTGTTACTGTTTACTAACTGATCCTATGAATCACTGTGTCTTCTCAGAGG
CCGTGAACCACGTCTGCAAT
>……
……
第四行:测序read的质量值,Q = -10log(测序错误率),字符=chr(ord('!')+Q)
,上限为 ~
@DJB775P1:248:D0MDGACXX:7:1202:12362:49613
TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA
+
JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA
#
开头的注释行\t
分隔的具有九列的表格,空值用 .
填充seqid
代表染色体的IDsource
代表基因结构的来源score
strand
, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚phase
,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种第九列是attributes, 表示属性,键值对间以分号分隔,键值对内以空格分隔
#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01
1 ensembl_havana gene 65419 71585 . + . gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";
使用 hisat2-build 工具从.fa文件建立
export FADIR=/opt/human_grch38/dna
export FANAME=Homo_sapiens.GRCh38.dna.chromosome
export IDXDIR=/opt/human_grch38/hisat2_idx
export FILELIST=$FADIR/${FANAME}.1.fa,$FADIR/${FANAME}.2.fa,$FADIR/${FANAME}.3.fa,$FADIR/${FANAME}.4.fa,$FADIR/${FANAME}.5.fa,$FADIR/${FANAME}.6.fa,$FADIR/${FANAME}.7.fa,$FADIR/${FANAME}.8.fa,$FADIR/${FANAME}.9.fa,$FADIR/${FANAME}.10.fa,
export FILELIST=${FILELIST}$FADIR/${FANAME}.11.fa,$FADIR/${FANAME}.12.fa,$FADIR/${FANAME}.13.fa,$FADIR/${FANAME}.14.fa,$FADIR/${FANAME}.15.fa,$FADIR/${FANAME}.16.fa,$FADIR/${FANAME}.17.fa,$FADIR/${FANAME}.18.fa,$FADIR/${FANAME}.19.fa,$FADIR/${FANAME}.20.fa,
export FILELIST=${FILELIST}$FADIR/${FANAME}.21.fa,$FADIR/${FANAME}.22.fa,$FADIR/${FANAME}.MT.fa,$FADIR/${FANAME}.X.fa,$FADIR/${FANAME}.Y.fa
echo **************************************
echo $FILELIST
echo **************************************
hisat2-build -p 8 $FILELIST $IDXDIR/GRCh38.hisat2.idx
bam文件是sam文件的二进制格式,sam 文件是Sequence Alignment/Map Format的简写,产生于比对之后的数据输出,记录了比对的具体情况。文件中以tab键分割,包括 Header section
和 Alignments section
两部分:
该部分全部以“@”开头,提供基本的软件版本,参考序列信息,排序信息等
该部分包含了11列必需字段,无效或者没有的字段一般用0
或者*
表示。
@HD VN:1.6 SO:coordinate
@SQ SN:ref LN:45
r001 99 ref 7 30 8M2I4M1D3M = 37 39 TTAGATAAAGGATACTG *
r002 0 ref 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA *
r003 0 ref 9 30 5S6M * 0 0 GCCTAAGCTAA * SA:Z:ref,29,-,6H5M,17,0;
r004 0 ref 16 30 6M14N5M * 0 0 ATAGCTTCAGC *
r003 2064 ref 29 17 6H5M * 0 0 TAGGC * SA:Z:ref,9,+,5S6M,30,1;
r001 147 ref 37 30 9M = 7 -39 CAGCGGCAT * NM:i:1
Read的名字
每一个read的比对情况可以用十进制数字(或者十六进制数字)表示,如果比对情况 有多个,将多个比对情况所代表的十进制数字加和就是这一行的FLAG。 另,以下网站可以通过输入FLAG值,直接找出该FLAG是那些FLAG的加和:Decoding SAM flags
比对上的参考序列的名字,该名字出现在Header section的@SQ行的SN标识中,如果该read没有比对上,也就是说该read在参考序列上没有坐标,那么这一列则用“”表示,那么这一行的POS和CIGAR列也会是“”。
read比对到的参考序列“RNAME”最左侧的位置坐标,也是CIGAR中第一个比对标识“M”对应的最左侧碱基在参考序列的位置,未比对上的read在参考序列中没有坐标,此列标识为“0”。
比对的质量值,计算方法为比对错误率的-10*log10的值,一般是四舍五入的整数值,如果是255,说明该比对值无效。
CIGAR标识符表示read中每个碱基的比对情况,主要有以下标识符:
该read的mate read比对上的参考序列的名字,该名字出现在Header section的@SQ行的SN标识中,
该read的mate read比对到的参考序列“RNAME”最左侧的位置坐标,也是mate read CIGAR中第一个比对标识“M”对应的最左侧碱基在参考序列的位置,未比对上的read在参考序列中没有坐标,此列标识为“0”。
表示pair read完全匹配到同一条参考序列时,两个read之间的长度,可简单理解为测序文库的长度。
存储的序列,没有存储,此列则用“*”标识。该序列的长度一定等于CIGAR标识中“M”,“I”,“S”,“=”,“X”标识的碱基长度之和。
序列的每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33(Sanger Phred-33 质量值体系),即为该碱基的测序质量得分(Phred Quality Score)。不同Phred Quality Score代表不同的碱基测序错误率,如Phred Quality Score值为20和30分别表示碱基测序错误率为1%和0.1%。