--- title: 二代测序数据处理(一)数据格式说明 tags: [] id: '1391' categories: - - 组织测序分析 date: 2022-01-17 04:59:34 --- ## **一、**FASTA****(.fa) 储存参考数据集 [从零开始完整学习全基因组测序(WGS)数据分析:第2节 FASTA和FASTQ](https://zhuanlan.zhihu.com/p/28470883) * 基本单元 * 序列所表示的基因名:`>ENSMUSG00000020122ENSMUST00000138518`,后可接空格表示注释前缀 * 具体序列信息:`CCCTCCTATCATGC……GGGCCCACCTGTTCTCTGGT` * 基因名独占一行,序列信息为基因名后一行至下一个 `>` 基因名标记前 ```txt >ENSMUSG00000020122ENSMUST00000138518 CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA GGGCCCACCTGTTCTCTGGT ``` * FASTA文件为基本单元的简单罗列 ```txt >ENSMUSG00000020122ENSMUST00000138518 CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA GGGCCCACCTGTTCTCTGGT >…… …… >ENSMUSG00000020122ENSMUST00000125984 GAGTCAGGTTGAAGCTGCCCTGAACACTACAGAGAAGAGAGGCCTTGGTGTCCTGTTGTC TCCAGAACCCCAATATGTCTTGTGAAGGGCACACAACCCCTCAAAGGGGTGTCACTTCTT CTGATCACTTTTGTTACTGTTTACTAACTGATCCTATGAATCACTGTGTCTTCTCAGAGG CCGTGAACCACGTCTGCAAT >…… …… ``` ## 二、**FASTQ**(.fq) 储存原始测序数据 * **每四行成为一个独立的单元**,**称之为read**;FASTQ文件为read的简单罗列 * 第一行:以‘@’开头,是这一条read的唯一标识符 * 第二行:测序read的序列,由A,C,G,T和N这五种字母构成,N代表的是测序时那些无法被识别出来的碱基; * 第三行:以‘+’开头,用以兼容旧版格式 * 第四行:测序read的质量值,Q = -10log(测序错误率),字符=`chr(ord('!')+Q)`,上限为 `~` ```txt @DJB775P1:248:D0MDGACXX:7:1202:12362:49613 TGCTTACTCTGCGTTGATACCACTGCTTAGATCGGAAGAGCACACGTCTGAA + JJJJJIIJJJJJJHIHHHGHFFFFFFCEEEEEDBD?DDDDDDBDDDABDDCA ``` ## 三、GTF(.gtf) 描述基因和转录本的信息 [GTF文件格式简介](https://cloud.tencent.com/developer/article/1625204) * 头部有 `#` 开头的注释行 * 主体为 `\t` 分隔的具有九列的表格,空值用 `.` 填充 * 第一列 `seqid` 代表染色体的ID * 第二列是 `source` 代表基因结构的来源 * 第三列是feature, 代表区间对应的特征类型,如外显子等 * 第四、五列为区间的起止坐标 * 第六列是 `score` * 第七列是 `strand`, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚 * 第八列是 `phase`,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种 * 第九列是attributes, 表示属性,键值对间以分号分隔,键值对内以空格分隔 ```txt #!genome-build GRCh38.p12 #!genome-version GRCh38 #!genome-date 2013-12 #!genome-build-accession NCBI:GCA_000001405.27 #!genebuild-last-updated 2018-01 1 ensembl_havana gene 65419 71585 . + . gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; ``` ## 四、IDX(.idx) 基因组比对工具HISAT2的索引文件 [RNA-Seq基因组比对工具HISAT2](http://blog.biochen.com/archives/337) * 使用 hisat2-build 工具从.fa文件建立 ```shell export FADIR=/opt/human_grch38/dna export FANAME=Homo_sapiens.GRCh38.dna.chromosome export IDXDIR=/opt/human_grch38/hisat2_idx export FILELIST=$FADIR/${FANAME}.1.fa,$FADIR/${FANAME}.2.fa,$FADIR/${FANAME}.3.fa,$FADIR/${FANAME}.4.fa,$FADIR/${FANAME}.5.fa,$FADIR/${FANAME}.6.fa,$FADIR/${FANAME}.7.fa,$FADIR/${FANAME}.8.fa,$FADIR/${FANAME}.9.fa,$FADIR/${FANAME}.10.fa, export FILELIST=${FILELIST}$FADIR/${FANAME}.11.fa,$FADIR/${FANAME}.12.fa,$FADIR/${FANAME}.13.fa,$FADIR/${FANAME}.14.fa,$FADIR/${FANAME}.15.fa,$FADIR/${FANAME}.16.fa,$FADIR/${FANAME}.17.fa,$FADIR/${FANAME}.18.fa,$FADIR/${FANAME}.19.fa,$FADIR/${FANAME}.20.fa, export FILELIST=${FILELIST}$FADIR/${FANAME}.21.fa,$FADIR/${FANAME}.22.fa,$FADIR/${FANAME}.MT.fa,$FADIR/${FANAME}.X.fa,$FADIR/${FANAME}.Y.fa echo ************************************** echo $FILELIST echo ************************************** hisat2-build -p 8 $FILELIST $IDXDIR/GRCh38.hisat2.idx ``` ## 五、Sam/Bam(.bam) 记录比对的具体情况 [Sam/Bam文件格式详解](https://www.jianshu.com/p/ff6187c97155) ## 六、相关参数说明 [基因组的那些事儿](https://www.jieandze1314.com/post/cnposts/18/) * 测序深度:30x;每个碱基平均被测次数,相关研究表明5~60x中 30x对于后续分析可以达95%置信度 * 测序策略:PE150;PE双端测序、一条序列正反测两次;150每次测150bp,双端测一条片段共300bp * 350bpcDNA建库:将DNA用超声波随机打断成350bp,加接头,作为测序前的准备工作