title: 【迁移】从ENI数据库下载fastq文件 urlname: cong-ENI-shu-ju-ku-xia-zai-fastq-wen-jian date: 2022-09-25 19:32:17 index_img: https://api.limour.top/randomImg?d=2022-09-25 19:32:17
进入ENA Browser,搜索对应的GSE号,进入study项目,选择TSV格式的Download report。
从TSV表格中提取下载链接,一行一个写入url.txt,前面加上ftp://
,接着使用wget -c -i url.txt
下载
批量重命名脚本:
ls *.fastq.gz | cut -d '_' -f 1 | while read i ;do (echo ${i}_1*.gz' will be moved to '${i}_S1_L001_R1_001.fastq.gz);done
ls *.fastq.gz | cut -d '_' -f 1 | while read i ;do (echo ${i}_2*.gz' will be moved to '${i}_S1_L001_R2_001.fastq.gz);done
ls *.fastq.gz | cut -d '_' -f 1 | while read i ;do (mv ${i}_1*.gz ${i}_S1_L001_R1_001.fastq.gz;mv ${i}_2*.gz ${i}_S1_L001_R2_001.fastq.gz);done
Aspera是IBM公司的一款私有专利的高速传输软件,据说能充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。
# conda create -n linux -c conda-forge tree
conda activate linux
conda install -c hcc aspera-cli -y
将
ftp://ftp.sra.ebi.ac.uk/vol1/
之类的地址的前缀 换成era-fasp@fasp.sra.ebi.ac.uk:/vol1/
nano SRR12303173DL.sh && chmod +x SRR12303173DL.sh
./SRR12303173DL.sh
#!/bin/bash
source activate linux
dsa=$CONDA_PREFIX/etc/asperaweb_id_dsa.openssh
runAscp="ascp -qT -l 80m -P 33001 -i $dsa era-fasp@fasp.sra.ebi.ac.uk:"
#保存路径
savedir=/home/jovyan/upload/rawData/GSM4685043
mkdir -p $savedir
#设置需要下载的文件
## SRR12303173
tempdir=$savedir'/SRR12303173'
mkdir $tempdir
$runAscp'/vol1/fastq/SRR123/073/SRR12303173/SRR12303173_1.fastq.gz' $tempdir'/dl_1.fastq.gz'
$runAscp'/vol1/fastq/SRR123/073/SRR12303173/SRR12303173_2.fastq.gz' $tempdir'/dl_2.fastq.gz'
似乎确实挺快的,可以直连,没有不可名状的干扰
conda create -n sra_tools -c bioconda sra-tools
conda activate sra_tools
conda install -c conda-forge pigz -y
prefetch
#!/bin/sh
#任务名
TASKN=GSE172205
#设置根目录
ROOTDIR=/home/jovyan/upload/zl_liu/sra/GSE172205
#设置CleanData存放目录
CLEAN=$ROOTDIR/$TASKN
mkdir $CLEAN
for file in `cat SRR_Acc_List.txt`
do
echo $file
mkdir $CLEAN/$file
cd $CLEAN/$file
fasterq-dump --split-3 $ROOTDIR/$file -e 16
pigz -p 16 *
done
nano 11.sh
chmod +x 11.sh
./11.sh