TCGA (一) 获取数据

第一步安装程辑包并加载

options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
BiocManager::install("TCGAbiolinks")

# 加载响应的包，默认已经安装好TCGAbiolinks包
library(TCGAbiolinks)
library(plyr)
library(limma)
library(biomaRt)
library(SummarizedExperiment)

第二步查看癌症类型

1	`TCGAbiolinks:::getGDCprojects()$project_id`

癌症类型说明：癌症类型和样本代号详解TCGA

第三步查看对应癌症的数据类型

1	`TCGAbiolinks:::getProjectSummary('TCGA-PRAD') # 以前列腺癌为例`

case_count为病人数，file_count为对应的文件数，”Transcriptome Profiling”表示表达谱

“如何玩转生物大数据”系列：TCGA的样本注释信息和数据类型统计

1）转录组数据（Transcriptome）
2）甲基化数据（Methylation）
3）基因突变数据（Mutation）
4）拷贝数变化数据（CNV）

手把手教你 TCGA 数据库使用：以肝癌为例

TCGAbiolinks包下载TCGA数据进行表达差异分析-乳腺癌案例

（4）workflow.type
该数据类型有很多种，根据data.type的不同而不同，不同的数据类型，有其对应的参数可供选择。比如Gene Expression Quantification数据类型下workflow.type 有4种类型分别为：
HTSeq - FPKM-UQ：FPKM上四分位数标准化值
HTSeq - FPKM：FPKM值/表达量值
HTSeq - Counts：原始count数
STAR - Counts
具体可在GDC官网查看
（5）legacy
这个参数主要是因为TCGA数据有两个入口可以下载，GDC Legacy Archive 和 GDC Data Portal，区别主要是注释参考基因组版本不同分别是：GDC Legacy Archive（hg19和GDC Data Portal（hg38）。参数默认为FALSE，下载GDC Data Portal（hg38）。这里建议是，下载转录组层面的数据使用hg38，下载DNA层面的数据使用hg19，因为比如做SNP分析的时候很多数据库没有hg38版本的数据，都是hg19的。

第四步下载对应数据

query <- GDCquery(project = 'TCGA-PRAD',
                  data.category = "Transcriptome Profiling",
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - Counts")

第五步保存对应数据

# 配置数据路径
root_path = "~/zlliu/R_data/TCGA"
 
# 配置结果保存路径
output_path = root_path
if (!file.exists(output_path)){dir.create(output_path)}
 
# 设置工作目录，输出文件将保存在此目录下
setwd(output_path)
getwd()

GDCdownload(query = query)
saveRDS(query,'TCGA-PRAD.rds')

组织测序分析生物信息学

TCGA (一) 获取数据

https://b.limour.top/770.html

Author

Limour

Posted on

September 24, 2021

Licensed under

TCGA (二) 获得counts矩阵 Previous

无Root权限安装Chrome Next

TCGA (一) 获取数据

第一步 安装程辑包并加载

第二步 查看癌症类型

第三步 查看对应癌症的数据类型

第四步 下载对应数据

第五步 保存对应数据

第一步安装程辑包并加载

第二步查看癌症类型

第三步查看对应癌症的数据类型

第四步下载对应数据

第五步保存对应数据