--- title: WGCNA:概念初探 tags: [] id: '2144' categories: - - WGCNA comments: false date: 2022-07-24 01:12:19 --- [组织/细胞的功能执行具有模块化的特点](http://journals.im.ac.cn/html/cjbcn/2017/11/gc17111791.htm)。权重基因共表达网络分析(Weighted gene co-expression network analysis,WGCNA)使用[Pearson相关系数](https://zh.m.wikipedia.org/zh-hans/%E5%9F%BA%E5%9B%A0%E5%85%B1%E8%A1%A8%E8%BE%BE%E7%BD%91%E7%BB%9C)或[bicor双权重中位相关系数](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3586947/)来衡基因之间的共表达关系,将表达模式相似的基因聚类成模块。同一模块的基因可能参与同一生物学过程或通路,被称为功能模块。WGCNA通过分析功能模块与特定性状或表型之间的关联关系,可发现有生物学意义的功能模块。WGCNA除了应用于RNA-Seq数据,也可以用于分析蛋白质组数据、miRNA表达数据,甚至是脑电图数据、大气PM2.5的分析。 ## 基本流程 * WGCNA的基本流程 * 1、[数据归一化](https://www.jianshu.com/p/c515ef000946),以及[分位数归一化](http://www.bio-info-trainee.com/2043.html),保证样品间基因表达谱的可比性 * 2、计算基因表达相关矩阵、构建幂指数的邻接矩阵A(邻接矩阵只是相关矩阵逐元素求了β次幂) * A是分布在0到1之间的数值组成的对称矩阵,所对应的网络为[无向赋权图](https://zhuanlan.zhihu.com/p/41429668),是所有后续分析的基础。 * 3、将A被转换为**[拓扑重叠矩阵TOM](https://zhuanlan.zhihu.com/p/441952423)**,以降低噪音和假相关。 * 4、1-TOM得到节点相异度矩阵,对节点相异度矩阵进行聚类分析来鉴定网络模块 * 5、计算模块内基因的连接度,连接度高的基因可能是模块关键基因hub gene * 6、将模块或关键基因和外部信息进行关联,如临床信息,挖掘出有生物学意义的模块或关键基因。 * WGCNA的缺点 * **最少要15个样本才适合此分析**,推荐20个以上的样本。 * 整合其他数据如蛋白质-蛋白质相互作用和甲基化才能提供基因调控信息 * 如果数据来自多个组织或多种条件,组织特异性/条件特异性模块信号可能会被稀释 * 组织中占少数比例的细胞其基因共表达信号可能受其他细胞掩盖 * 不同的数据预处理和分析参数选择也会引起不同的结果 * 样本数越多,得到的结果越好,需要的计算资源也更多 ## **相关术语** * **[Co-expression network](https://www.biowolf.cn/biodata/WGCNA01.html):**无向加权基因网络。aij \= cor(xi, xj)β表示unsigned的共表达网络, aij = (1 + cor(xi, xj))/ 2β 表示signed的共表达网络。signed强化了强相关,弱化了弱相关或负相关,使得相关性数值更符合无标度网络特征,更具有生物意义。 * **Module:**表达高度相关的基因集。在unsigned的共表达网络中,module对应具有高度绝对相关性的基因集。在signed的网络中,module对应正相关的基因基因集。 * **Module** **Eigengene ME:**给定**模块**的第一主成分。它被认为可以代表给定基因module的基因表达谱。或许可以用UMAP\_1来替换试试? * **Module Membership MM:**将该基因的表达量与module eigengene进行相关性分析就可以得到MM值,MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高。 * **Intramodular connectivity KIM** **:**衡量的是给定基因相对于特定模块的基因是如何连接或共同表达的。模内连接性可以衡量module membership。 * **Gene significance GS:**将指定基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS,GS反映出基因表达量与表型数据的相关性,GS越高表明指定基因与研究表型越相关。 * **Module significance:**给定module中所有基因的GS平均值。反应了指定module与表型数据的相关性,Module significance越高表明指定module与研究表型越相关。 * **Eigengene significance:**模块特征(ME)与样本性状的相关性。跟Module significance表明的一样,也是指定module与表型数据的相关性,值越高表明指定module与研究表型越相关。 * **Connectivity:**在加权共表达网络中,由于每条边代表两个基因间的相关性的大小,对应一个数值,所以一个基因在共表达网络中的Connectivity定义为与该基因相连的所有边的数值之和。另外,根据相连的基因是否和该基因位于同一个module, 又可以将边分为两类,和该基因位于同一个module内,定义为within,位于不同的modules, 定义为out。可根据within的connectivity来确定该module的hub基因。 * **Hub gene:**表示在共同表达模块内的具有高Connectivity的基因。  ## RNA-Seq数据中的**应用** * 鉴定高相关的基因module。往往一组表达高度相关的基因具有相似的生物学功能。可通过此方法初步探索lncRNA的功能。 * 鉴定性状高度相关的基因module。与性状高度相关的基因module可进行后续分析,探索其与性状的生物学功能。 * 寻找hub基因。该类应用在早期的lncRNA研究中很热,如果某个module中有lncRNA作为hub基因,可以继续对该lncRNA进行深度探索。 * 如果样本性状(分组)比较多,WGCNA可以很直观的比较某一组基因在不同分组的表达情况。 * 性状矩阵:用于关联分析的性状必须是**数值型**特征,[如果是分类变量,需要转换为**0-1**矩阵的形式](https://blog.csdn.net/qazplm12_3/article/details/80001327)。 * 对于样本分组为连续变量,WGCNA很直观的表现特定基因module随连续变量的变化情况。 * 可以对每个模块进行三个层次的分析 * `1`. [功能富集分析](https://occdn.limour.top/2142.html)查看其功能特征是否与研究目的相符; * `2`. 模块与性状进行关联分析,找出与关注性状相关度最高的模块; * `3`. 模块与样本进行关联分析,找到样品特异高表达的模块。 ## 安装补充包 * [conda activate wgcna](https://occdn.limour.top/2095.html) * conda install -c bioconda bioconductor-ggtree -y * conda install -c conda-forge r-ape -y * \# install.packages("rphylopic")