果子的GEO芯片分析教程汇总, 持续更新。
这是个导航帖,可以有效解决芯片分析的大部分问题。内容抵得上一个GEO的培训班。
首先用20%的精力解决80%的分析,可以看这篇,可以对GEO表达谱芯片有个大致的了解
在果子学生信公众号回复"果子学生信",可以自助获取R语言环境的配置教程,以及这篇帖子的讲解视频。
上面那个帖子里面缺失的部分是GSEA分析,GSEA分析不需要认为设定差异基因,是个神器,可以在这里找到方法。
接下来用80%的精力解决剩下的20%分析
GEO分析有三个限速环节
第一个是探针ID转换:
简单说来,GEO芯片的探针ID转换,包括三个层面:
第一,R包注释
如果有平台对应的R包,我们就直接下载对应的R包去转换
平台和R包的对应关系我们对应了一个platformMap
文件,在果子学生信微信公众号回复**“果子学生信”**即可获取
第二,平台获取
如果平台没有对应的R包,我们可以下载平台的注释文件,自己提取。
所有的探针ID转换,我们至少要获取两列数据,第一列是已有的探针,第二列对应的基因ID。
有以下的帖子可供参考
GEO芯片中的NM_,NR_开头的识别号如何转换成基因名称?
第三,序列比对
非编码GEO芯片的探针ID转换常常平台信息给出的是序列。
这个稍微有点困难,我们也写了教程,甚至提供了常见平台转换好的文件。在果子学生信微信公众号回复果子非编码即可自助获取。
如果完成了探针ID的转换,想在各种不同数据库中来回转换,应该看这个帖子:
第二个限速环节是差异分析
这里面其实需要我们做的不多,我们只要解决,如何分组,但是分组,并不需要处理组都在前面,对照组都在后面,只要跟样本顺序一致即可,请看下面这个帖子
接下来解决的是如何分两个组,分多个分组,配对分组的事情
这里面的原理就是使用了因子的水平来排序。
因子(factor)就像贤内助,让你始终分清主次,拨开云雾。
第三个限速环节是多芯片联合分析
这个我写过一点教程,但是实操的部分还在制作当中,把这个部分解决了,那么GEO表达谱芯片分析就已经没有了阻碍:
批次效应这样矫正
除此之外,还有一些再看看其他的:
比如这个,如果我用临床医生的视角会很容易解决
GEO芯片中多个探针对应一个基因,是求平均值还是保留最大值?
刚才那是多个探针对应一个基因,还有一个探针对多个基因的情况
其他的随意看看,作为补充
画一个火山图
当然这一切需要的是R语言
不会代码也可以看看这一个,有点过时了,但是这里面直接用GEO2R来分析的想法,可以帮我们判定,当前这个芯片是否能够直接用R语言来分析。
就完成度来看,目前这个帖子离我的预期还剩下多芯片分析那一点点距离,很快,我们就会把它填充完成,敬请期待。