朋友们,大家好,今天和大家分享GEO数据挖掘的一些基础!
GEO数据库是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,甚至高通量测序数据!GEO数据库主要包括
GEOPlatform(GPL)芯片平台
GEOSample(GSM)样本ID号
GEOSeries(GSE)study的ID号
GEODataset(GDS)数据集的ID号
它的界面如下,我们以糖尿病为例,检索与“diabetes”相关的GEODATSET,点击结果第一条!
上面的信息显示,与diabetes相关的芯片平台是“GPL”
与diabetes相关的样本ID比较多,主要有
GSMUC-F
GSMUC-M
GSMiNPC-F
GSMiNPC-M
GSMESC-NPC_H9
GSMESC-NPC_BG01
这就涉及到一个知识点,一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,而每个数据集都有着自己对应的芯片平台,就是GPL。
知道diabetes涉及哪些GSMID后,我们可以根据函数获得我们想要的数据。
比如getGEO函数
GSM-getGEO(‘GSM’,destdir=“.”)GPL-getGEO(‘GPL’,destdir=“.”)
具体代码如下,函数操作上可以参考(北京白癜风治疗的专科医院白癜风医药