首先对GEO数据库做一个介绍,它来源于美国国立生物技术信息中心(NationalCenterforBiotechnologyInformation),即我们所熟知的NCBI是由美国国立卫生研究院(NIH)于年创办。是其下面的一个分支数据库。
GeneExpressionOmnibus(GEO)是一个储存高通量功能基因组学数据的数据库,这些高通量功能基因组学数据来自芯片和新一代的测序仪得到的试验数据。GEO除了收录基因表达数据之外还收录其它数据,例如基因组拷贝数变异数据、基因组-蛋白相互作用数据以及基因组甲基化数据等。该数据库既接受原始数据,也接受经过处理的数据,不过这些数据都要符合“有关芯片试验的最小信息(minimuminformationaboutamicroarrayexperiment,MIAME)”标准。
该数据库能存储好几种格式的数据,包括web格式、spreadsheets格式、XML格式和纯文本格式。GEO数据库被分为两个部分收录在Entrez中,分别是GEOProfiles数据库(它负责收录一个基因在一次试验中的定量基因表达数据)和GEODataSets数据库(收录整个试验的数据)。目前,GEO数据库共收录了由世界各地的实验室提交的超过个样本试验数据,个芯片平台记录,种实验项目以及种研究类型的基因表达谱数据。
不管上传至哪个数据库,第一步都需要在NCBI上注册账号:
注意:新建的话,一定填写您常用的邮箱和基本信息,以免影响上传后的客服及时跟您沟通。
注册成功后回到主页:
下拉框中选择“GEODatasets”或者“GEOProfiles”,再点击“search”。
点击“submittoGEO”提交数据通道。
如果对上传数据有了一定的了解,或是再次上传的,在准备工作做好的情况下,可以直接点击“GEOarchive”后面的“Submit”(如下图)
这边还可以了解一下上传需要的数据类型,点击“Completeinstructions”,结果如下图:
对于上传所需要的文件内容,每个标题后面都有详细的注解。
初次上传数据,首先选择您芯片的类型,并点击:
我们以AffymetrixhumanUplus2.0为例:点击“affymetrix”后:
阅读上图内容,我们了解到需要上传芯片需要准备的文件类型,对于AFFY芯片,我们需要准备的是一张metadata表和processed表(即为matrix表,我后面会重点讲),原始数据(cel格式的文件)。
每种品牌都有不同类型的芯片,当然根据设计的不同,用途不同,需要的metadata表也不同,这点需要确认清楚,我们的举例芯片是3’IVT格式的芯片,则需要下载是“3’orWholeGeneExpressionArray-Matrixtableoption”
下载刚才提到的metadata表和processed表(即为matrix表),他们是同一个工作薄中两个子表。
这是metadata表,主要填写跟文章相关的样本信息和实验信息,每个填写项都有备注,有助于您填写。在这个工作薄里还有关于这两个表的案例展示(example)。
在metadata表中第二部分,查找芯片platform号,我们可以回到“GEOarchive”相北京治白癜风最好的医院中医治白癜风