GEO

GEO平台数据提交全攻略:掌握生成式引擎优化的关键要素

2026/1/10
GEO平台数据提交全攻略:掌握生成式引擎优化的关键要素
AI Summary (BLUF)

本文详细解析GEO平台数据提交的核心规范,涵盖商业阵列处理、平台内容要求、序列标识符标准和数据共享政策,特别强调通过标准化注释实现数据可重用性和科学发现的最大化。

引言

GEO平台表是一种包含阵列定义的制表符分隔表格。GEO中的平台由科学界提交,代表了极其多样化的技术、分子类型和注释规范。为了让科研社区能够正确评估数据,GEO要求提交者为阵列上的每个特征提供有意义、可追踪的序列标识符信息,使用以下描述的一种或多种标准平台表头。

提交者通用要点

商业阵列处理

  • 商业阵列可能无需提交平台记录:如果您的实验使用商业阵列(如Affymetrix GeneChips),许多官方阵列模板已预先存入GEO。请使用“查找平台”工具搜索,并在提交过程中引用相应的平台登录号(GPLxxx)。
  • 未找到模板的处理:若使用商业阵列但未在GEO中找到模板,请继续提交平台记录。如果我们能验证您提交的商业平台内容,记录中的联系信息将从您更改为供应商,方便其他用户查找并提交对应平台的样本数据。

平台内容规范

  • 平台数据表应仅包含阵列内容和设计信息,不得包含表达测量或杂交强度数据。
  • 每行必须有唯一标识符(ID):平台表中的ID列与样本数据表中的ID_REF列应保持1:1对应关系。样本数据表应包含标准化数据。
  • 标准化策略影响:如果标准化策略需要取重复阵列特征的平均值或移除对照点,平台表应反映简化后的模板。此时,请通过电子邮件或FTP将完整阵列设计文件发送给我们,我们将作为补充文件附加到您的平台记录中,确保提交符合MIAME标准。

序列标识符要求

  • 必须包含有意义、可追踪的序列标识符:如GenBank/RefSeq登录号、基因座标签、克隆ID、寡核苷酸序列、染色体位置等(详见下表完整列表)。
  • 禁止使用内部数据库引用或BLAST最高匹配:此信息使用户能全面解读数据(符合MIAME标准),并让GEO在下游数据查询工具中为您的平台获取最新注释。

数据共享政策

  • 期刊要求数据公开存储:主要目的是让科学界能全面评估或重新分析整个数据集。虽然我们理解研究人员在共享数据和阵列设计方面的各种原因和困难,但用户和期刊编辑的要求以及我们维护有用、透明数据库的需要,促使我们仅接受注释良好的数据集。如有疑问或顾虑,请通过电子邮件联系我们。

标准平台表头

表头规范

  • 首行必须是表头行:标识每列内容。表头可以是标准或非标准列。
  • 至少提供一个标准列(ID除外):数据表可包含任意数量的非标准列,如阵列坐标信息、基因符号或描述、基因本体术语、质量指标等。
  • 列顺序灵活:ID列之后,列可以任意顺序出现。GEO是一个灵活开放的系统,允许您提供全面注释阵列所需的所有信息。

标准列详解

ID列(必需)

  • 作用:明确标识平台表中的每一行。
  • 要求:每个ID在平台表中必须唯一,表头应出现在第一列且只能在数据表中使用一次。
  • 对应关系:平台数据表中的ID列与样本数据表中的ID_REF列对应。样本数据表应包含标准化数据。
  • 特殊情况处理:如果标准化策略需要取重复阵列特征的平均值,平台应反映简化后的模板。此时,请通过电子邮件或FTP将完整模板文件发送给我们,我们将作为补充文件附加到您的平台记录中。

SEQUENCE列

  • 内容:每个寡核苷酸、克隆或PCR产物的核苷酸序列。

GB_ACC

  • 定义GenBank登录号——通过分配给序列的GenBank序列登录号或设计序列所依据的代表性GenBankRefSeq登录号来识别生物序列。
  • 建议:包含设计序列所依据的登录号的版本号(例如,NM_022975.1而非NM_022975)。这对于经常更新的RefSeq登录号尤为重要。
  • 禁止项:不接受代表序列BLAST最高匹配的GenBank登录号。通常也不接受染色体、基因组和重叠群登录号,因为它们不够具体,无法准确识别阵列上打印的序列部分(请改用GB_RANGE)。

GB_LIST

  • 功能GenBank登录号列表——与GB_ACC类似,但允许呈现多个GenBank登录号。
  • 示例:您的序列可能具有代表克隆5'和3'端的GenBank登录号。
  • 格式:多个登录号应使用逗号或空格分隔。或者,可以使用多个GB_ACC列。

生成式引擎优化(GEO)的关键价值

通过遵循这些指南,研究人员不仅能满足数据提交要求,还能实现真正的“生成式引擎优化”——即创建能够持续产生新见解、支持跨研究比较并推动科学发现的数据基础设施。精心注释的平台表成为可重复研究和数据重用的基石,这正是现代开放科学的核心原则。

Data Analysis

平台类型 是否需要提交平台记录? 关键要求与处理方式
商业阵列 可能不需要 1. 使用“查找平台”工具搜索并引用现有平台登录号(GPLxxx)。
2. 若未找到模板,仍需提交平台记录;验证后联系信息将更改为供应商。
自定义/其他阵列 需要 必须提交完整的平台数据表,并遵循所有内容与标识符规范。
数据表类型 应包含的内容 禁止包含的内容 关键规范
平台数据表 阵列设计、特征标识符与注释信息。 表达测量值或杂交强度数据。 1. 每行必须有唯一ID。
2. ID列与样本数据表的ID_REF列必须1:1对应。
3. 必须包含可追踪的序列标识符。
样本数据表 标准化后的表达或测量数据。 原始阵列设计信息。 必须包含ID_REF列,与平台表的ID列对应。
标准列名 是否必需? 内容与要求 注意事项与示例
ID 唯一标识平台表中的每一行。 必须唯一;对应样本数据表中的ID_REF列。
SEQUENCE 寡核苷酸、克隆或PCR产物的核苷酸序列。 -
GB_ACC 设计所依据的特定GenBank/RefSeq登录号。 1. 建议包含版本号(如NM_022975.1)。
2. 禁止使用BLAST最高匹配或过于宽泛的登录号(如染色体登录号)。
GB_LIST 多个GenBank登录号的列表。 多个登录号用逗号或空格分隔;也可使用多个GB_ACC列。
序列标识符类型 是否被接受? 说明
GenBank/RefSeq登录号(带版本号) 首选标识符,需具体到版本。
基因座标签、克隆ID、寡核苷酸序列、染色体位置 其他有效的可追踪标识符。
内部数据库引用 无法被外部用户追踪。
BLAST最高匹配的登录号 不够准确,不被接受。
染色体/基因组登录号(未指定范围) 不够具体,应使用GB_RANGE列替代。

Source/Note: 根据提供的GEO平台数据提交指南文本综合整理。

← 返回文章列表
分享到:微博

版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。

文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。

若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。 也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。