分析数据

点击主页上的“浏览路径”按钮。在下一页,点击右上角的“分析”按钮:

或者,选择主页上的“分析数据”按钮:

分析数据按钮

这将打开一个提交表单,您可以在其中选择要执行的分析,粘贴或浏览到包含数据的文件,或使用示例数据集。

分析3

提交表单分为两部分。“分析你的数据”部分是默认选择提交你的数据。根据数据的格式,可以执行几种不同的分析。

如果您的数据是一列标识符,如UniProt ID、基因符号或ChEBI ID,则它们将映射到路径,并运行过度表示和路径拓扑分析。过度表示分析是一种统计(超几何分布)测试,用于确定某些反应体路径是否过度表示(丰富)在提交的数据中。它回答了“我的列表中包含的路径X蛋白质是否比偶然预期的多?”这项测试产生了一个概率分数,使用Benjamani-Hochberg方法校正了错误发现率。

途径拓扑分析考虑了由途径步骤(我们将其称为反应的途径)表示的分子之间的连通性。它将每个反应中所示的所有分子群体作为途径的“单位”。如果在您的查询集中表示这些分子中的任何一个,则将其视为与该反应的匹配。这可以更好地指示与您的数据匹配的途径的比例,而不是在数据与途径之间常见的分子数。它还可能表明您的数据与路径过程的开始,结束或特定分支匹配。该测试没有概率得分。

如果您的数据有一个或多个额外的数字列,它将被识别为表达式数据,并将执行表达式数据覆盖。注意,这种数据格式应该包括标题行。第一列标题应该以#符号开始。这些数字用于在Reactome路径图上生成一个缩放的彩色叠加图,作为一种可视化相对表达水平的方法。请注意,数值不一定是表达数据,例如,通过使用基因关联评分,相同的分析可以用来可视化基因分型结果。

标识符映射

提交过程识别许多类型的标识符。作为预分析的一部分,它们被映射到反应性分子。用于使用的理想标识符是蛋白质的Uniprot ID,用于小分子的Chebi ID,以及用于DNA / RNA分子的HGNC基因符号或集电ID,因为这些是我们的蛋白质和小分子的主要外部参考来源。许多其他标识符被识别和映射到适当的反应分子。已接受的标识符包括Hugo Gene符号,Genbank / Embl / DDBJ,Refpep,Refseq,Entrezgene,MIM,Interpro,Ensembl蛋白,Ensembl基因,Ensembl转录物和一些无论如何和Agilent探针ID。可以使用P12345-2格式指定UNIPROT同种型。如果省略-n后缀,则该规范形式和它的所有同种型将匹配。可以使用混合标识符列表(不同的蛋白质标识符或蛋白质/基因标识符)。标识符必须是每行一个。蛋白质特异性标识符通常将映射到蛋白质实体,而基因特异性标识符将映射到基因,转录物和衍生的蛋白质。 If desired results can be filtered to show protein-specific or gene/transcript-specific results, details below.

下面是仅标识符的格式示例:

单击Continue按钮。第二个选项选择页面出现:

分析4

项目到人类是默认选中的。选择此选项后,分析服务将查询中的所有非人工标识符转换为它们的人工等效标识符。总的来说,这最大限度地增加了成功匹配Reactome的人类路径的机会。但是,如果您想使用非人类标识符并将这些标识符与我们计算推断的非人类路径匹配,请取消复选框。如果您的查询包含人类和微生物标识符,并且您的目标是找到代表感染过程的途径,您也可以选择不勾选此框。

“包括扶少团团员”默认未勾选。如果不选中此框,您的查询将只考虑Reactome路径。如果选择勾选复选框,则查询将考虑通过包含来自完整数据库的所有可用蛋白质-蛋白质相互作用器而扩展的Reactome路径。这大大增加了Reactome路径的大小,使您提交的标识符与扩展的路径匹配的机会最大化,但将包括未经过Reactome手工筛选的交互作用者,可能包括没有生物学意义或无法解释的相关性的交互作用者。在实践中,如果提交的标识符大部分与Reactome路径不匹配,最好在第一个实例中以未检查的“包括扶轮少年服务者”进行查询,然后以选中的“包括扶轮少年服务者”进行重复查询,看看他们是否可以被识别为扶轮少年服务者。

没有关联数值的标识符列表的结果

如果您提交一列蛋白质或小分子标识符,它们将映射到路径,并执行过度表示和路径拓扑分析。结果将类似于下面的示例。

分析6

分析结果显示在Details面板中的Analysis选项卡中。所有的Reactome路径都显示在20条路径的区块中,并根据从过度表征分析中获得的p值进行排名。如果多条路径具有相同的p值,则根据查询中匹配该路径的标识符的数量对它们进行排名。匹配的分子数量/分子总数和FDR值被添加到层级面板中路径名称的右侧。与查询中至少一个标识符匹配的反应名称(表示正路径拓扑分析命中)用橙色框起来。

在Analysis选项卡中,单击路径的名称将在Hierarchy中选中它,如果有必要,它将展开隐藏的层次层次来显示路径,而名称将以深蓝色突出显示。

默认情况下,所有类型的分子(蛋白质、小分子、基因、转录本)都用于过度表示分析,但可以通过使用结果表左上方的下拉列表将分析结果限制到特定的子类型。选择一个子集将显示只考虑所选分子亚型的结果。

分析细节中的列表示:

  1. 路径名称:单击该名称打开路径。
  2. 发现的实体:在提交的数据集和列1中命名的路径之间,使用结果类型选择的类型的策划分子的数量。点击这个数字显示匹配提交的标识符和它们到Reactome分子的映射。
  3. 实体总数:在列1中命名的路径中,结果类型选择的类型的策划分子总数。
  4. 找到的互动转换器(如果选择了此选项)。选择类型的类型的互动子分子的数量在提交的数据集之间很常见,并且在第1列中命名的路径。单击此号码以显示匹配的提交标识符及其映射到反应分子。
  5. Interactors total(如果选择此选项):在第1列中指定的路径中,所选类型的interactor分子总数,结果类型为。
  6. 实体比率:简单地说,就是这个途径所代表的Reactome途径分子的比例。计算结果类型选择的分子与结果类型选择的所有实体的比率。
  7. 实体pvalue:对所选结果类型的分子进行过度表示的统计测试的结果。
  8. 实体FDR:错误发现率。纠正代表概率。
  9. 发现反应:由所提交的数据集中的至少一个分子表示的途径中的反应数,用于选择用结果类型选择的分子型。
  10. 反应总数:路径中包含结果类型选择的分子的反应数量。
  11. 反应比率:简单地说,就是这个途径所代表的反应物反应的比例。计算方法为该途径中包含结果类型所选分子的反应与包含结果类型所选分子的所有反应的比率。
  12. 物种名称。

运行分析后,路径浏览器将显示路径概述。所有包含您提交列表中标识符的路径都将突出显示,并使用彩色刻度指示纠正概率(FDR)。可以使用颜色配置选项卡(艺术家画架图标)更改颜色方案在路径面板右边缘的弹出设置面板上。选择Overexpression面板中的coverage(覆盖率)将改变路径概览显示,以显示与覆盖率较低的区域相对应的其他事件交叉点(如pValue视图所示),使数据集中丰富的路径更容易可视化。

概述中路径的突出显示提供了所有路径分析结果的概览。要查看特定路径的详细信息,双击概述或左侧路径层次结构中表示该路径的节点。或者,单击它一次以选择它,并使用Overview面板左上角的Show All按钮(里面有向外指向三角形的正方形)。Overview可以使用鼠标滚轮进行导航,以放大和缩小,并单击和拖动来移动它。或者,使用概述面板右下角的导航按钮。在路径的任何一层,都可以通过点击右上角的指南针符号找到图表键。

分析8

增强的高级图表表示子路径标签中的分析结果。标签背景由蓝色变为白色,黄色带用于表示查询数据集中所表示的路径的比例。标签上方的灰色条表示查询数据集中表示的路径实体的数量、路径中实体的总数以及FDR修正后的概率分数

在路径图中,如果在提交的数据集中表示,则重新彩色(默认颜色方案中的黄色)。复数,集合和细分图标是有色的,以表示提交的标识符列表中所示的比例。在下图中,胰岛素受体是黄色表明在提交的清单中。胰岛素不是提交的名单,所以它没有重新着色。胰岛素的综合体:胰岛素受体是重新着色的部分,部分不显示,表明复合物中的一些分子在提交的数据集中表示,而另一些则不是。

如果选中了Include扶轮少年服务者选项,作为提交标识符列表一部分的具有扶轮少年服务者的实体将在右上角有一条缎带。在下面的示例中,RASA1不是与提交的标识符列表的直接匹配,而是具有与列表匹配的交互者。扶少团团员被展示;黄色覆盖层表示匹配的交互者。PTPN11是一个直接匹配,并且有与列表匹配的交互者。为避免拥挤,会安排有限数量的扶少团。

在“分析结果详细信息”的右侧有一个按钮,指示未成功匹配到Reactome中分子的已提交标识符的数量。单击该按钮可生成一个列表。

带有关联数值的Identifier列表的结果(表达式表示)

要运行表达式分析,请以包含第一行列标题的格式提交数据。第1列的标题必须以#符号开始。第一列必须包含蛋白质、化合物或其他合适的标识符,如探针id。所有其他列必须是数字值,没有字母字符。分析工具将您的数据解释为表达式数据。数值用于给路径图中的物体着色。这个视图是为微阵列数据创建的,但可以使用任何由带有相关数值的标识符列表组成的数据集,例如定量蛋白质组学、GWAS评分。

该工具使用路径浏览器头栏中的分析数据按钮启动。要么将数据粘贴到提交表单中,要么浏览保存的文件(或选择一个示例文件)。

下图显示了正确的数据格式。每一行的第一列必须有一个标识符(标题行是可选的)。

提交过程识别了多种类型的标识符。作为预分析的一部分,它们被映射到等效的UniProt材料或ChEBI ID的小化合物。这些是与Reactome分析工具一起使用的理想标识符。其他识别并转换为UniProt等效物的标识符包括HUGO gene symbols,GenBank/EMBL/DDBJ、RefPep、RefSeq、EntrezGene、MIM和InterPro ID、一些Affymetrix和Agilent探针ID、Ensembl蛋白质、转录本和基因标识符。仅包含数字的标识符,如来自OMIM和EntrezGene的标识符,必须以源数据库名称和冒号作为前缀,例如MIM:602544、EntrezGene:55718。混合标识符列表(不同的蛋白质标识符或蛋白质/基因标识符)可以使用。标识符必须为每行一个。

默认情况下,除非将项目复选框的项目未被选中,否则所有非人类标识符都映射到其人为等价物。

在第1列之后,所有其他列必须包含数字,表示表达式或其他值。可以使用Microsoft Excel和tab分离值(TSV)文件。提交时,列的数字被认为是单独的样品或实验条件。这些值用于在路径图上叠加颜色。实验浏览器工具允许您为每个提交的数据列选择和查看覆盖。当表达式数据列被提交时,这个工具是出现在路径概览和图表查看器底部中心的面板。在这个面板中,用户可以在不同的时间序列中移动(也可以像“电影”一样播放)。这对于可视化时间点或疾病进展特别有用。

分析14

结果可能需要几秒钟才能显现。

结果页面非常类似于提交一个简单的一列标识符列表之后所看到的页面,在第9列之后的Analysis详细信息中有额外的列。这些额外的列表示提交的表达式值。

单击路径名称会启动路径浏览器,并显示相关的路径图(参见下面的示例)。

路径图中的对象根据提交的数值重新着色。颜色是基于在右手边的条形图上所表示的比例。有几个配色方案,选择使用设置弹出面板在右边。比例(在右侧)自动调整以适应数据集中值的范围。

未在输入数据中表示的对象不会重新着色。

带有色带的物体表示包含一个以上分子的复合物或集合。当缩小时,条带的颜色反映了数据集中所代表的分子所提交值的平均值。条带的大小反映了提交值的分子的比例。放大可以看到单个的条带,每个分子都有一个提交的值,按名字的字母顺序排列。颜色的波段现在反映了提交的值。如果提交了多列值,代表多个样本,例如时间点或疾病进展,则每个样本的条带顺序将相同。

要查看复杂组件或设置的详细信息,请右击它。这将打开上下文信息面板(CIP)(参见上图)。这有两个标签——分子和途径。分子显示参与的分子,如果进行了表达分析,则显示它们的表达值。路径识别所选对象是否存在于任何其他Reactome路径中,并链接到适当的路径图。

可以打开多个cip并固定它们,以便在选择其他实体时保持可见。

浏览器会记住上次访问时钉住的cip(最多5个图表)。

橙色的Experiment Browser工具栏(上图左下角)用于逐列遍历数据,例如时间点或疾病进展。通过单击箭头按钮在它们之间移动。箭头之间显示数据列的标题(如果存在)。路径图将重新着色以反映新的值。

有关在Identifier results选项卡中看到的结果的解释,请参阅不带关联数值的Identifier results列表一节中的解释。

分析报告

对于我们的一些用户来说,长期保存路径分析可能很重要。路径分析完成后,可以通过单击位于详细信息面板左下角的“报告(PDF)”按钮将结果下载为易于阅读的PDF报告。PDF报告的第一页类似于以下内容:

分析16

分析报告的各节代表:

  1. 简介:概述Reactome项目和分析工具。
  2. 属性:分析输出的详细信息摘要。例如,在Reactome中找到的标识符的数量。
  3. 全基因组概述:对你的途径分析结果的全基因组概述。
  4. 最重要的途径:一个表的前25个途径击中。结果根据最重要的FDR值进行排名。表路径名内的嵌入链接将连接到路径详细信息(第5节)。
  5. 路径细节:每个路径命中的概要视图。点击括号中的路径标识符将连接到Reactome网站上的路径详细信息页面。还提供了路径图、路径汇总、编辑历史、发现的标识符列表和参考文献(如果可用)。
  6. 找到的标识符:根据输入列表在Reactome中找到的同义词或标识符的表。
  7. 未找到的标识符:根据输入列表,列出在Reactome中未找到的同义词或标识符的表。

基因表达分析

ReactomeGSA是整合到Reactome生态系统中的一种新的路径分析工具。它的主要特点是进行定量途径分析(所谓基因集分析)。这增加了直接在通路水平上执行的差异表达分析的统计能力。更多信息,请点击在这里

物种的比较

Reactome中人工策划的人类途径被用来预测其他18个物种的等效途径。这种自动化的计算过程是基于正交的。关于推理过程的完整描述可以在主页的Documentation, Orthology Prediction下找到。

物种比较工具允许您将人类路径与模型生物体中计算预测的路径进行比较,突出显示两个物种共有的路径元素以及模型生物体中可能不存在的元素。

使用路径浏览器标题栏中的分析按钮启动物种比较。在物种比较部分,从下拉列表中选择一种物种。单击Go按钮:

分析10

当分析结果出现在路径层次结构中(或者如果已经存在,则更新)时,就可以查看结果了。

单击路径名称会启动路径浏览器,并显示相关的路径图(参见下面的示例)。

反应对象的颜色表明了对比的结果:

  • 黄色表示该蛋白质在比较物种中具有推断的等价物。
  • 没有重叠表示推断不可能。对于小分子、DNA和其他没有UniProt入口(或在构建途径时没有)的对象来说,情况总是如此。
  • 带有色带的物体表示包含一个以上分子的复合物或集合。颜色的条带反映了对复合物/集合内分子的推断成功。

要查看物种比较结果的复杂或设置,将鼠标悬停在对象和一个小蓝色三角形将出现在其右侧。选择此选项以打开上下文信息面板。

这显示了一个表,代表了复合物/集合中涉及的所有蛋白质。网格中的每个正方形代表复杂/集合的一个组件,如上所述的着色。

路径图底部的物种条(参见上面的例子)可以用来关闭物种比较着色,方法是取消复选框。

有关图表内容的更多信息,请参阅导航路径图部分。

组织分布

传统上,Reactome中的反应代表发生在单个普通人类细胞内的事件。然而,将反应分类为不同的人体组织类型是有用的,以便提供不同细胞和组织特定环境中反应和途径的演化图。我们已经从不同的细胞/组织类型中导入了蛋白质表达人类蛋白质图谱(HPA),将这些蛋白质覆盖在Reactome数据上,并提取特定细胞类型的反应子集。通过Analysis工具可以直观地显示出44种不同人体组织中蛋白编码基因的表达情况。

分析17

使用路径浏览器头栏中的分析按钮启动组织分布。在组织分布部分,从下拉列表中选择一个实验组织数据集[HPA(E-PROT-3)-表达图谱]。窗口刷新后,选择左侧面板中的“可用组织”,然后点击“添加”按钮将组织表达数据添加到分析工具中。如果您想邻接所有组织表达数据,请按“全部添加”按钮。使用“全部删除”和“删除”按钮从过滤器列表中删除组织表达数据。选择所有适当的组织后,c单击Go按钮开始分析。

分析18

当分析结果出现在“路径层次结构”和“概述”面板中时(如果已经存在,则更新),即可查看结果。

分析19

单击路径名称会启动路径浏览器,并显示相关的路径图(参见下面的示例)。

分析21

路径图中的对象根据提交的数值重新着色。颜色是基于在右手边的条形图上所表示的比例。有几个配色方案,选择使用设置弹出面板在右边。比例(在右侧)自动调整以适应数据集中值的范围。

未在输入数据中表示的对象不会重新着色。

带有色带的物体表示包含一个以上分子的复合物或集合。当缩小时,条带的颜色反映了数据集中所代表的分子所提交值的平均值。条带的大小反映了提交值的分子的比例。放大可以看到单个的条带,每个分子都有一个提交的值,按名字的字母顺序排列。颜色的波段现在反映了提交的值。如果提交了多列值,代表多个样本,例如时间点或疾病进展,则每个样本的条带顺序将相同。

要查看复杂组件或设置的详细信息,请右击它。这将打开上下文信息面板(CIP)(参见上图)。这有两个标签——分子和途径。分子显示参与的分子,如果进行了表达分析,则显示它们的表达值。路径识别所选对象是否存在于任何其他Reactome路径中,并链接到适当的路径图。

可以打开多个cip并固定它们,以便在选择其他实体时保持可见。

浏览器会记住上次访问时钉住的cip(最多5个图表)。

实验浏览器工具栏(上图左下角)用于逐列遍历数据,例如时间点或疾病进展。通过单击箭头按钮在它们之间移动。箭头之间显示数据列的标题(如果存在)。路径图将重新着色以反映新的值。

点击插图图标(路径浏览器右上方类似照片的图标),就会显示相关的路径插图(参见下面的示例)。

分析20

开始

路径分析练习

这个练习是检查你是否理解路径分析的结果。

在“首页”中,打开路径浏览器。点击分析数据按钮。当提交表单出现时,在Analysis Tools部分选择“Click here to paste your data or try example data sets…”

然后点击右边的UniProt登录列表按钮。

你的提交页面应该是这样的:

单击Continue。确保检查了Project to human,但不检查Include interactors。当结果出现时:

  1. 在这个数据集中,什么路径的代表性最大?
  2. 有多少id与列表顶部的路径匹配?
  3. 路径中匹配的分子比例大概是多少?
  4. 反应的比例是多少?
  5. 重复分析,但这次勾选“包括互动者”复选框。结果一样吗?如果不是,为什么?

表达分析练习

这个练习是为了检查您是否可以运行和解释Expression Analysis的结果。

启动表达式分析并加载示例数据集。显示结果时,单击GO,查找路径DNA修复,

  1. 这个途径中有多少蛋白质?
  2. 这些有表达数据的比例是多少?
  3. 24小时的平均表达量是多少?
  4. 哪个子通路在24h的平均表达值最高?(提示:将鼠标指针移动到路径概览图上,并查看右侧的比例)。

物种的比较练习

这个练习是检查您可以运行和解释物种比较结果。

开展品种比较,选择斑马鱼品种。当结果显示时,使用路径层次导航到“止血”,“溶解的纤维蛋白凝块”。

  1. 找到图表右上角的PLAT(36-562) -它是什么颜色,为什么?
  2. 找到HRG -它是什么颜色,为什么?
  3. 为什么Zn2+(左上)没有着色?

更多的信息

分子间相互作用叠加

如果用户有兴趣使用来自其他来源的交互者(如完整的)分析数据,则必须在“分析数据”部分选择“包括交互者”选项。一旦进入通路图,分子相互作用(MI)覆盖层允许蛋白质-蛋白质或蛋白质-小分子相互作用被叠加到通路图上。源代码取决于当前选择的交互数据库。默认的交互数据库是完整的(静态的),它提供对每季度更新和本地托管的完整数据版本的快速访问。可以使用路径图中右设置面板中的Interactor overlay选项卡的“PSICQUIC”功能来选择访问intac宿主数据集和交互数据(蛋白-蛋白和蛋白-小分子)的其他PSICQUIC来源。一份名单可让你选择扶少团团员的来源。这是通过查询PSICQUIC注册表自动填充的。如果选择了一个新的数据库,而相互作用者显示在路径图上,这些实体所代表的蛋白质将被用作新数据库中的查询,显示将自动更新。在Interactor overlay选项卡的右上方有一个' i ' (' information ')按钮,提供了一个关于使用MI覆盖的快速提示。在设置面板的“调色板”功能中的“交互式角色颜色配置:”下拉菜单中选择“青色”或“蓝绿色”将改变交互式角色的颜色。

一旦在视口中显示了路径图,实体的右上角就会自动出现一个带有白字母数字的红色小圆圈,表示具有相互作用者的单个蛋白质和化学实体。这个数字表示已知的蛋白质相互作用体的数量。用光标按下红色圆圈将显示交互者。最多10个相互作用体显示为蓝边框(蛋白质相互作用体)或绿边椭圆形(小分子相互作用体)的环形,由黑线连接到所选蛋白质。如果同一个交互程序连接到多个实体,它将被重用,即连接到图中所有选中的实体。此外,如果相互作用者是预先存在于通路图中的蛋白质或小分子实体,则黑线将两个实体连接起来。第二次按下红色圆圈将从路径图中移除相互作用者。如果实体与自身交互,则会显示一个循环箭头。

许多动作提供有关互动者及其与蛋白质实体的关系的额外信息。这些包括:

  • 将鼠标指针悬停在蛋白质相互作用器上,显示包含其名称和UniProt标识符的工具提示。
  • 单击一个交互程序以在新窗口中打开它的数据库条目。
  • 单击连接互动器到路径分子的行,以在新窗口中打开源数据库的交互的详细信息。
  • 右键单击路径对象,或者将鼠标指针悬停在它上面时选择右边出现的蓝色三角形,以打开弹出面板(上下文信息面板)。选择“交互者”(底部)选项卡显示所选对象的所有交互者的表格。该表是可滚动的,并提供有关交互者的附加信息。单击“Interactor”名称或登录标识符分别连接到UniProt或交互源数据库。单击“id”按钮以切换交互器名称或其数据库标识符的显示。点击销钉按钮将打开的表格固定在路径图上的位置。单击右上角的“X”关闭表格视图。

来自完整数据库的交互具有置信度分数,该分数是由一个加权分数的累积和生成的,该加权分数取决于交互检测方法和观察次数。默认下限阈值为0.45。信度等于或高于此的交互被显示出来。将分子覆盖工具栏中的滑块(路径图底部的浅灰色滑块和深灰色滑块)向右移动,以提高置信度阈值。低于显示信心水平的扶少团团员将逐渐消失。将滑块移动到左边,交互者将重新出现。点击分子覆盖工具栏中的“X”隐藏它。

通过使用路径图右下角的控件或鼠标滚轮进行缩放,可以增加路径图中显示的所有对象(包括交互器)的大小。当达到足够大小时,蛋白质的晶体结构或小分子的化学结构将出现在相互作用对象中,如果可能的话。

通过点击分子覆盖工具栏上的“云”按钮或从设置面板中的“交互作用覆盖”选项卡,可以下载显示路径中每个蛋白质的每个交互作用子的详细信息,作为一个以标签分隔的文件。

分子间相互作用叠加练习

这个练习是检查你是否可以使用和解释分子相互作用叠加

打开Netrin-1信号通路图。

  1. 找到蛋白质neo1(胞质醇的左上角)。有多少扶少团?
  2. NEO1和GD3相互作用的置信度是多少?这种交互记录了多少次?提示:这个细节不在Reactome中。
  3. 找到蛋白PTPN11(在NEO1的下方和右侧)。有多少扶少团?展示这个蛋白质的相互作用者。有多少?你能把他们都列出来吗?
  4. 移除交互者最简单的方法是什么?
引用我们!