我们使用人工策划的人类反应集来电子推断15个进化上不同的真核生物物种的反应,这些生物的高质量全基因组序列数据是可用的,因此存在一个全面和高质量的蛋白质预测集。这些物种包括实验室老鼠和大鼠,线虫秀丽隐杆线虫,发芽和分裂的酵母。我们的逻辑推理策略的估计成功率可以表述为“符合条件的反应的百分比,在下面的第二步中定义,在当前的人类数据集中,一个事件可以在模型有机体中推断。”通过这种方法,成功率从实验室小鼠的83.8%到酵母的16.99%不等酿酒酵母。

电子推理分为四个步骤:

  1. 蛋白质同源性数据来源于.黑豹使用参考蛋白质组由UniProt维护的数据集,用于生成跨众多物种的蛋白质编码基因的系统发育树。同源物是从这些树中派生出来的,并按类型(同源物,类似物)加以注释。此外,在有多个直系亲属的情况下,PANTHER根据蛋白质序列的差异推断出最小的直系亲属,这在我们的推断过程中被使用。PANTHER方法的详细描述可以在2013年PANTHER:在系统发育树的背景下,对基因功能和其他基因属性的进化进行建模
  1. 在Reactome知识库中涉及一个或多个蛋白质的所有人类反应都有资格进行电子推断,但有两个例外。基于模型生物的数据推断的反应,以及除了人类以外涉及物种的反应(例如,人类细胞的艾滋病毒感染)都被排除在电子推断之外。检查合格的反应,以确定每个参与反应的蛋白在反应的输入、输出和(如果存在)生物体中进行推断的催化剂中是否至少有一个同源蛋白(HP)。如果一个人类反应涉及一个复合物,在模式生物中至少75%的人体复合物的附加蛋白质成分必须有HPs。
  1. 对于每一个符合这些标准的反应,通过用模型生物HP替换每个人类蛋白来为模型生物创建一个等价的反应。如果一个人类蛋白质与多个模型生物HP相对应,就会创建一个定义集,名为“同系物”(Homologues of…),以模型生物HP为成员。
  1. 在对物种的所有可能反应进行推断之后,任何包含至少1种推断反应的人类路径也将对物种进行推断。

这些电子推断的反应是基于一系列假设的预测。最基本的假设是,如果我们能找到与人类反应中所有蛋白质相对应的模式生物HPs,那么这些蛋白质就会在模式生物中介导相同的反应。这可能不是真的。另一方面,我们可能会错过模式生物中真正的同源反应,因为它是由结构上的差异蛋白介导的,而这些蛋白并没有被PANTHER的技术识别出来。同样地,在种间共享少于75%同源亚基的复合物仍可继续执行相同的功能。因此,在Reactome中提出的电子推断反应并不是数据,而是对指导验证性实验设计有用的假设。

一个修正版本的正交推断过程被用来创建一个初稿SARS-CoV-2感染途径.SARS-Cov-2途径中的事件对应于SARS-CoV-1通路基于SARS-CoV-1蛋白的同源性,创建并填充了含有SARS-CoV-2蛋白的物理实体。

推断统计v77