作者:Mike May/ 文 高大海 倪伟波/ 译 来源: 发布时间:2018-6-26 16:58:13
大数据,大图景
——当代谢组学遇上系统生物学

 
一个被遗忘的第四类分子生物学可能是最贴近表型的。几十年来,人们一直专注于三个分子:DNA产生RNA,RNA产生蛋白质。现在,许多科学家都开始注意到了另一个组分:代谢产物,它们是由机体内的生化途径中的蛋白质所产生的。人们听到了太多关于基因和基因型的信息,但同样重要的是,人们想要探究基因与环境因子互作时发生了什么,同样也想找到区分健康与疾病的分子表型,这些正是代谢组学的用武之地。
 
毫无疑问,那些着眼于生命科学的相互元素的系统生物学家想要将代谢组学与基因组关联起来。“没有基因组序列,代谢组学不能真正发挥自身作用,”位于美国加州门洛帕克的专门从事基因组学分析的Pacific Biosciences公司首席科学官Jonas Korlach说 。“一旦你发现了代谢产物并想将它们作为新抗生素或新途径进行分析,就需要基因组信息来鉴定出相关的酶并克隆这些基因。”
 
西澳大利亚莫道克大学的分离科学和代谢组学实验室主任Robert Trengrove同意这种看法,尽管代谢组学对系统生物学的影响尚处于起步阶段,但他看到了积极的开始,而且关键在于团队合作。 “在 ‘组学’方面我们有很擅长做信息学的人,”Trengrove说,“但很少有人能跨多个‘组学’领域,包括脂类组学和表观遗传学。”
 
Trengrove的团队已经联合其他团队,通过从ICU采集血液样本构建患者的代谢谱。他说,“通过这种方式,我们能够开始评估各种化合物作为生物标记物和病人康复指示物的用途。”为了确切知道发生了什么,生物标记模块必须与蛋白质组学和基因组学相关联,但这项工作才刚刚展开。
 
尽管如此,系统生物学已经成为了生物学的核心。传统上,生物学已将机体或细胞分解为各个部分。现在,系统生物学似乎接受了亚里士多德的观点——“整体大于其组成部分的总和”,并借用包括代谢组学等多个领域的方法。用于处理来自这些领域统称为“大数据”的工具正在涌现。
 
关于数据的再思考
 
总体来说,代谢组学创造了一个数字挑战。“代谢组学目前的用处包括:在生物样品库中研究大规模基因组队列,将基因型和具有特定表型的基因组变异相关联,通过监测食品成分或内源性代谢物的营养研究,或为流行病学研究中的检测提供支持,”总部位于马萨诸塞州沃尔瑟姆市的赛默飞世尔科技公司蛋白质组和代谢组学部门的营销总监Andreas Huhmer说。这些研究会产生大量的数据。在人类中已经发现的7500多种代谢物中,只有2500种直接来自于人体;剩余的则有其他来源,包括人体消化的食物和药物。
 
从数字上来说,我们可能只是在起点。正如Huhmer所说,“未来,预计将确定更多的代谢物,特别是在对肠道中代谢物以及关联新陈代谢的微生物的解析中持续出现新的进展。”肠道菌群在代谢的刻画中发挥重要作用,为研究与生活方式和饮食习惯有关的慢性和急性疾病的影响提供了信息宝库,例如二型糖尿病和肥胖病。
 
目前,代谢组学有Metabolomics Workbench和MetaboLights两个数据平台,它们都能给科学家团队提供更多的数据可供分析,使他们能够在全球范围内共享数据。
 
利用脂类组学
 
脂类是代谢组学拼图的另一块完整组成,但至少与DNA,RNA和蛋白质相比,对这些分子的研究相对较少,是一个一直被忽视的组学领域。然而,脂类为系统生物学提供了一个有用的工具,因为“它们是可以被量化的,告诉我们关于细胞或组织的状态,”位于德国德累斯顿的Lipotype公司首席执行官Kai Simons解释道。
 
该公司的Lipotype Shotgun Lipidomics技术提供了量化的方案。这种技术对整个萃取液进行质谱分析,而不是先用液相色谱法分离。只用一微升血液,这种技术便可达到Simons所谓的“识别多达2300的脂质的绝对量化。”
 
科学家寄送样品到Lipotype公司,它们会在短短两个星期完成测试。如果需要的话,该公司的软件可向希望查看数据的研究人员开放。尽管如此,生物学家还需要收集更多关于各种代谢物的数据,并确定它们的作用。事实上,理解更多代谢产物的功能可能对理解完整的生物系统产生最大的影响。
 
揭示功能
 
即使我们能够检测任何生物基质中的所有的蛋白质和代谢产物,位于马萨诸塞州米尔福德的Waters 公司健康科学营销总监Jose Castro-Perez说道,“我们也仅知道其中一小部分的功能。”科学家们需要能完成代谢物检测并同时解析其生物学功能的方法。这就需要分析和生物信息学工具来进行结合多种形式组学数据的疾病或治疗相关的途径分析。
 
为此,Waters 公司开发了SONAR软件,这是配合该公司的Xevo G2-XS QToF系统的一种数据采集模式,该系统提供了四极杆飞行时间质谱(QToF)。SONAR软件可以在单样本注入的数据独立分析(data independent analysis ,DIA)实验中,将完整的前体和碎片离子光谱样品进行归类,使研究人员获得蛋白质或代谢物的定量和定性信息。“这种新的DIA采集模式比其他的DIA方法更先进,因为它提供了更快和更多选择性的复杂样品的数据采集,”Castro-Perez说。“此外,这种新方法可以提高数据库的检索和定量精度的可靠性。”Xevo G2-XS QToF系统可以与Waters公司的色谱工具进行诸如用于高通量的超高效液相色谱法的集成。
 
“生成高质量的数据是很重要的,但最终你需要的是从原始数据中得到有意义并可操作的生物信息,”Castro-Perez说。为了综合信息、简化数据处理以及处理流程,Waters公司开发了一款客户机/服务器应用的Symphony 软件,允许一个或多个数据分析,或处理功能按顺序的自动化。该工具甚至可以在仪器运行后立即启动数据处理,并在没有用户干预功能的情况下完成数据处理,这一特点在大规模研究中是非常重要的。
 
整合互补的方法
 
除了所有这些存储和数据分析方面的进展,科学家们仍在研究代谢组学上面临的重大阻碍。“在非定向工作流程中的瓶颈之一是鉴定未知的化合物,”总部设在德国不莱梅的 Bruker Daltonics 公司代谢组学市场经理Aiko Barsch说。“这是质谱和核磁共振同时具有的优势。”
 
例如,高分辨率,精量化(HRAM)质谱可以揭示未知化合物中的元素组成。“质谱技术已经取得了长足的发展,而且提供‘极端方法’的系统可以使研究人员从所谓的‘同位素精细结构’中读出元素的构成,”Barsch说,“但如果样品中出现一个真正未知的,完全不在数据库中记录的东西,这就需要从头进行结构解析的能力,那将主要由核磁共振完成。”所以,质谱和核磁共振可以一起使用,作为代谢组学中的互补技术。
 
为了进一步深挖复杂样品,研究人员常常将质谱与液相或气相色谱联用。“这将有助于确定代谢特征,”Barsch解释说,“因为将分离和高分辨率检测联用可以校准样品中的特定成分。”
 
核磁共振的进展也很有用。如今的平台中的标准操作程序允许科学家将方法从一个平台传输到另一个平台。在代谢组学中,团队协作水平的不断提高使得这些改进对科学家在国际上的合作至关重要,因为他们需要寻求来自不同实验室核磁共振数据的一致性。
 
尽管代谢组学研究人员同时用到质谱和核磁共振,但位于加州圣克拉拉的安捷伦科技公司的代谢组学和蛋白质组学的市场总监Steve Fischer说,“由于仪器的成本、测量的广度和灵敏度,目前的趋势强烈倾向于质谱分析解决方案。”
 
由于大量的可被检测的代谢物的质谱是重叠的,色谱与质谱联用能够对样品进行分离、提供深入的分析。“从广义上讲,一个液相色谱 / 质谱系统可以比气相色谱 / 质谱系统测量更多的东西,”Fischer说。一些样品不易挥发,这就可以用到气相色谱。然而,“这两个系统都提供了质谱信息,这些信息可以用来追踪并最终鉴定出那些已被发现的代谢物,以及代谢物的丰度,”他说。通过比较样本,这些信息揭示了哪些代谢物正在发生变化,数量是多少。
 
分析这些变化需要专门的软件。2016年,安捷伦科技公司发布了VistaFlux软件,可以进行稳定标记同位素示踪。由于各种生物途径都能产生代谢产物,“解析产生代谢产物途径的唯一办法是通过跟踪从中间代谢物到最终产物过程中示踪剂的消耗,”Fischer解释道。“VistaFlux能将数据分析时间从手工处理的数周缩短到几个小时,同时增加了可检测的代谢产物的数量。”
 
对于一个完全依赖代谢组学的解决方案,科学家可以联用安捷伦科技公司的1290 UHPLC系统和6470 Triple Quadrupole液相色谱 / 质谱系统,并使用安捷伦科技公司的dMRM代谢组数据库和方法,该平台可以测量21种代谢物。
 
其他公司也为科学家提供了更多的分析选项。例如,赛默飞世尔科技公司的HRAM Orbitrap-based质谱系统能够在不到一小时时间内从几微升的人血浆中检测多达1000个代谢产物。“对于高通量非靶向分析来说,”Huhmer说,“赛默飞世尔科技公司的Q Exactive质谱,配合色谱分离(包括离子色谱和气相色谱)的广度可以在代谢组中检测解析多种化学组分。”该技术能够与赛默飞世尔科技公司的Compound Discoverer软件联用,可以充满信心地将数据转变成有意义的结果,Huhmer表示。
 
系统水平上的综合
 
为了理解代谢产物的系统生物学,或它们是如何一起作用的,科学家必须将这些通路联系起来,这正是基于云的XCMS在线平台的目的。“只需要点一下鼠标,你就能从液相色谱 / 质谱系统的反应中得到需要的数据,去除那些预测为异常的通路,”XCMS在线平台的创始人Gary Siuzdak解释道,他是位于加州拉荷亚市的斯克里普斯研究所代谢组学中心的主任和教授。“它还可以将蛋白质组和基因组数据集成在分析中。”该平台提供了多重水平的验证。
 
最重要的是,XCMS在线平台可以轻松地浏览结果。例如,它创建了一种通路云图,是由通路构成的代谢物交互图。通过单击通路的气泡就可以提供通路的名称、与之关联或不相关的代谢产物、相关的统计数据以及更多。
 
已经有超过14000名的科学家使用了XCMS在线平台,该平台可以让他们进行分析并共享结果,因为它是基于云计算的技术。“我们已经看到来自每个大陆——甚至包括南极洲——的使用者,”Siuzdak说。
 
随着分析设备的不断完善,生物信息系统功能的日益强大,还更容易使用,系统生物学方法将延伸到更多的领域。“系统生物学中这一强烈的趋势正在愈发明朗,”德国亥姆霍兹联合会计算生物学研究所主任Fabian Theis说,“并且医学研究正在产生大量的‘组学度量’。”
 
代谢产物在一天中会产生波动,血液是追踪变异的良好样本。观测来自大量病人同类群的血液样本是特别有趣的。Theis 说,“由此,我们可以整合各种‘组学’,建立网络,然后将它们与同类群或临床试验进行关联。”
 
亥姆霍兹联合会专门研究这些大的同类群。他们使用质谱技术测量了几千名患者的代谢物,然后将代谢物浓度与单核苷酸多态性(SNPs)相匹配。“你通常发现数十或数百个代谢物与SNPs关联,如果你把某个SNP与两个代谢物的比例相关,这两个代谢物在一个生化途径中相邻或产生反应,你就可以看到这个SNP对该反应的效果,”Theis解释道。“例如,我们可以选择健康和疾病组,或更简单的表型,如男性和女性,回答我们是否找到这组变量的代谢足迹。
 
然而,这些数据不能提供易于解释的结果。许多关联来自于间接效应,因为通路中的某种反应可能会对其他反应产生深远的影响。通过计算和统计工具,Theis及其同事在清除了所有其他影响之后,将两个代谢物进行了关联。“随后,这个相关性表现出清晰的途径,”Theis 说,“然后你就可以进行跨疾病的比较。”
 
随着科学家和生产商开发更多的工具来更详细地分析代谢组学,我们将更多地了解生物系统——它们如何在健康和疾病状态中起作用,以及它们如何随着时间和环境的变化而改变。这其中的关键在于更多的以收集更大量的数据集为中心,并与世界各地的科学家分享这些数据。■
 
(译者高大海是老挝黄金赌场海洋研究所助理研究员)
  
Mike May是佛罗里达州的自由作家和编辑。。
DOI: 10.1126/science.opms.p1700115
鸣谢:“原文由美国科学促进会(www.aaas.org)发布在2017年5月12日《科学》杂志”。官方英文版请见http://www.sciencemag.org/features/2017/05/big-data-big-picture-metabolomics-meets-systems-biology。
 
《科学新闻》 (科学新闻2018年5月刊 科学·生命)
发E-mail给:      
| 打印 | 评论 |