Analytical Chemistry | 深度学习实现高分辨率LC-MS数据中的精确峰检测

1

研究背景

液相色谱与质谱联用(LC-MS)是代谢组学中最受欢迎的分析平台之一。尽管基于LC-MS的代谢组学应用程序种类繁多以及分析硬件的发展,但是LC-MS数据的处理仍然遇到一些问题。最关键的瓶颈之一是原始数据处理,LC-MS原始数据通常由成千上万的原始MS质谱图组成;每个光谱都有其自己的序列号,并且该数目随保留时间(RT)的增加而增加。这些数据通常包含数千个信号,使得手动数据处理几乎变得不可能。当前用于自动LC-MS数据处理的流程通常包括以下步骤:(1)检测感兴趣区域(ROI);(2)检测色谱峰,然后对其进行积分;(3)所有样品的峰匹配(分组);(4)通过注释相应的加合物和碎片离子将属于同一代谢物的峰聚类为一组。

XCMS和MZmine 2是用于LC-MS原始数据处理的最广泛使用的开源软件,能够执行所有四个步骤,并向用户提供光谱中发现的峰及其积分强度(即峰面积)相当完整的表。不幸的是,这些应用通常会产生许多错误的阳性信号,这可能导致错误的科学发现或使对真实发现的解释复杂化。

峰值检测和积分问题可以通过机器学习的方法来解决,例如人工神经网络(NNs)。深度学习(DL)的最新进展,尤其是卷积神经网络(CNN)在计算机视觉中的发展以及DL框架的快速发展,使适应解决问题的DL方法在生物信息学中成为可能。最近的论文中,作者将NN用于预测特定坐标是否为峰的中心。由于该方法非常耗时,仅预测峰中心的坐标,而不计算峰面积,因此几乎不能认为是解决问题的方法。后者可能是一项更加艰巨的任务,尤其是在峰重叠的情况下。DeepIso是用于LC-MS数据处理的DL应用的另一个有趣示例。作者应用CNN来检测肽的特征并计算其丰度。另一篇论文描述了使用机器学习来优化产生高质量特征的GC-MS代谢组学数据中的峰检测。Kantz等人的最新论文致力于DL在LC-MS代谢组学数据中进行出色的噪声过滤的应用。后两种算法处理最初的预处理数据,这些峰已被现有软件(XCMS,MZmine 2和其他几种软件)检测到并积分。但是,这些方法不能解决积分错误或峰丢失的问题。

目前的工作致力于CNN的应用,以解决常见处理流程的初始步骤中的原始LC-MS数据中的峰检测和积分问题。研究者开发了峰值算法,仅实现流程的前两个步骤。Peakonly已显示可与实验室中的液相色谱-四极杆飞行时间(LC-Q-TOF)数据一起使用。因此,该算法适合于各种LC-MS数据的应用。但是,明显不同的数据(例如GC-MS)可能需要对CNN进行额外的训练。

2

数据挖掘和CNN描述

代码是用Python v.3.5编写的。使用PyTorch v.1.2 构建和训练了神经网络。

CNN用于峰分类

图S1

CNN用于峰积分

图S3

数据挖掘

_

来自LC-MS仪器的原始数据被转换为mzML文件格式的数据。使用pymzML进行mzML数据读取,基于Python实现了类似于centWave的ROI检测算法。在centWave中,零点的出现导致ROI立即终止。与centWave相比,研究者开发的算法中的唯一修改是增加了ROI可以连续包含零点但不超过三个点的可能性。实际上,一行中零点的数量是一个可变参数,并且可以适应不同类型的数据。进行此修改的目的是噪声有时会随机形成一些看起来像峰值的东西。如果没有邻近点,即使是对于人类专家,也很难对区域包含峰值还是噪声进行分类。

为了建立数据集,研究者手动注释了4000多个ROI。为了获得ROI实例,使用了内部LC–Q-TOF MS光谱:从人血清和淡水鱼链球菌晶状体中提取物的光谱,以两种阳性模式获得液相色谱–反相高效液相色谱和亲水相互作用色谱,MS扫描速率为1或3 Hz。需要数据的多样性来扩展各种峰形,从而增强神经网络的泛化能力。

每个ROI都属于上述类别之一:ROI不包含峰值,仅包含噪声(类别1);ROI包含一个或多个峰(类别2);投资回报率包含一些峰值,但需要专家的特别注意(第3类)。最困难的问题是小强度的噪声峰值(2类)与噪声太大,太小或看起来奇怪而不能归因于峰值的信号(3类)之间的分离。因此,类之间的边界相当模糊,甚至可以将所得数据集中非常相似的峰分配给不同的类。

每个类别的ROI实例

CNN用于ROI分类

研究者利用CNN的固有能力来对不同的对象(文本,图像,音频,视频等)进行分类,并利用CNN将ROI分为三类。在输入到神经网络之前,对所有ROI进行数据预处理,以进行CNN的统一数据输入。每个ROI的长度被线性插值,将ROI大小转换为256点。ROI中的信号强度最大缩放到统一。因此,研究者的网络对强度一无所知,仅根据峰形进行预测。CNN用于ROI分类的输出是将ROI分配给三个类别中的每一个类别计算出的概率(从0到1);三个概率值之和等于1(图S1)。使用测试集估计最终模型的准确性,该准确性达到了约87%。为了进行更详细的分析,构建了混淆矩阵(图S2)。矩阵显示,研究者的模型很少将峰与噪声混淆,只有0.5%的手动标记峰被归类为噪声。该模型的大多数错误对应于对类别3的ROI的错误分配。进一步的分析表明,在大多数错误情况下,即使对于人类专家,ROI对于分配也不是很明显。通常,在这种情况下,模型预测将ROI分配给不同类别的可能性非常相似。

图S2

CNN用于峰积分

研究者认为确定LC峰区域是一个分割问题。通常,分段导致将图像或信号的一部分归因于特定对象。为了更好地确定峰边界,研究者不仅预测了峰区域,而且还预测了分离区域。第二个CNN对峰积分的基本结构思想类似于U形网,其特征传播从收缩部到膨胀部分的地图。该U形网通常用于图像的快速和精确的分割。但是,由于ROI比图像简单得多,因此研究者进行了一些体系结构修改并大大减少了参数数量(图S3)。在测试集中,最终模型的联合交集(IoU)度量标准达到约0.88,预测分离区域达到0.85。

3

算法评估

使用两种方法评估峰面积计算的质量。首先,研究者使用测试集中的数据比较了手动注释的区域和peakonly发现的区域。面积的平均相对误差(ΔS / S)约为4%。其次,研究者使用了来自MetaboLights的资料(MTBLS234)和相应论文(20)的数据。在已发布的线性相关性(面积与浓度)和研究者的算法重新评估的峰面积之间发现了很好的一致性。

4

结论

研究者基于卷积神经网络开发了一种新的特征检测方法。所开发的算法包括三个主要步骤:(1)ROI检测,(2)ROI分类,(3)峰检测和积分。对于第二步和第三步,研究者构建并训练了两个神经网络。该方法证明了能够以高精度检测真正的正峰并显着减少噪声量的能力。所开发方法的优点之一是能够识别带有噪声形状的峰。因此,在原始数据处理的第一阶段(峰值检测)就获得了一个相当不错的峰表。可以大大简化分析师的工作。原始数据中检测所有峰的努力始终是在检测低强度峰与消除噪声之间取得平衡。即使是熟练的人类专家也不能总是在这两个群体之间划清界限。使用神经网络的优势之一是其高度的灵活性。通过添加用于训练甚至修改当前架构的新数据,可以显着提高模型的质量。如果需要,还可以通过在ROI分类期间增加概率阈值来提高检测到的峰的质量。已证明Peakonly可检测和整合单个LC-MS文件中的高质量峰。

对于典型的mzML文件(〜50 Mb)处理,开发的算法花费不到2分钟的时间,对于单个样品的处理来说完全可以接受。但是,某些算法在Peakonly中实现可以通过代码重构显著加速,并且单个LC-MS文件处理预计将持续不到30 s。研究者认为,当前的工作将引起人们对神经网络在解决原始数据中峰检测问题方面的关注。与其他实验室的合作可以通过使用其他LC-MS设备的数据扩展训练数据来显着提高方法质量。当前的方法是为代谢组学的目的而开发的,用于处理高分辨率LC-MS数据,但是可以利用高分辨率GC-或LC-MS技术在其他领域进行多种改编。

_

_

参考资料

_

Melnikov A, Tsentalovich Y P, Yanshole V V. Deep learning for the precise peak detection in high-resolution LC-MS data[J]. Analytical Chemistry, 2019.

Data availability

https://github.com/arseha/peakonly

作者 / 编辑:王建民

_

本站文章资源均来源自网络,除非特别声明,否则均不代表站方观点,并仅供查阅,不作为任何参考依据!
如有侵权请及时跟我们联系,本站将及时删除!
如遇版权问题,请查看 本站版权声明
THE END
分享
二维码
海报
Analytical Chemistry | 深度学习实现高分辨率LC-MS数据中的精确峰检测
液相色谱与质谱联用(LC-MS)是代谢组学中最受欢迎的分析平台之一。尽管基于LC-MS的代谢组学应用程序种类繁多以及分析硬件的发展,但是LC-MS数据的处理仍然...
<<上一篇
下一篇>>