LC-MS作为非靶向代谢组学领域的重要工具,促进了精准医疗的发展,如识别生物标志物、诊断疾病、检测治疗结果等。传统的工作流程是:(1)原始数据处理;(2)数据清洗;(3)代谢物鉴定;(4)建立预测模型。但基于这个流程,往往有着很多的困难,如代谢物鉴定不完全,峰值丢失,保留时间漂移等。由于这些问题未能很好地解决,预测模型的准确度通常会大打折扣。2022年8月,由斯坦福大学申小涛作为第一作者在Briefings in Bioinformatics期刊上发表了一篇题为“Deep Learning-based Pseudo-Mass Spectrometry Imaging Analysis for Precision Medicine”的文章。DeepPseudoMSI的出现,绕过了上述的难题,直接对具体的精准医疗问题进行解释。LC-MS的原始数据可以被视为包含保留时间、质荷比和强度这三维信息的由数百万个数据点构建的原始图像,DeepPseudoMSI可以处理这些原始图像为伪图像,并使用深度学习方法直接对伪图像进一步处理,而不是通过传统的峰值提取、代谢物鉴定等步骤。
01核心原理
DeepPseudoMSI由两个部分组成。第一个部分是伪质谱图像转换器,DeepPseudoMSI可以将LC-MS原始数据转换为伪质谱图像(图1A)。LC-MS原始数据通常包括数百万个数据点,DeepPseudoMSI需要根据x轴(保留时间)和y轴(m/z)的范围将其划分为不同的像素(或网格),以减小尺寸。简单地说,DeepPseidpMSI将同一个像素中的所有数据点组合起来表示该像素的强度。然后,将每个像素的强度线性变换为像素的颜色,即像素强度越高,其颜色越深。最后,根据分辨率(例如224×224),将一个具有数百万个数据点的LC-MS原始数据转换为数千像素的伪质谱图像。
第二个部分是伪质谱图像预测器(图1B),这是一个预先训练好的VGG16网络(卷积神经网络),该网络从伪质谱图像中提取图像特征,预测结果。预测器能实现的目的完全取决于其训练数据,如区分健康与疾病的样本。预测器是一个监督式深度学习模型,其需要大量的标签数据来训练。为了扩大用于训练的伪质谱图像的数量,DeepPseudoMSI采用了一种称为数据增强的策略(图2),即对每一张伪质谱图像随机添加RT、m/z和intensity的误差来模拟数据采集过程中的漂移。最后,一个真实的伪质谱图像可以生成多个模拟图像,显著增加了训练数据的数量。
图1. DeepPseudoMsi的工作流程
图2. 伪质谱图像增强流程
02实际应用
为了衡量DeepPseudoMSI的有效性,该研究团队使用了之前发表的有关孕妇胎龄的数据集(图3),使用DeepPseudoMSI来预测孕妇的胎龄(单位为周)。首先,利用伪质谱图像转换器将LC-MS原始数据转换为伪质谱图像。为了确定伪质谱图像的最佳分辨率,研究团队比较了通常使用的两种224×224和1024×1024分辨率(图4)。通过比较均方根误差(RMSE)可以看到224×224分辨率(RMSE:3.61)要比1024×1024分辨率(RMSE:6.10)更好,因此选择了224×224分辨率进行伪质谱图像生成。
图3. 胎龄数据总览
图4. 分辨率选择结果总览
利用数据增强方法获得大量模拟数据进行训练,构建了胎龄预测模型(图5)。最后我们可以看到,使用DeepPseudoMSIR预测结果的RMSE为4.1周(MAE为2.7周,校正决定系数R2为0.79),这个结果是要优于之前已发表研究中由随机森林算法构建的传统模型给出的结果(RMSE为4.34周,调整R2为0.76)。
图5. deepPseudoMSI预测孕妇胎龄结果
03方法优缺
到目前为止,这是第一个基于LC-MS的非靶向代谢组学数据转换为伪质谱图像的系统研究,并证明了该方法具有应用于精准医疗的潜力。卷积神经网络适用于图像识别领域,但按照以往的经验来看,卷积神经网络对质谱数据的特征提取很不理想。在DeepPseudoMSI中,申小涛等人创造性地提出伪质谱图像这一概念,使得卷积神经网络较好地应用在了质谱图像上。
但是,此次实验也有一定的不足之处。第一,深度学习算法是一个典型的黑盒过程,我们无法得知预测过程,也就是无法得知伪质谱图像中哪些细节对我们的预测贡献最大。第二,此次实验只使用了正离子模式下的质谱数据,之后可能需要其他的补充实验。
DeepPseudoMSI是一个基于卷积神经网络算法的深度学习模型,训练数据来自基于LC-MS原始数据转换产生的伪质谱图像。DeepPseudoMSI显著增强了质谱数据在精准医疗领域的应用能力,如文中实践的预测孕妇胎龄。DeepPseudoMSI的优越性来自于它越过了传统研究方法中遇到的诸多难题,直接利用深度学习算法处理原始质谱数据,从而来解决我们遇到的精准医疗问题。
来源: iMetabolome