【资料图】
体细胞突变被认为是肿瘤发生的主要直接原因之一,癌症患者基因组中不同突变特征(mutational signatures)贡献的组合可根据其突变基序(motif)来建模。从体细胞突变中计算突变特征,可深入了解肿瘤的发生,并可为早期预防提供策略。
近日,来自美国新墨西哥大学阿尔伯克基分校的Yan Guo教授团队提出假设,认为突变特征与基因表达之间存在潜在联系,并由此设计了一种基于RNA-seq数据的突变特征预测方法。该方法首次将基因表达与49个已确立的突变特征建立了关联。随后,在精度和AUC (Area-Under-Curve)均大于0.8的条件下,共获得了涵盖31种癌症类型的587个成功模型。最后,作者将这些所有成功的模型组装成了一个在线工具(EMSI),并作为MutEx分析的一个组件,相关工具可在innovebioinfo网站上进行访问(点击文末“阅读原文”下载PDF全文)。
全文概要
突变特征的概念最初于2013年提出,并在癌细胞系中得到了验证。随后,学者们开展了一系列研究探索突变特征与癌症间的关系。人类癌症基因组测序结果揭示了癌症与突变特征间存在因果关系。突变特征被誉为可以精确预测癌症与所暴露环境的关键工具。目前预测突变特征的方法是基于96-motif的方法,这些方法包括非负矩阵分解和最小二乘线性回归。但这些方法在稀疏突变(sparse mutations)的情况下其表现的性能不佳,因此有必要开发新的方法来从新的角度揭示突变特征。
本文作者开发了一种基于基因表达对突变特征预测的模型-EMSI (gene Expression and Mutational Signature Inference)(如图1)。结果发现一部分参考突变特征与基因表达具有相关性,并且该模型可用于稀疏突变的定位。
图1. EMSI框架图
作者首先收集了来自9096个样本,含56716个基因表达的数据集,并对这个数据集做单变量线性回归,以评估不同癌症类型中一个基因和一个突变特征间的相关性(图2)。继单变量线性回归之后,使用了三种机器学习方法(RF,XGBoost和SVM)来对突变特征和基因表达之间的关联进行建模。结果发现在利用这33种癌症类型的体细胞突变和基因表达数据来模拟突变特征和基因表达之间的关系时, SVM的AUC最高,另外两种方法(RF和XGBoost)性能一般。大约65%的已知突变特征可以通过每种癌症类型的基因表达来建模。这说明体细胞突变对基因表达改变的调节作用并不是普遍存在的,并不是每一个体细胞突变都能对基因表达产生影响。体细胞突变也可以异常调节non-coding RNA的表达。通过将non-coding RNA数据整合到数据集后,模型的整体适应性大幅提高,并且三种机器学习方法的性能变化取决于场景,如XGBoost在较大的样本量下表现更好,SVM则在较小的样本量下表现更好。
图2.EMSI模型结果分析及比较
最后作者分析了其模型的一些局限,如这项研究重点关注了单碱基替换突变特征,忽略了相对难以建模的双碱基替换特征和小的插入和删除特征;在验证时使用了一个现有的肺鳞状癌基因表达数据集来比较吸烟者和非吸烟者用于验证吸烟相关的突变特征,而非一个独立的数据集。但由于既包含体细胞突变又包含基因表达的数据集比较罕见,而EMSI模型在现有基因表达数据集中所表现的良好性能,证明了该模型可在未来RNA-seq研究中用于推断突变特征。
阅读原文