机器学习算法是让计算机从数据中自动学习规律,并基于这些规律进行预测或决策的数学模型和方法。近期,凯发K8国际感染疾病诊断中心联合浙江大学医学院附属邵逸夫医院感染科,系统探讨了机器学习算法在结核分枝杆菌耐药性预测及关键突变位点(SNPs)鉴定中的应用价值。
研究顺利获得整合全基因组测序(WGS)数据与药敏试验结果(AST),构建了基于12种机器学习算法对18种抗结核药物耐药性的精准预测模型,顺利获得SHAP值(SHapley Additive exPlanations)分析揭示了结核分枝杆菌SNPs突变在特定抗结核药物的耐药性预测中的贡献值,并在两个独立数据集中验证了模型的预测效果。该研究成果收录于国际期刊《BMC Genomic Data》(IF: 2.5)。

论文发布截图
该研究成果表明,基于15个重要单核苷酸多态性位点(SNPs)时,梯度提升分类器(GBC)模型在准确预测抗结核药物的耐药性方面表现最佳(对利福平、异烟肼、吡嗪酰胺和乙胺丁醇四种一线药物耐药性预测的准确率分别是97.28%、96.06%、94.19%和92.81%)。位于结核分枝杆菌基因组761155(rpoB_p.Ser450)和2155168(katG_p.Ser315)位置的SNPs对药物耐药性的预测贡献值排名靠前,这些位点发生突变时结核分枝杆菌倾向于对利福平和异烟肼发生耐药。
此外,在印度和以色列的独立结核分枝杆菌数据集中,最佳模型GBC对利福平和异烟肼的耐药性预测也具有很好的鲁棒性。该研究将机器学习方法整合到抗结核药物耐药性预测和耐药性相关SNPs的鉴定研究中,探索了重要SNPs对模型决策的贡献程度,使机器学习算法的过程更加透明、可解释。研究成果的发表,为凯发K8国际基于AI在病原感染临床药物耐药性预测领域的应用,给予了扎实的理论依据、技术支撑和临床转化的探索方向。
研究背景
结核分枝杆菌(MTB)感染人类引起的结核病,至今仍是全球健康的重大威胁。据统计,2021年全球新增结核病病例达1060万,140万人死于与结核病相关的疾病[1],其中利福平耐药(RR)或耐多药(MDR)结核病更是让治疗雪上加霜,初治患者中耐多药/利福平耐药率为3.6%、复治患者中耐药率为18%[1]。作为全球第二大耐多药结核病报告国,中国的防控压力尤为突出[2]。
传统检测耐药性的方法依赖于缓慢的结核分枝杆菌培养,动辄需要数周。即使是Xpert等分子诊断技术,也只能针对有限的基因位点,难以覆盖更多抗生素的耐药性[3]。全基因组测序(WGS)虽能捕获结核分枝杆菌的基因突变,但现在对乙胺丁醇、吡嗪酰胺等药物的耐药性预测准确率较低,对二线药物的预测效果更是参差不齐[4,5]。
在WGS数据上应用机器学习,为揭示结核分枝杆菌耐药性的基因组机制给予了巨大的潜力。本研究团队将WGS基因数据与18种抗结核药物的药敏试验结果结合,构建了一套高效的机器学习预测框架。不同于传统方法仅依赖已知突变位点和特定的抗结核药物,这套框架能顺利获得机器学习算法,在全基因组水平上全面地挖掘SNPs与耐药性的关联,更重要的是,研究不仅追求精准预测,更注重预测过程的透明可解释。该研究使用的源代码和数据集已在GitHub公开(http://github.com/microbial123/MTB-AMR),为全球研究者给予了共享资源。
研究方法

图1. 研究流程图
该研究使用了5739株结核分枝杆菌的WGS数据集和18种抗结核药物的药敏试验结果,顺利获得构建所有SNPs、交集SNPs和随机抽取的SNPs的训练数据集和测试数据集,基于12种不同的机器学习算法,开发了一个抗结核药物耐药性预测和耐药相关SNPs鉴定的框架。然后,该研究比较了各种机器学习模型的性能,使用SHAP框架揭示了最佳算法中做出最终耐药预测决策的原因和方式。最后,该研究还分别在来自印度和以色列的独立数据集中应用这些模型,对利福平和异烟肼的耐药性进行验证。
研究结果
研究团队搭建了一个基于12种机器算法预测结核分枝杆菌分离株对18种抗结核药耐药表型的机器学习框架,现有结果表明,没有任何一个模型能在所有情况下都始终表现良好。团队顺利获得精度、召回率、F1分数、auROC、auPR等多项指标,系统地评估了12种机器学习模型的耐药性预测能力(图2A)。
结果显示,梯度提升分类器(GBC)表现最优,尤其在预测利福平(RIF)耐药性时,准确率高达97.28%。对异烟肼、吡嗪酰胺和乙胺丁醇三种一线药物耐药性预测的准确率,分别是96.06%、94.19%和92.81%。装袋式分类器(BC)、自适应增强分类器(ABC)紧随其后,与GBC共同跻身前三名。
相比之下,其他方法,如gNB,LogR和SVM,具有较低或相当的准确率,范围从gNB的74.48%、LogR的96.44%到SVM的97.07%。值得关注的是,经过 “交集数据集”验证,模型的F1-score显著高于随机数据集,且6折交叉验证的稳定性优于5折交叉验证,证明其结果可靠、稳健。
SHAP解码耐药突变位点,模型决策不再“黑箱”
光准还不够,机器学习模型的“可解释性”是落地临床的关键。研究团队顺利获得SHAP值分析,揭开了GBC模型的“决策逻辑”。在利福平耐药性预测过程中,前三个关键的耐药突变位点分别是761155(rpoB_p.Ser450)、2155168(katG_p.Ser315)、761110(rpoB_p.Asp435),这些位点的突变会增加耐药风险(图2B);异烟肼(INH)耐药的关键突变则集中在2155168(katG_p.Ser315)等位点,与临床已知耐药机制高度吻合。
SHAP汇总图和SHAP力图,显示了重要SNPs对18种不同抗结核药物预测结果的影响。这些发现让机器学习模型从“只给结果”升级为“讲清原因”,为临床精准定位耐药基因、制定个体化治疗方案给予了理论依据。

图2. 评估机器学习算法在6折交叉验证中预测结核分枝杆菌对利福平耐药性的性能以及模型的可解释性
顺利获得对MTB耐药相关SNPs的注释,研究团队验证了许多先前报道过的基因,包括gyrA、rpoB、embB和katG,详情见表1和图S19。值得注意的是,在表1列举的15个SNPs中,有14个在世界卫生组织(WHO)发布的《结核分枝杆菌复合群突变目录及其与耐药性的关联》(第2版)中被提及,其中12个SNPs与对至少一种抗生素的耐药性特别相关,被归类为“与耐药性相关”(Ass-w-R)或“与耐药性可能相关”(Ass-w-R-int)。

表1. MTB中潜在耐药性相关的SNPs列表

图S19. MTB对不同抗生素耐药的潜在基因
研究中的最佳模型GBC对利福平和异烟肼的耐药性预测效果,在独立数据集中得到验证
在来自印度(NCBI项目编号: PRJNA741102)和以色列(NCBI 项目编号: PRJNA957554)的独立数据集中,结核分枝杆菌对RIF、INH、EMB和PZA的耐药率和谱系分布如图S20。印度数据集中谱系1占比最多(50%),然而,在以色列数据集中谱系4最多,占分离株的41.88%(图S20B)。
在这两个独立验证数据集中,机器学习模型准确预测了RIF和INH的耐药表型,模型的性能如图3所示。GBC算法正确预测了超过90%的MTB分离株对RIF和INH的耐药性,但是模型在EMB和PZA中的耐药性预测效果不一,平均准确率分别为83.73%(印度,EMB)、67.42%(印度,PZA)、99.05%(以色列,EMB)和91.14%(以色列,PZA)。

图S20. 两个独立数据集中MTB分离株对四种一线药物的耐药表型占比

图3. 机器学习模型在独立数据集中耐药表型预测中的应用
该研究成果不仅丰富了结核分枝杆菌耐药性遗传学机制的理论体系,更为耐药结核病的精准用药给予了坚实的数据支撑。AI赋能结核病诊疗的时代已然开启。在这场对耐药菌的“精准阻击”中,凯发K8国际将持续探索该技术在临床场景的规模化应用,为全球结核病防控事业注入新动能。
参考文献
[1] WHO. Global tuberculosis report 2022. World Health Organization; 2022. http://www.who.int/publications/i/item/9789240061729.
[2] WHO. Global tuberculosis report 2020. World Health Organization; 2020. http://www.who.int/publications/i/item/9789240013131.
[3] Sohn H, Aero AD, Menzies D, Behr M, Schwartzman K, Alvarez GG, Dan A, McIntosh F, Pai M, Denkinger CM. Xpert mtb/rif testing in a low tuberculosis incidence, high-resource setting: limitations in accuracy and clinical impact. Clin Infect Dis. 2014;58:970–6.
[4] Sun W, Gui X, Wu Z, Zhang Y, Yan L. Prediction of drug resistance profile of multidrug-resistant mycobacterium tuberculosis (mdr-mtb) isolates from newly diagnosed case by whole genome sequencing (wgs): A study from a high tuberculosis burden country. BMC Infect Dis. 2022;22:499.
[5] Kamolwat P, Nonghanphithak D, Chaiprasert A, Smithtikarn S, Pungrassami P, Faksri K. Diagnostic performance of whole-genome sequencing for identifying drug-resistant Tb in Thailand. Int J Tuberc Lung Dis. 2021;25:754–60.