基于机器学习预测乳腺癌患者新辅助化疗的病理完全反应

乳腺癌的发生发展机制和治疗方式研究虽然已取得了较大进展,但乳腺癌仍然是全球女性最常见的恶性肿瘤,每年约有210万例新发病例,且大多数患者因转移而死亡。因此,早期有效检测转移复发是降低乳腺癌死亡率的关键。新辅助化疗(neoadjuvant chemotherapy,NAC)是乳腺癌患者常用的治疗策略,在无法手术情况下,能使肿瘤缩小并消除微转移灶。病理完全反应(pathological complete response,pCR)指NAC后乳腺或腋窝中无残留肿瘤细胞,意味着患者长期存活且无复发。目前,不管是从临床实践还是科学研究层面,多数情况下将pCR作为判定早期乳腺癌患者近期疗效以及远期生存获益的替代指标,可以在较短时间内检验肿瘤对药物的敏感性,以指导后续的个体化治疗。既往研究显示,检测NAC反应有助于预测乳腺癌预后。基于NAC后残留肿瘤体积的残留癌症负荷评分在预测乳腺癌患者预后中也具有良好效能。近年来,机器学习进一步提高了乳腺癌诊断的准确性,在预测复发和预后中也展现了应用前景。本研究将基于乳腺癌患者临床病理特征构建可用于预测乳腺癌患者NAC后的pCR的机器学习模型,以期为进一步提高其预测准确性提供新的途径。


01

资料与方法


1.1 研究设计及对象

收集2015年1月至2020年12月在本院接受NAC治疗和根治性手术的875例乳腺癌患者的临床信息。纳入标准:⑴病理确诊为乳腺癌;⑵接受NAC治疗;⑶行根治性手术;⑷年龄大于18岁。875例患者中排除113例,其中双侧同步乳腺癌55例,因患者拒绝接受根治性手术54例,手术病理结果不完整2例,NAC方案数据缺失2例。本研究经本院伦理..审核通过。本研究根据赫尔辛基宣言进行,并在设计和报告时遵循STROBE和TRIPOD报告指南。

1.2 预测特征

从本院电子病历系统收集患者临床和病理数据,包括年龄、体重指数(body mass index,BMI)、更年期状态、吸烟状态、诊断时合并症情况、CEA水平、CA-15-3水平、病理类型、临床分期、T分期、N分期、NAC方案、病理诊断信息以及雌激素受体(estrogen receptor,ER)状态、孕激素受体(progesterone receptor,PR)状态、HER2和Ki-67状态等,其中临床分期基于美国癌症联合会(AJCC)乳腺癌TNM分期系统第7版。通过IHC染色明确形态学诊断和受体状态(ER、PR和HER2)。ER阳性和PR阳性被定义为Allred评分为3~8。激素受体 (HR) 阳性定义为 ER或PR阳性。Ki-67免疫组化分析采用独立半定量法评价,Ki-67结果分为4个等级:0~25%为1+;26%~50%为2+;51%~75%为3+;>75%为4+。

1.3 特征工程

年龄、BMI、血清CEA水平 和CA-15-3水平不作转换,保持计量数据形式。更年期状态分为绝经前或绝经后;吸烟状态分为当前/曾经吸烟者或从不吸烟者;病理类型分为浸润性导管癌(invasive ductal carcinoma,IDC)或非 IDC。临床分期分为Ⅰ期、Ⅱ期、Ⅲ期;T分期分为0~4期、N分期分为0~3期。Ki-67 范围介于+1 和+4 之间;ER、PR、HER2均为二分类变量,包括阳性或阴性。化疗方案被分为蒽环类化疗(多柔比星+环磷酰胺,即AC方案)+紫杉烷(T)、曲妥珠单抗单药化疗、曲妥珠单抗+帕妥珠单抗治疗、AC+T+Platinum、单独AC方案化疗以及其他方案等6类。选择单因素差异有统计学意义的因素为预测特征,同时排除相关性较高的变量。

1.4 模型开发及统计学方法

采用R 4.1.1软件进行数据分析和模型开发。计量资料采用均数±标准差描述,组间比较采用独立样本t检验,分类资料采用例数(百分比)描述,组间比较采用卡方检验或Fisher精确概率法。模型开发首先将数据按7∶3的比例随机分为训练集和验证集。在训练集中分别构建5个机器学习模型:Logistic回归(LR)、人工神经网络(artificial neural network,ANN)、简单贝叶斯(naive bayes,NB)、随机森林(random forest,RF)以及XGboost模型。模型训练采用5折交叉验证,重复抽样次数为1 000次,使用贝叶斯优化进行超参数调整。采用受试者工作特征(receiver operating characteristic,ROC)曲线下面积(AUC)、准确性、敏感度和特异度进行模型评价。选择AUC最大的机器学习算法为最终模型,采用基尼指数评价特征的重要性。本研究所有的统计检验均为双侧,以P<0.05为差异有统计学意义。


02

结果


2.1  一般资料

共742例患者纳入分析,按照7∶3的比例分为训练集和验证集,其中训练集533例,验证集209例。两组患者一般资料比较差异均无统计学意义(均P>0.05),见表1。

2.2 特征选择

单因素分析显示,年龄、CA-15-3水平、ER状态、PR状态、HER2状态、Ki-67表达水平、临床分期、T分期、N分期以及NAC方案等可能影响pCR(均P<0.05),见表2。在这些因素中,由于临床分期和N分期(r=0.93)高度相关,故排除临床分期。因此,选择年龄、CA-15-3、ER状态、PR状态、HER2状态、Ki-67、T分期、N分期和NAC方案等特征进行后续建模。

2.3 模型构建与评价

构建了ANN、LR、NB、RF和XGboost 5个模型,其中XGboost模型的性能最高,其在训练集和验证集中的AUC分别为0.850、0.834,见图1和表3。因此,使用XGboost模型为本研究所构建的模型,详细超参数见表4。采用基尼指数评级模型特征的重要性,特征的重要性依次为ER状态、临床T分期、化疗方案、HER2状态、临床N分期、年龄、Ki-67、PR状态和CA-15-3,见图2。


03

讨论

用于大数据分析的机器学习方法改变了传统的肿瘤预测方式。作为人工智能的一个子集,机器学习提供了一种创新的数据分析和解释方法,且在一定程度上超越了传统统计学。机器学习能自动处理大量多维和多种数据的能力,最终可能揭示临床病理特征与pCR的新关联。这种从大数据中整合新的预测因子的能力,也突出了机器学习在肿瘤医学中的重要适用性。目前多项研究已显示,机器学习算法在预测方面具有显著优势。本研究在接受NAC的乳腺癌患者中,基于患者的ER状态、临床T分期、化疗方案、HER2状态、临床N分期、年龄、Ki-67、PR状态和CA-15-3水平等特征构建的XGboost模型具有较高的预测效能,且具有不同权重的不同临床特征均可影响pCR;该模型在训练集和验证集中的AUC分别为0.850、0.834,预测效能均优于本研究构建的其余机器学习模型,为准确预测乳腺癌患者NAC后的pCR提供了一种实用的机器学习技术,也有助于制定乳腺癌NAC患者个体化的治疗策略。

本研究发现CA-15-3是预测乳腺癌pCR的重要特征之一。目前美国临床肿瘤学会(ASCO)虽然不推荐使用CEA和CA-15-3用于乳腺癌筛查、诊断或监测治疗,但认为CA-15-3在早期乳腺癌中对预后有重要意义。目前较多研究报道了可用于预测NAC反应的生物标志物。但是,这些生物标志物在真实世界实践中预测pCR仍存在一定的挑战,单个标志物的预测效能仍不理想。在本研究构建机器学习模型通过综合乳腺癌患者临床上常见多种的特征,具有以下优势:一是多指标联合具有更好的预测效能;二是这些指标均为临床常规指标,易于检测和收集,因此具有良好的可操作性。本研究还显示,化疗方案在特征重要性中位列第3。无论哪种亚型乳腺癌,化疗药物都是影响NAC反应的重要因素。在乳腺癌患者化疗疗效分析中,既往研究发现,与单独使用蒽环类药物治疗的患者相比,采用蒽环类联合紫杉类药物治疗的患者具有更高的pCR率和更好的生存结局。但是,在NAC方案中,尽管部分三阴性乳腺癌患者从一般治疗中获得了生存益处,但是额外的铂类药物是否有效仍然存在争议。而本研究纳入了所有亚型的乳腺癌,表明构建的预测模型具有一定的普适性和推广性,在指导NAC治疗决策以及改善NAC化疗方案方面具有重要的参考价值。

综上所述,本研究使用年龄、CA-15-3、ER状态、PR状态、HER2状态、Ki-67、T分期、N分期和NAC方案等开发的用于预测乳腺癌患者NAC后的pCR的机器学习模型XGboost具有良好的效能,为预测乳腺癌患者pCR提供了一种新的机器学习技术。但本研究尚未在外部队列中对模型进行验证,后续仍需开展前瞻性、多中心研究进一步验证和优化该模型。此外,对于机器学习而言,实时添加新发现的预测变量是可行的,虽然本研究是基于回顾性研究,但是未来仍可以添加新的变量实时更新或调整预测模型,相信随着临床医师继续通过电子病历系统收集大量患者数据,机器学习将成为越来越重要的研究工具。


作者:赵顺 王树萌 秦金凤

作者单位:青岛市市立医院心胸外科

来源中国癌症防治杂志,2022年2月第14卷第1期



更多免费用药机会看这里!


30年数据揭秘癌症真相:为何身边越来越多人患癌?

患者受益 | 重磅!晚期非小细胞肺癌患者有新希望!

靶向药物时代兴起,肿瘤患者应如何应对肝损伤?

不想活了,真的太痛了!癌痛到底有多痛?只能忍着吗?

患者招募 | 非小细胞肺癌患者|YK-029A

肺癌两年化疗联合“K药”免疫治疗,强强联手患者生存期有效延长

一文详解 | 免疫治疗在EGFR突变非小细胞肺癌中的相关研究进展


———————END———————

欢迎关注收藏分享转发、点击右下角在看。

如需帮助请留言!


标签:
gh_aae75281005d
肿瘤免疫细胞治疗资讯 微信号:gh_aae75281005d 扫描二维码关注公众号
优质自媒体

小编推荐

  1. 1 邪魅总裁的娇宠(邪魅总裁的娇宠小说)

    大家好,小娟今天来为大家解答邪魅总裁的娇宠以下问题,邪魅总裁的娇宠小说很多人还不知道,现在让我们一起来看看吧!1、《冷面总裁的专宠娇

  2. 2 上虞人民医院作息时间调整及“五一”假期门诊安排

    亲爱的市民同伙们: 我院作息时间调整和“五一”假期工作放置如下: 1、病院作息时间自5月1日起调整如下: 上午 8:00——12:00 下昼

  3. 3 涪陵:文明实践绘就和美乡村

    华龙网讯(记者 李黎)4月,行走在重庆市涪陵区江北街道二渡村,民居小楼星罗棋布,绿荫白墙相映成趣,一幅和美村庄画卷映入眼帘。据认识,近

  4. 4 财务报表分析指标计算(财务报表分析指标计算)

    大家好,小伟今天来为大家解答财务报表分析指标计算以下问题,财务报表分析指标计算很多人还不知道,现在让我们一起来看看吧!1、资产报酬率

  5. 5 电流产生磁场的原理(电流产生磁场还是磁场产生电流)

    大家好,小美今天来为大家解答电流产生磁场的原理以下问题,电流产生磁场还是磁场产生电流很多人还不知道,现在让我们一起来看看吧!1、运动

  6. 6 张家口四中招生办电话(张家口四中招生办电话号码)

    大家好,小伟今天来为大家解答张家口四中招生办电话以下问题,张家口四中招生办电话号码很多人还不知道,现在让我们一起来看看吧!1、0313-2

  7. 7 苍南县树人中学学费(2020苍南树人中学学费)

    大家好,小丽今天来为大家解答苍南县树人中学学费以下问题,2020苍南树人中学学费很多人还不知道,现在让我们一起来看看吧!1、340元,住校费

  8. 8 泰坦陨落在哪个平台买合适(泰坦陨落二手机版下载免费中文)

    大家好,小豪今天来为大家解答泰坦陨落在哪个平台买合适以下问题,泰坦陨落二手机版下载免费中文很多人还不知道,现在让我们一起来看看吧!

Copyright 2024 优质自媒体,让大家了解更多图文资讯!