肝细胞癌伴HCV相关性慢性肝病的机器学习预测模型外文翻译资料

 2023-01-01 06:01

本科毕业设计(论文)

外文翻译

肝细胞癌伴HCV相关性慢性肝病的机器学习预测模型

作者:Somaya Hashem,Mahmoud ElHefnawi,Shahira Habashy, Mohamed El-Adawy, Gamal Esmat, Wafaa Elakel, Ashraf Omar Abdelazziz,Mohamed Mahmoud Nabeel,Ahmed Hosni Abdelmaksoud,Tamer Mahmoud Elbaz,Hend Ibrahim Shousha

国籍:埃及

出处:Elsevier B.V.

摘要:

背景和目标:肝细胞癌(HCC)被认为是最常见的肝脏恶性肿瘤之一,需要以非侵入性方式进行评估。本研究的目的是使用机器学习技术开发慢性丙型肝炎(CHC)相关HCC的预测模型。

方法:对4423例CHC患者的数据集进行调查,以确定其重要参数预测HCC的存在。在这项研究中,几种机器学习技术(分类和回归使用树,交替决策树,减少修剪错误树和线性回归算法)

结果:年龄,甲胎蛋白(AFP),碱性磷酸盐(ALP),白蛋白和总胆红素属性。统计学上发现与HCC的存在有关。使用几种机器学习算法构建了几种HCC分类模型。所提出的HCC分类模型在受试者工作特征曲线(AUROC)下提供了足够的面积,并具有较高的HCC诊断准确性。AUROC的范围在95.5%至99%之间,总体准确度在93.2%至95.6%之间。

结论:具有简单因素的模型有能力预测具有突出表现的HCC的存在。

1介绍

慢性肝炎的主要原因是感染丙型肝炎病毒(HCV),这也是一个标准的诱发因素肝细胞癌(HCC)的发展[1]。HCC是肝脏的恶性肿瘤[2]。它是第五常见的癌症在世界上,也是癌症死亡的第三大常见原因[3] 。在埃及,它是埃及男性中最常见的恶性肿瘤,在埃及女性中排名第二[4]。肝癌是埃及恶性肿瘤死亡的主要原因占癌症总死亡人数的32.35%。HCC发病率有从2003年恶性肿瘤总病例的7.3%增加到2018年的9.7%[5,6]。发病率上升可能是由于高慢性肝炎的患病率和并发症C感染[7,8]。

HCC风险与肝纤维化进展同时增加。因此,监测患者的HCC非常重要伴有晚期纤维化。肝脏中的癌症通常被诊断出来使用三相计算机断层扫描(CT)和磁共振成像(MRI)[9]。重复检查通常是必要的,但是这对于患者来说可能是昂贵的,而在缺乏的国家则是困难的资源。横断面研究已经确定了潜在的因素与HCC风险升高相关,包括演示图(例如,性别,年龄),病毒相关(例如,血清HCV水平)和疾病相关(例如,甲胎蛋白[AFP]水平,肝硬化的存在)因素。然而,大多数这些研究涉及有限的参与者人数[10-12]。

机器学习方法可以通过提供较少耗时但仍准确有效的纤维化和肝癌早期预测来增强临床决策支持[13,14]。使用人工智能和统计分析来预测和识别模式在巨大的数据集中,机器学习算法可以是用于预测肝脏疾病[10-15]。例如,Wen等人。使用Cox比例风险回归[10]列出HCC的风险预测因子。该方法使用年龄,性别,健康史,乙型肝炎和丙型肝炎病毒状态,血清天冬氨酸氨基转移酶,丙氨酸氨基转移酶和AFP水平作为HCC的统计学显着独立预测因子。在Chang等人。[11] ,考克斯回归分析表明,老年,高AFP,低血小板计数,和晚期纤维化是HCC的独立危险特征。

本研究旨在确定HCC中HCC的危险因素HCV晚期纤维化患者。该研究使用不同的决策树学习技术和机器学习来开发HCC发展的准确估计分数,这是由所提出的独立风险因素决定的。它也集中在来自埃及的病人。数据由Kasr的专家收集埃及开罗大学Al-Aini医院。

2. 材料和方法

2.1. 患者和数据

这项回顾性研究使用了4423名患者的数据集(af-terfiltering),他们都被诊断为HCV基因型4,并伴有晚期纤维化。数据来自埃及的两个研究所:埃及控制病毒性肝炎全国委员会和开罗大学kasral-Aini医院的多学科HCC诊所。

对于无HCC的HCV患者,从2006年4月至2014年6月埃及国家病毒性肝炎控制数据库登记的患者中选择了3099名(1003名女性和2096名男性)慢性丙型肝炎感染患者。这些数据是由埃及13个中心的当地病理学家评估的。数据库包含60,0 0 0名HCV患者和非HCC患者的记录。然而,由于肝癌患者资料的局限性和避免过度拟合,我们没有使用全部样本。根据我们的纳入和排除标准,我们随机选择了3099例晚期纤维化患者。

对于HCV合并HCC患者,根据Kasr Al-Aini医院多学科HCC诊所2010年至2015年的数据,收集了1324名患者(316名女性和1008名男性)。该数据库包含约2,0 0名HCV患者的HCC和高级纤维化的记录。根据我们的标准剔除患者后,我们的样本包括1324名患者。

根据欧洲肝脏研究协会[17]、美国肝病研究协会[18]和巴塞罗那肝癌临床[19]的指南,对所有患者进行诊断和治疗,并进行个案讨论。所有研究程序均符合赫尔辛基宣言良好临床实践指南的伦理原则。所有参与者签署了一份知情同意书,该同意书由开罗大学医学院地方医学部地方医学伦理委员会和全国病毒性肝炎控制委员会批准。

患者的血清数据包括人口统计学(年龄和性别);实验室(白蛋白、总胆红素、丙氨酸氨基转移酶[ALT]、天冬氨酸转氨酶[AST]、AFP、碱性磷酸酶[ALP]、血红蛋白[Hb]、葡萄糖、白细胞[WBC]、肌酐、国际标准化比值[INR],凝血酶原时间、浓度和血小板的凝血曲线图;以及his-TOOLICAL(仅适用于慢性丙型肝炎患者)信息。采用METAVIR评分系统对纤维化进行分期。

在这项研究中,所有的病人都进行了肝活检,以评估肝纤维化的分期和检测肝硬化的存在。不幸的是,这些数据没有包括维生素K缺乏或拮抗剂II引起的蛋白质值,因为这些测试在埃及国民治疗计划中没有常规进行。HCC分期根据巴塞罗那临床肝癌分期[20]:

  • 0期(非常早期):72例。
  • A期(早期):677例。
  • B期(中期):460例。
  • C期(晚期):115例。

在研究结束时,收集了293名HCV患者的数据,其中53名患者患有HCC。这个队列被作为一个验证集。在这个验证集中的病人是在相同的纳入和排除标准。53例HCC患者BCLC分期:A期22例,B期16例,C期15例。

2.2. 纳入标准和排除标准

纳入标准如下:18~78岁;HCV抗体阳性,PCR可检测到HCVRNA;慢性肝炎肝活检阳性(F1的梅塔韦尔评分和激活的肝酶或F2/F3的METAVIR评分);未接受抗病毒治疗;甲状腺功能正常;乙肝表面抗原阴性;凝血酶原浓度gt;60%;胆红素正常;AFPle;20 ng/mL;抗核抗体滴度lt;1/160。

排除标准如下:存在轻度至中度纤维化;严重合并症(如严重动脉高压、心力衰竭、严重冠心病、血红蛋白A1Cgt;8.5%的糖尿病控制不良、慢性阻塞性肺疾病、严重不受控制的抑郁症);实体器官病史移植(肾、心脏或肺);抗-HCV治疗史或未经治疗的甲状腺疾病;体重指数gt;35 kg/msup2;;HIV合并感染;对聚乙二醇干扰素或利巴韦林过敏;或存在丙型肝炎以外的伴发性肝病(如慢性乙型肝炎、酒精性肝病、自体肝炎,血色素沉着症,alpha;-1抗胰蛋白酶缺乏症,或肝豆状核变性)。

2.3. 变量选择

变量选择,也称为特征选择或子集选择,用于模型构建中,以简化、易于解释和消除冗余变量。这个过程包括选择一个变量子集来最大化分类或预测精度。图1显示了三类可变选择:过滤器、包装器和嵌入式方法[21]。

2.4. 统计分析

使用MedCalc、Microsoft Excel、Weka和Matlab软件程序分析数据,以执行学习技术。表1显示了数据的平均值plusmn;标准偏差(SD)。用显著性检验(P值)评估突出特征与显著性肝癌的存在之间的关系。非正态分布的连续变量采用Wilcoxon符号标记检验,分类变量采用卡方检验。评估肝癌与各变量的Spearman相关系数。P值lt;0.001被认为是具有统计学意义的HCC存在的预测因子。在这项研究中,所提出的预测模型的精度是用接收器工作特性曲线(AUROC)下的面积来计算的。计算敏感性、特异性、阳性预测值、阴性预测值和准确性。

性。

图1.变量选择方法

表1 .数据集中变量的特征

基线预测值

方法plusmn;

P值

皮尔曼相关系数

年龄

中高音

阿尔卑斯山

血小板

阿帕布明

总胆红素

血红蛋白

印度卢比

肌酐

白细胞

性别

50.00plusmn;9.70

68.43plusmn;49.17

64.70plusmn;45.39

80.22plusmn;128.67

558.22plusmn;8238.49

846.25plusmn;10688.14

4.02plusmn;3.97

1.05plusmn;1.03

13.44plusmn;1.84

1.44plusmn;3.75

0.91plusmn;1.28

6.20plusmn;2.15

lt;0.001lt;0.001lt;0.001

lt;0.001

lt;0.001lt;0.001

lt;0.001lt;0.001lt;0.001

lt;0.001

lt;0.001lt;0.001

lt;0.001

0.545 0.021

-0.140 0.470

-0.409 0.491

-0.657 0.458

-0.421

0.393

0.196

-0.166

0.085

女性

(29.8%)

男性

(70.2%)

吸烟者

lt;0.001

0.288

是的

(16.7%)

(83.3%)

图2 .相关系数图 代表标记物与HCC存在之间Spearman相关系数的绝对值

2.5. 机器学习技术

本研究藉由建构线性回归演算法与决策树(例如分类与回归树、交替决策树与减少误差剪枝树)来检视几种机器学习方法。

2.6. 决策树学习技术

决策树学习在统计学、数据挖掘和机器学习中是一种很有前途的预测和分类技术。一种叫做交替决策树(ADTree)的决策树学习结合了boosting和决策树算法来生成更容易解释的分类规则[22]。ADTree技术可以解决传统boosting决策树算法的局限性,例如分类和回归树(CART)[23]、C4.5[24]和减少错误修剪分类器(REP tree)[25]。

2.7.多线性回归

多元线性回归是一种分析方法,它评估一组解释变量和单个响应变量之间关联的能力,并开发一个表示线性关系的方程[26]。在这项研究中,反应变量是HCC发生的风险,解释变量是白蛋白、年龄、血红蛋白、总胆红素和血小板计数。

3. 结果

数据集包括4423名(3104名男性和1319名女性)年龄在16至80岁的HCV患者,并伴有晚期纤维化。其中1324人患有肝癌。轻度至中度纤维化患者不太可能患肝癌,因此被排除在本研究之外。表1引用了统计分析结果,并将患者的基线特征重新报告为平均值plusmn;标准差,除非另有说明。

在本研究中,我们先使用过滤器方法对资料进行预处理,然后再使用学习演算法来进行变数选择(或变数缩减)。此方法对所有变量或特性进行排序,以选择最佳变量或特性。它具有高效的计算时间,并且对过拟合具有鲁棒性[27]。变量(特征)排序采用显著性检验(P值)和相关系数得分。本研究中的数据集包含实验室试验结果和临床信息,这些都被视为输入变量。

用连续cox

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[268610],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。