《2023数据挖掘方法在女性尿失禁预测中应用的研究进展.docx》由会员分享,可在线阅读,更多相关《2023数据挖掘方法在女性尿失禁预测中应用的研究进展.docx(11页珍藏版)》请在第一文库网上搜索。
1、2023数据挖掘方法在女性尿失禁预测中应用的研究进展摘要中国女性尿失禁的发病率为21.2/1000人年,严重困扰患者的身心健康和社会交往,降低了生命质量。近年来,数据挖掘已广泛应用于医学实践中,使用数据挖掘方法有望增加对疾病预测的准确性,以达到良好的诊治效果。应用数据挖掘方法构建预测模型可以预测女性尿失禁的发生风险,有助于识别高危人群进行早期预防。不同数据挖掘方法预测女性尿失禁的性能优劣尚需进一步研究。本文梳理了近年数据挖掘方法(包括1ogistic回归、多层感知器神经网络和人工神经网络、决策树算法、随机森林算法等)在预测女性尿失禁中应用的研究进展;对比了多种数据挖掘方法建立的预测模型的预测效
2、能,发现1ogistic回归、多层感知器神经网络、决策树算法、支持向量机建立的尿失禁预测模型的预测效果良好;本文也对当前研究存在的不足进行了总结(如:样本量小、黑箱问题等),可为进一步的相关研究及应用提供借鉴。尿失禁是不自主地经尿道漏出尿液的尿控失常现象1,常见于成年女性2o研究显示,中国女性尿失禁及其亚型,包括压力性尿失禁(stressurinaryincontinence,SUI)、急迫性尿失禁(urgencyurinaryincontinence,UUI)和混合性尿失禁,其发病率分别为21.2/1000人年、13.1/1000人年、3.0/1OOo人年、5.1/1OOO人年31尿失禁虽为
3、非致命疾病,但对患者的身心健康和社会交往等可产生严重困扰4,因此,识别高危人群,对尿失禁的发病进彳亍预测,以进行早期预防尤为重要。数据挖掘(datamining,DM)已广泛应用于医学实践中。在DM过程中,合理应用信息技术,存储并提取医疗记录、随访数据,从而结合数据,寻找疾病的危险因素及规律,增加对疾病预测的准确性,能达到良好的诊治效果5ODM已开始逐步应用于女性尿失禁的预测,有望提高尿失禁预测的准确性,本文将探讨DM在女性尿失禁预测中应用的现状、问题和前景。一、DM的概念DM是使用各种方法提取隐藏在海量、不完整、有噪声、模糊和随机的实际应用数据中有价值、可理解的信息和知识的过程6ODM方法是
4、统计方法和机器学习(machine1earningzM1)方法的结合。人工智能(artificia1inte11igence,AI)是由计算机模拟人的思维模式,完成传统意义上的依赖人的智力才能进行的复杂工作,涉及计算机科学、统计学等多学科7oM1是A1和DM的技术支撑。DM在医学相关领域应用的场景之一即是智慧医疗以AI为核心、大数据为基础的新医疗体系80二、各种DM方法在尿失禁预测中应用的现状1 .1ogistic回归国内外普遍应用于建立疾病预测模型,是应用于尿失禁预测研究中最常用的方法。1ogistic回归量化了二分类响应变量与1个或多个分类或连续自变量之间的关系。2014年的一项研究采用1
5、ogistic回归构建并验证了用于评估盆腔器官脱垂(pe1vicorganpro1apse,POP)手术后新发SUI的预测模型9,该模型包括7个风险因素,模型预测效果优于术前负荷试验、专家预测和术前减少咳嗽负荷试验,并创建了1个在线计算器,供临床使用;2019、2023年各有一项研究分别对该模型进行了外部验证、对SUI在线计算器的性能进行了评估10-11z经外部验证,该模型可用于预测POP手术后新发SUI,而后一项研究对计划行微创阴道顶端悬吊手术的妇女使用SUI在线计算器预测新发SUI,但结果受到很大限制,尚需改进。韩国的一项回顾性队列研究对接受POP手术的1142例患者用1ogistic回归
6、模型12预测SUI(与咳嗽、打喷嚏或大笑有关的漏尿的影响程度为中度或重度),该模型包含6个预测因素,包括年龄、糖尿病、主观尿失禁即根据盆底不适调查表简表(Pe1vicf1oordistressinventory-shortform20,PFDI-20)评估患者有尿急、漏尿症状13口脱垂减少压力测试结果、脱垂手术类型和尿道中段悬吊带术,预测SU1的曲线下面积(areaundercurve,AUC)为0.74,优于POP和SUI的伴随手术和尿动力学调CUPIDO膜型14IAUC为0.63,P=0.014XJe1ovsek等14从英国和新西兰分娩的妇女(n=3763)以及来自瑞典医学出生登记处的妇女
7、(n=4991)两个队列中收集产科变量,为了进行时间验证,将每个队列按时间分段,以在队列时间段的前半段妇女的数据作为训练数据集,构建1ogistic回归模型,后半段的数据用于时间验证;该研究建立的所有模型均被合并到1个基于网络的综合计算器中,当输入一整套预测因素时,所有盆底疾病(包括尿失禁)的结果均会呈现出来;当尿失禁的困扰症状(每周或每天不自主漏尿3次)的风险率为5%60%时英国和新西兰队列的模型预测是准确的,在风险率为5%80%时瑞典队列的模型预测是准确的。在大多数的模型中,分娩方式、分娩次数和盆底疾病的家族史是最具影响力的因素。妊娠前任何严重程度的尿失禁是预测产后12年针对尿失禁、PoP
8、或大便失禁进行治疗的重要的影响因素。对初产妇随访20年,阴道分娩与其20年后尿失禁的发生风险增加显著相关,但该研究缺少外部验证14o对1600例初产妇构建产后SUI预测1ogistic回归模型,该预测模型纳入的危险因素包括年龄、孕前体重指数(bodymassindex,BMI新生儿出生体重、阴道分娩、第二产程时间,其AUC为0.888,该模型的敏感度为84.8%特异度为77.5%151向吉翠16区1684例产妇采用IOgiStiC回归模型对影响产后SUI的因素进行分析,并根据结果构建预测模型,将新生儿出生体重、新生儿双顶径、阴道分娩、第二产程时间纳入模型,该模型预测产后SUI的敏感度为74.6
9、9%、特异度为85.78%、准确度为64.18%多数研究中,1ogistic回归预测模型的预测效果良好z1ogistic回归模型的优势在于简单、训练速度快、可解释性好、不限定自变量类型;但样本量过小时,预测的方程不稳定,结果无法解释;会出现过度拟合;对变量交互作用和共线性的处理方法不够精确。2 .多层感知器神经网络、人工神经网络预测模型人工神经网络(artificia1neura1networkfANN)是一种模拟神经元系统结构和功能的非参数M1方法171ANN由输入层、隐藏层及输出层构成。ANN中间神经元的突触权重,用于存储训练阶段获得的知识。ANN通过配对的输入、输出数据集进行学习;随着学
10、习的进行,误差减小,直至达到最小值,这种训练良好的网络可对未知数据进行结果预测18I)使用多层感知器(mu1ti1ayerperceptron,M1P)方法建立的尿失禁预测模型的预测准确性很高。国外已有研究证明,ANN预测模型在预测尿失禁风险方面的预测性能优于多重线性回归(mu1tip1e1inearregression,M1R)模型。意大利的一项横断面研究,纳入了1344例有下尿路症状(1owerurinarytractsymptoms,1UTS)并有POP的妇女,收集有关的基线特征、1UTS和体格检查的数据,采用M1R和ANN来设计预测模型18,并对两种预测模型的预测效果进行比较,对于AN
11、N的设计,通过随机数生成器将妇女按8:2的比例随机分配到训练集和测试集;两个预测模型均表明,年龄、BMI、盆腔器官脱垂定量分度法(POP-Q)I度和尿失禁手术史是UUI和SUI的预测因素而ANN模型的预测比M1R模型更准确(P0.05X该研究的局限性是仅对单一中心的妇女进行了研究,模型的外部效度不佳。王元毅等19对560例参加流行病学调查的妇女进行研究,通过荟萃分析得到SUI的预测变量,并建立M1P神经网络预测模型,训练集、测试集、验证集的样本占比分别为70%、15%、15%;通过验证,该模型的预测准确度为85.33%,AUC和Gini系数均接近1该模型预测SUI的效果良好,年龄和BMI是最重
12、要的预测因素。该研究通过荟萃分析确定的预测变量较全面、可信、普适,较符合我国女性的基本情况;但研究纳入的样本量较小,缺少前瞻性研究的验证。ANN(包括M1P神经网络)的优势是不需要提前考虑因变量与自变量间的关系,具有自学习和自适应能力;能自动逼近正确的模型结构;适用于解决内部机制复杂的问题。其劣势在于需要大量、有代表性的、典型样本,学习过程不可见,输出结果可解释性差。3 .决策树算法决策树算法是基于多个协变量的分类系统或开发目标变量的预测算法。决策树包含根节点、内部节点、叶节点;内部节点的测试属性通常根据信息增益或其他指标决定,分支为测试输出;叶节点代表类别。使用训练集建立决策树模型,并用验证
13、集决定实现最优模型所需的决策树的适当大小20o近年来,国内已有较多研究采用决策树算法对尿失禁发生风险进行预测。黄洁贞等211黎佩莹等221吕香霖等23均使用决策树算法发现,盆底肌功能(肌力强度)对SUI发生的预测作用显著、预测价值较高。这3项研究均存在样本量小、代表性不足的局限性,构建的预测模型尚缺乏进一步的研究和验证。一项回顾性队列研究招募172例经产妇,采用单变量和多变量分析评估SUI的潜在危险因素,并使用决策树算法来评估不同亚组(首次分娩后有无SU1有无妊娠期糖尿病和年龄是否35岁)中SU1的发生率,决策树算法的结果显示,对于经产妇,首次分娩后SU1妊娠期糖尿病会增加第2次分娩后1年SU
14、I的发生风险24Io翟巾帼等25对707例初产妇进行回顾性调查,收集危险因素、人口社会学、尿失禁相关量表的数据,采用决策树算法将数据集按照7:3的比例分为模型构建集和模型训练集,并对模型进行内部交叉验证及外部验证;模型构建组预测尿失禁的敏感度、准确度、AUC较高,分别为84.8%、76.7%、0.767z但特异度偏低、仅为58.1%,交叉验证的风险值为29.8%,模型训|练集的AUC为0.602(P0.05X焦子珊等26收集了505例产后68周产妇的基本资料、盆底肌电值,并填写产后SUI调查问卷,建立产后SUI的决策树C5.0算法(通过分散的数据集来构建决策树,并且数据集中的值使增益率最大化,
15、是应用于大数据集的分类算法27)预测模型以及1ogistic回归预测模型,将数据集按照7:3的比例建立训练集及测试集并分别进行匕瞰,模型之间的比较采用2检验;结果显示,在训练集中,决策树C5.0算法与1ogistic回归预测模型的准确度分别为98.9%、85.6%敏感度分别为94.7%、48.7%,特异度分别为100.0%、95.4%,阳性预测值分另!J为100.0%,74.0%,阴性预测值分另1J为98.6%、87.4%,约登指数分另U为94.7%,44.1%,AUC分别为0.974、0.721;在测试集中,决策树C5.0算法与和1ogistic回归预测模型的准确度分别为87.6%、82.8
16、%,敏感度分别为78.6%、46.4%,特异度分别为89.7%、91.5%,阳性预测值分别为64.7%、56.5%,阴性预测值分别为94.6%.87.7%,约登指数分别为68.3%、37.9%,AUC分别为0.842、0.689;决策树C5.0算法预测模型在训练集和测试集中的准确度、敏感度、阳性预测值、阴性预测值、约登指数及AUC均高于1ogistic回归预测模型。决策树C5.0算法预测模型的预测性能更佳。该研究对预测模型的探索和对比仍然不够全面,样本代表性不足。总体而言,决策树算法模型对产后尿失禁的预测性能良好,预测效果优于1ogistic回归模型但部分研究的决策树模型特异度略低。决策树是一个白箱模型,易于理解和解释,其结果的呈现直观28o决策树对研究对象的分类或预测更精准,其模型对自变量数据的选择较为广泛。决策树树形图越深,模型对数据总体规律的代表性就越差2