一种属性丢失值分块填补方法.docx

上传人:lao****ou 文档编号:91924 上传时间:2023-03-02 格式:DOCX 页数:8 大小:13.04KB
下载 相关 举报
一种属性丢失值分块填补方法.docx_第1页
第1页 / 共8页
一种属性丢失值分块填补方法.docx_第2页
第2页 / 共8页
一种属性丢失值分块填补方法.docx_第3页
第3页 / 共8页
一种属性丢失值分块填补方法.docx_第4页
第4页 / 共8页
一种属性丢失值分块填补方法.docx_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《一种属性丢失值分块填补方法.docx》由会员分享,可在线阅读,更多相关《一种属性丢失值分块填补方法.docx(8页珍藏版)》请在第一文库网上搜索。

1、一种属性丢失值分块填补方法摘要:丢失值填补在数据挖掘领域是非常重要的。针对数据集中出现属性丢失值的情况,本论述提出了一种属性丢失值分块填补(ABNS)的方法。首先对数据集进行标准化处理,然后将其数据分成相等的n个块,接着验证每一块来获取相对应的最优的K值,最后使用最优的K值进行数据填补来得到相应的数据。实验采用公开数据集HorseColic、Vote和Diabe?tes进行实验,并且在使用M叶斯、KNN和SM0算法进行分类评估的情况下,对所提出的方法与传统均值填补方法和概率填补方法进行对比。实验结果分析表明,所提方法的填补效果较对比的方法具有一定优势。关键词:分类;KNN;属性丢失值中图分类号

2、:TP391文献标志码:A0引言随着信息技术的迅速发展,相应的伴随着大量数据的产生。由于各种原因,数据处理有时会出现属性丢失值的结果,属性丢失值能影响分类器的性能,影响数据分析的情况。因此,提高数据质量很有必要。例如:水污染数据和风力发电数据都会存在属性丢失值的现象,尤其在医学数据研究中,对属性丢失值的处理显得更加重要。在处理数据集的过程中,发现属性丢失值的情况比较常见,数据集的各个属性都可能会出现丢失值的情况。在数据集中,当有些数据字段为空,或者是出现“? ”号以及出现“N/A”和uNotAvailable等值的时候,就表明这是一个不正常的属性值。还有一些情况,有时会因为某一些属性值的丢失,

3、将直接导致整个数据集不可用。属性丢失值处理是数据挖掘领域重要的研究方向之一。近年来,几个处理方法已经被提出用于属性丢失值填补,因此就如何对属性丢失值进行处理也是非常重要的。同时,该问题在诸多领域中受到广泛的关注,许多研究人员对丢失值进行相关的理论研究,提出解决方法并且进行了相关的实验。随后,在所有提出的解决方法中,发现采用填补方法对属性丢失值进行处理的方法具有更大的优势。该方法从如何利用现有的数据进行填补属性丢失值,使得数据更加完整,依照丢失的重要性和类型进行区域填补,在数据合理性上有一定的优势。K最近邻(KNN, K-NearestNeighbor)算法一直是机器学习领域研究的焦点。但是K值

4、有着不同的选择,K值选择也比较重要,因为K值的不同会使得同样的数据有着不同的结果。尤其是对于稀疏数据来说,由于数据的相异性,当使用KNN算法做数据分析时,不同的K值可能会出现信息检测时丢失信息的情况。本论述在使用KNN算法基础上,提出了一种ABNS填补方法,并将它与均值填补和概率填补方法在HorseColicote和Diabetes数据集上进行了比较。1相关工作属性丢失值近年来一直被人们关注,为了解决属性丢失值问题,研究者也提出了许多处理丢失值的方法,加深了丢失值处理的进一步研究。文献1回顾了由于分析仪器产生的数据受各种因素影响,需要预处理数据,同时分析了化学计量学的预处理融合的集成方法,表明

5、预处理集成允许几种技术选择和它们的组合,以一种互补的方式,进而来改进模型。文献2使用没有缺失值的训练数据对自编码器进行训练,使其更好地预测缺失值的能力,利用自动编码神经网络去重建自己,并做了进一步估计,将丢失值最小化。数据不平衡问题一直是研究的焦点之一。文献3通过研究信用风险评估,针对不平衡数据学习问题提出了一种新型的组合动态集合选择(DES,dynamicensembleselection)模型,并且采用DES-KNN的两步选择策略来对于分类的能力和多样性进行权衡。高维数据经常造成严重的计算复杂度,对它进行分析和学习一直是一个挑战。文献4提出了一种新的监督差异性降维方法,通过优化新设计的有效

6、目标函数来学习每个类别的变化。与单一变化的情况相比,所提方法可以从每个单一类别的数据中捕捉到更多的有用信息。医学数据集在医学领域是非常重要的,文献5讨论了一个新的丢失值填补框架,采用基于类的聚类方法来填补丢失值,本质上,这可以降低医疗数据的维度。由于丢失值会对分类精度产生影响,文献6利用贝叶斯附加回归树提出了 一种自动删除不相关变量的方法。所提模型方法可以对不完整数据集进行分类的精度提高,同时避免了一些不必要的步骤。特征选择是机器学习中的一个非常重要过程,文献7引入一种相容类的概念,以减少原始数据中不必要的相容类。同时为了更有效地处理高维数据集,在每个循环后确定冗余的特征,并将其从候选特征子集

7、中删除,设计一个有效的启发式算法以找到比较小的约简集。文献8验证特征选择对医学数据集丢失值填充的影响,实验结果表明,对于许多医疗数据集来说,为了产生最好的结果,应该谨慎选择特征选择算法。遗传算法和信息增益模型适用于低维数据集,而决策树模型则是高维数据集的更好选择。文献9介绍了数据挖掘中处理缺失属性值的方法,方法主要分为顺序法和平行法两种,并且重点强调了规则归纳原则。另外,在医疗数据方面,因为医疗数据经常有丢失值,使用丢失值填补方式进行提高研究结果也是比较有效的。Huang等提出了医疗数据安全区域填补方法,填补结果有所提高。因此,利用属性丢失值填补的方法会取得比较好的结果,它们是非常必要的填补方

8、法,在提高分类性能方面也是非常有用的。294FC53E-C618-4B3C-9018-E7D2C95232C92方法及步骤数据填补是一种比较有效能够减少对原有数据集的影响的一种方式。由于对于全部数据集,使用传统算法计算样本会增加复杂性,选择数据填补方法是非常重要的,因此本论述提出了 一种基于KNN算法的数据分块填补属性丢失值方法。这种方法将会提高分类的结果,提高分类的精度,该方法先对数据集进行预处理,然后把它分成n个块,分别为bl, b2,,bn,然后为每个块选择最适合本块的最优K值,接着使用这个K值对相应的数据进行填补,从而达到最优填补的效果。所提方法的流程如图1所示。ABNS方法详细的算法

9、步骤:步骤 1 给定数据集 D= (xl, yl), (x2, y2), , (xn, yn) , n为样本的数量,Xi为每个实例,yi为每个实例的标签。步骤2对数据进行预处理,对数据集进行标准化。步骤3将数据集随机划分成n个块,分别标注为bl, b2, , bno对于每一个块,分别计算当K取为2、3、4和5时的情况,并与分块前采用KNN分类算法比较,从而来确定每一块最优的K值。步骤4使用最优K值填补数据,对填补的数据集进行分类,验证所得的结果。3实验结果与分析为了提高分类的精度,评估所提出方法的性能,将所提方法与传统的均值填补方法和概率填补方法在贝叶斯,KNN和SMO分类算法进行比较分析,采

10、用精度、召回率和F-score度量方式。使用公开数据集HorseColiCs Vote 和 Diabetes 进行实验。实验平台 IntelCore,i5-9400F, CPU2. 90GHz, 8G 内存,编程语言 Python3. 7, WindowslO操作系统。数据集见表1所列,包括数据集的名称,数据集的属性,数据集的数量以及类型。精度、召回率与F-score如下图所示。从图2、3、4中可以看出,在Horse-colic数据集中,ABNS填补方法精确度分别为91%、92.9%和97. 3%,远优于对比的填补方法;在Vote数据集上,ABNS填补方法精确度略优于均值填补方法,远好于概率填

11、补方法;在Diabetes数据集中,用贝叶斯算法进行分类,ABNS填补方法精确度最高。用KNN进行分类时候,均值填补方法的精确度最好。ABNS填补的精确略低于均值填补,优于概率填补方法。用SMO进行分类时,概率填补最好,ABNS次之,两种方法优于均值填补的精确度。所以,就从精确度方面而言,所提出的方法在大部分情况下对于属性丢失值填补会优于其他两种方法。从图5、6、7中可以看出,与表2类似,与其他两种方法对比,ABNS填补方法在Horse-colic和Vote数据集上,表现都是最优的。在Diabetes数据集上,仅仅采用KNN分类时,结果不是最优的,其他的情况下,都是最优的。F-score指标是

12、用来综合权衡精确率和召回率的评价指标。从图8、9、10可以发现,对于Horse-colic和Vote数据集,ABNS填补方法的F-score都是最高的,均值填补次之,概率填充结果最差。但是对于Diabetes数据集时,只有使用KNN分类时,ABNS填补方法的F-score不是最高的,其他分类条件时,ABNS填补方法的F-score都是最高的。即在综合权衡精确率和召回率的条件下,所提方法的填补性能与对比方法相比具有一定的优势。4结论在高速发展的信息时代,数据是非常重要的,要从数据中发现有用的信息,对数据集中的属性丢失值进行处理很有必要。通过分析数据集中属性丢失值的情况,分析了属性丢失值的相关技术

13、研究,针对数据集数据的特点,讨论采用分块的方法的可行性,随后提出了一种属性丢失值分块填补(ABNS)的方法,进而实现对数据集中属性丢失值的填补。这种方法把数据集划分为n个子块,每个子块各自选择最优的K值,接着利用最优的K值对于属性丢失值进行填补,进而改善了属性丢失值的情况。并且通过实验结果表明了在部分数据集上,所提方法填补后的数据在精确度、召回率和F-score指襟上具有一定的优势。所提方法与传统的方法相比,处理部分丢失值的效果明显提升,也为属性丢失值填补提供一种新的思路。面对深度学习的广泛应用,属性丢失值研究对于深度学习也有重要的的影响,下一步工作将进一步探索新的方法,把该方法用于如何与深度

14、学习结合来提高分类能力等方面做更深入的研究。参考文献:lMishraP , RogerJM , RutledgeDN ,etal. Newdataprepro?cessingtrendsbasedonensembleofmultiplepreprocessingtechniquesJ.TrACTrendsinAnalyticalChemistry ,2022, 132.2ChoudhurySJ,PalNR. Imputationofmissingdatawithneu?ralnetworksforclassificationJ. Knowledge-BasedSystems, 2022, 18

15、2 (C): 104838.3HouWH , WangXK , ZhangHY ,etal.AnoveldynamicensembleselectionclassifierforanimbalanceddatasetAnapplicationforcreditriskassessmentJ. Knowledge-BasedSystems, 2022, 208: 106462.294FC53E-C618-4B3C-9018-E7D2C95232C94RajabzadehH,JahromiMZ,GhodsiA. Superviseddiscrimi?nativedimensionalityreductionbylearningmultipletransfor?mationoperatorsJ. ExpertSystemswithApplications, 2022, 164: 113958.5YelipeU,SammulalP. ANovelApproa

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服