《数据挖掘之红酒鉴别.docx》由会员分享,可在线阅读,更多相关《数据挖掘之红酒鉴别.docx(11页珍藏版)》请在第一文库网上搜索。
1、基于数据挖掘的葡萄酒质量识别我们知道,传统的葡萄酒鉴别靠感觉器官的品尝来推断其质量的好坏,这就必需要求品尝者是训练有素的品酒专家。但感官品尝结果简洁受各种因素的影响。随着科学技术的进展,葡萄酒质量品鉴成了一项可以替代性的工作,不在局限于酿酒工作者的工作才能完成。因此,将数据挖掘方法用于葡萄酒评级早已被各国所采纳。下面主要基于数据挖掘的分类和回归方法对葡萄酒质量的鉴别做一个简洁的分析与推断。1 .数据挖掘理论方法论述1.1 主成分回归在数据处理中,常常会遇到高维数据组,由于数据维数高,变量多,而且变量间往往存在相关关系,因此很难抓住他们的相关关系信息。在实际问题中,争论多变量问题是常常遇到的,再
2、加上变量指标之间有肯定的相关性,这势必增加了问题的简单性,主成分分析就是设法将原来指标重新组合成一组新的相互无关的较少的综合指标来代替原来的指标,同时依据实际需要从中可取几个较少的综合指标尽可能多的反映原来指标的信息。这种将多个变量化为少数相互无关的综合指标的统计方法称为主成分分析。主成分分析就是设法将原来众多具有肯定相关性的变量重新组合成一组新的相互无关的综合指标来代替,通常数学上的处理就是将原来P个变量作线性组合,作为新的综合指标,但是这种线性组合,需要加以限制。假设第一个综合指标记为耳,自然盼望片尽可能多的反映原来指标的信息,这里最经典的方法是用大的方差来表达,即W(耳)越大,表示片包含
3、的信息越。因此全部线性组合中所选取的片应当是方差最大的,故将写称为第一主成分,假如片不足以代表原来P个指标的信息,在满意C(RB) = O的条件下,再考虑选取工作为其次个主成分,同理可以构造第三,四,第个主成分。耳=cliXi + a2iX2 + 4pjXp要求:(1) 4 + aj + + cipj = 1;(2)与与弓(,。力不相关求得X的主成分为协房阵的特征向量为系数的线性组合。得到主成分,提取所需要的前几个主要成分后,回归的过程与线性回归是全都的。只是自变量变成了选取的主成分,因变量不变。1.2分类回归树1.2 . 1分类回归树的构建分类回归树的构建是通过学习给定的训练样本,查找最佳的
4、分支规章。分类回归树的分支规章是依据不纯度作为评估度量来实现的,以查找最佳的分支规章。最常用的不纯度函数为基尼指数,其定义为I(t) = P(ij)PUt)iJ其中P(中)是指,中第,类的频率,也就是说当基尼指数越小时,意味着该节点所包含的样本集越集中,该节点越纯。树的构建大致可以这样表述为:全部的样本都属于树的根节点查找第一个节点的分支规章时,从第一个自变量开头,纪录样本数据该变量的每个取值作为分支阈值时不纯度的下降值,直到全部变量的每个取值作为分支阈值的不纯度下降值纪录完毕,选择不纯度下降值最大的自变量和分叉阈值作为树根节点的分支变量和分支阈值。如此往复生成一颗最大的树。由此过程可见,分类
5、回归树属于贪心算法。在构建树的过程中,满意以下条件之一,则不再对叶节点进行分支操作:(1)叶节点中的样本数小于给定的值Nm2 一般默认Nmm=5;(2)分支后的叶节点中的样本属于同一类;(3)无属性向量用于分支选择。经过此过程,最终得到一颗最大的树12.2分类回归树的修剪为了解决所建立的最大树。ax过分拟合的问题,需要对生成的树进行修剪,去掉那些对未知检验样本的分类精度没有关心的部分树,使得模型更简洁、更简洁理解。常用的剪枝有两种:一种是先剪枝法,一种是后剪枝法。它们都采纳统计度量,剪去最不行靠的分支,提高分类回归树独立于测试数据的测试力量。最小成本简单度的后剪枝法较为常用,其统计度量为(T)
6、 = R(T) + a,其中a表示简单度参数,用于表示每个终止点简单度的代价,当为0时,对应的最大树Oax R(T)为7i的估量错分率,此(7)为该树的估量错分类与对简单度惩处值之和的成本复合值。当口肯定时,&(7)越大,其可取性也就越小。1.2.3分类回归树的评估经过树的修剪,得到了一系列的子树,那么假如选择最优大小的树作为最终构建分类回归树,就需要对分类回归树进行评估,最常用的评估方法有测试样本评估和交互检验评估。文中采纳的是交互检验评估。K折交互检验是将样本集平均分为K个子集,每次用其中的(K-1)个子集进行建模,剩下的子集用来猜测,循环K次,计算平均的错分率。对所生成的一系列子树7,5
7、,,分别进行K折交互检验,得到个平均错分率,那么最小平均错分率对应的子树就是最优的构建树Ko,即内区。)=叩n(HS)=.n2 .数据处理与基本分析2.1 数据说明与预处理葡萄酒数据来源于http:archive. ics. uci. edu/ml/datasets/Wine+Quality,包含红酒和白酒两种。红酒1599个样本纪录,11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。白酒则有4898个样本纪录,也是11个表示成分和含量的自变量以及一个关于葡萄酒质量好坏的因变量。为简化问题,我主要争论了红酒的质量识别,白酒的质量识别可以对比参考。本文数据分析所使用的工具主要有SP
8、SS和R语言。首先将葡萄酒质量等级分为低等、中等以及高等三类(质量为3和4的视为低等,5和6的视为中等,7和8的视为高等,见表1-1),对应样本量分别为63、1319、217o表1T葡萄酒质量等级分类quality频率百分比有效百分比累积百分比等级有效3100.60.60.6低4533.33.33.9568142.642.646.5中663839.939.986.4719912.412.498.9高8181. 11. 1100.0合计1599100.0100.0详细的11个自变量如表1-2所示。表1-2红酒质量自变量的简洁描述自变量N微小值极大值均值标准差Fixed acidity15994.
9、615.98. 3201.7411Volatile acidity15990. 1201. 5800.527820. 179060Citric acid15990. 001.000. 27100. 19480Residual sugar15990. 9015. 502. 53881.40993chlorides15990.0120.6110. 087470. 047065Free sulfurdioxide159917215. 8710. 460Total sulfurdioxide1599628946.4732. 895density15990. 99011.00370.9967470. 0
10、018873pH15992. 744.013.31110. 15439sulphates15990. 332. 000. 65810. 16951alcohol15998.414.910. 4231. 0657有效的N (列表状态)1599其中体现红酒的酸、甜、咸、苦的成分归纳如下:酸:Fixed acidity (酒石酸)、Volatile acidity (醋酸)、 Citric acid(柠檬酸)甜:Residual sugar (糖分)、alcohol (酒精)咸:chlorides (氯化钠)苦:Free sulfur dioxide (游离二氧化硫)、Total sulfur di
11、oxide (总二氧化硫)、sulphates (硫酸钾)表1-2显示的变量只是红酒主要的基本成分,并没有微量成分,由葡萄酒的品尝原理我们知道,葡萄酒中的微量成分是香气和味道成分中最主要的部分,这些成分数目极大而浓度微小。这可能对我们的分析会造成不利的影响,即体现红酒质量的自变量缺失了,某些甚至可能是重要的变量。2. 2数据基本分析2. 2. 1相关性分析首先对自变量之间进行相关性分析,图1-3给出了部分相关性相对较大的变量两点之间的散点图。透过散点图我们可以观看到酸度与密度,酸度与PH值之间的相关性程度较高。其他各个变量之间的相关系数详见表1-4.表3变量间相关性散点图15.0-12.5-1
12、0.0-7.5-5.0-.9900-5,07l5 10.0 12.5 15.0,9925-1.0000- .9975-P.9950-1.0025-.00.20.40.60.801.00citricacidfixedacidity15.0-12.5-10.0-7.5-5.0-poepxu=12.5-10.0-7.5-5.0-15.0-.005.0010.0015.0020.002.80 3.00 3.20 3.40 3.60 3.80 4.00 4.20residualsugarpHvolatileacidity80-totalsulfurdioxide2.000-1.500-1 .ooo-po
13、eeo14.0-12.0-10.0-.500-10025A .0000.9975 9950 9925l9900odensityresdualsugar从表1-4可以看出,除了酒石酸与密度,酒石酸与柠檬酸、酒石酸与PH、游离二氧化硫与总二氧化硫的相关系数在0.68左右,其他变量之间的相关程度并不高。其中,酒石酸与PH、醋酸与酒石酸、酒精与密度之间存在负相关性。综上也说明白,在葡萄酒的成分里,酒石酸和很多化学成分存在相关性。表1-5主成分概况相关性FixedacidyVolatileacidityCitricacidResiduci1sugcirchloridesFreeSulfurdioxideTotalSulfurdioxidedensitypHsulphatesci 1 coho1Fixedacidity1-0. 2560. 672*0. 1150. 094*-0. 15-0. 1130. 668*-0. 683*0.183*-0. 062Volatileacidity-0.25611-0. 5520. 0020.061*-0.0110. 0760. 0220. 235杵-0. 26-0. 202*Citricacid0.