《工业大数据分析聚类评估.docx》由会员分享,可在线阅读,更多相关《工业大数据分析聚类评估.docx(5页珍藏版)》请在第一文库网上搜索。
1、任8.2聚类评估任务概述聚类评估是用来对自变量相同类数据集比较同一种聚类算法一组参数、不同参数组合或者多种聚类算法之间的分析性能,能够检验聚类模型的可靠性;最终根据一些评价的指标(如轮廓系数等指标)或者图表展示,获得质量最佳的聚类模型。本节案例选用聚类算法KMeanS节点做聚类分析,结合聚类评估节点做模型评估。I1KMeansI:翼:*,。IIeq图8-2-1聚类评估图标图8-2-2KMeans节点图标KMeanS是一种聚类算法,其中K表示类别数,MeanS表示均值,是一种通过均值对数据点进行聚类的算法。KMeans算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分,并通过划分后
2、的均值迭代优化获得最优的聚类结果。该算法对空间需求及时间需求均是适度的,算法收敛速度很快。KMeans聚类算法适用于对球形簇分布的数据聚类分析,其可应用于客户细分、市场细分等分析场景。该节点用来评价个聚类任务中的模型表现。只适用于所有的聚类类评估任务。通过模型训练学习和一些评价指标,该节点自动计算得到出较可靠的聚类模型。数据格式:批注【许1】:标题不合适,建议8.2.1合并到任务概述里面(1)聚类模型:俗话说:“物以类聚,人以群分”,所谓的聚类,就是将样本划分为由类似的对象组成的多个类的过程。聚类之后,我们可以更加准确地在每个类中单独使用统计模型进行估计,分析或者预测;也可以研究不同类之间的差
3、异。(2)聚类数据集:用于聚类的数据集。数据说明:本段中所用数据为风机结冰故障数据。数据集文件名称:fengjidata_11demo3.csv0具体数据集字段同8.1数据说明。通过本任务的学习:(1)会使用聚类评估模型检验KMeans算法应用于工业大数据分析的可靠性。任务实现具体操作如下,步骤1:建模区“数据管理”下拉列表内拖入“文件输入”节点、“数据处理”下拉列表内拖入“数值型属性变换”、“设置角色节点”、“机器学习”下拉列表内拖入aKMeansw节点,“模型管理”下拉列表内拖入“聚类评估”节点,每个节点右侧的英文字母D拖拽互相连接,构建如下模型,如图8-2-4所示:Fengi1datoJ
4、I,.总处B设角0KMem星奥用图8-2-4聚类评估构建模型步骤2:点击“文件输入”节点,弹出卜图,点击“选择数据”右下方图标,上传数据文件,节点配置如下,如图8-2-5所示:fngjidatat1dmo3文怦上怜timWind.*wdgnratorsptd2015/11/4(HX)1.0965842811.2368897452015/11/4ChOI0.9453776631.2634801842015/11/414046761561241.2501W9652015/11/414K51.074456484127345192015/11/414X)61.1113361471.2800992092
5、015/11/414071.7382904171.2634801845fi.dag.t1.dmo3*SSt100000图8-2-5聚类评估-文件输入-文件上传步骤3:“数值型属性变换”节点配置如卜.,如图8-2-6所示:Z口RtnXT7-QUEIKFJ;O,Ff0KKWSUgM*nd.pdIIIO、一,,em.*符BSt*S*育I9*r*torp*dPO*wnd.difon51BKHy*w.MdpUh1.a*2*pitch1.mc-tnpXCJ工ErWM(S)MSmi图8-2-6聚类评估-数值型属性变换-节点配置数值型属性变换提供多种将数值型属性变换为日期、字符串的方式,可以直接将数值转换为对
6、应的字符串值或者F1期,也可以按照用户自定义的规则将指定的数值转换为指定的字符值或者日期:同时,还提供了按照区间转换为字符功能;用户还可以按照自己指定的平方、平方根、对数、空值转换、非空值转换、四舍五入以及单位转换等方式对数值型属性进行计算。且这些经过转换后的数值型属性列将产生新的变量列,原数据中的字符型属性、日期型属性和数值型屈性则保持不变输出。上图可看到,frozen_sta属性变换后为frozen_s,变换后类型为字符型,变换方式为数字转字符。图8-2-7聚类评估-设置角色-节点配置步骤5:“机器学习”下拉列表内拖入“KMeans”节点,配置如下,如图82-8所示:KMtans收际差0.01型睁子811019153个致3送代次效1初妫化方法Kmeans*图8-2-8聚类评估-KMeans-节点配置步骤6:点击上图“确定”按钮,完成配置,点击右上角运行按钮,运行后图8-2-11聚类评估-模型运行结果3运行结果说明:该节点用来评价一个聚类任务中的模型表现。只适用于所有的聚类评估任务。通过模型训练学习和一些评价指标,该节点自动计算得到出较可靠的聚类模型。