《工业大数据分析聚类算法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析聚类算法教学讲义.docx(6页珍藏版)》请在第一文库网上搜索。
1、任务6.3聚类算法任务概述聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其原理是:组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的组内的相似性(同质性)越大,组间差别越大,聚类就越好。聚类分析可以建立宏观的概念,发现数据的分布模式,是知识发现的基础。本节以聚类分析中的模糊c均值为例来讲解相关案例实现过程。模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分析和建模的方法。建立了样本类属性的不确定性描述。在众多模糊聚类算法中,模糊C均值算法应用最广泛且较为成功。模糊C均值聚类算法通过优化目标函数得到每个样本点对所有类中心的隶属度,从
2、而决定样本点的类属以达到自动对样本数据进行分群的目的。数据格式不支持设置类属性(输出);(输入)支持离散型(名词)属性和连续型(数值)属性。参数说明模糊C均值点击查看功能说明确定取消图6-3-1模糊C均值参数设置具体说明参见表6-7:表6-7模糊C均值参数设置参数类型描述数据标准化下拉框包含无处理、归一化和标准化3种方式,其中:无处理是对原始数据不进行标准化操作,标准化的方式为原数据与均值的差除以标准差。归一化方式为(x-最小值)/(最大值-最小值)*(指定上限值-指定下限值)+指定下限值,此方式需要用户设置一个范围区间,自定义区间的下限值和上限值,该区间默认为0,1聚类个数文本框用户自定义的
3、聚类个数,通常这个数值设置不会太大。聚类个数范围为大于等于2的正数,默认值为3模糊度文本框用户自定义的模糊度,默认值为1.5最大迭代次数文本框设置算法最大迭代次数以控制算法迭代停止。当达到设置的迭代次数后停止迭代。最大迭代次数的范围为正数,默认值为100收敛容差文本框设置收敛容差以控制算法迭代停止,对于任意一个类,当前后两次类中心点的距离小于等于收敛容差时停止迭代。这里通过欧式距离来计算样本点之间的距离大小。收敛容差的范围为大于0小于等于0.01的正数,默认值为0.01初始化方法下拉框通过random方式用来确认初始聚类的中心点。需要用户指定一个随机种子,指定一个随机种子则对应若干个初始样本。
4、随机种子的范围为大于0小于1.0E8的正数,默认值为123456是否显示变量重要性复选框用户选择是否分析每个变量对于聚类类结果的影响程度,如果选择是,则在洞察中显示参与建模的每个变量对于模型的贡献程度情况本案例使用的数据集是某水厂投药控制系统实时采集的数据信息,数据均为瞬时测量值,包括历史原水水质数据、原水流量数据、沉淀池浊度和混凝剂投加量(PAC耗)数据等,共6166个样本。数据文件:投药量数据.csv。数据集说明(共137行,6列),同表6-2。通过本任务的学习:(1)能够构建聚类算法模型对工业大数据进行分析。任务实现具体操作如下:步骤1:建模区分别拖入“文件输入”节点、“设置角色”节点和
5、“模糊C均值”节点,构建如下模型,如图6-3-2所示:文件蛹入设置角色模尚C均值SJCVGQOQQe图6-3-2聚类算法-构建模型步骤2:“文件输入”节点配置,选择工业用水处理投药量数据,具体操作图形如下,如图6-3-3所示:文件输入口X文件上传腭隐全苗剧涂数据内容数室结构时同原水PH原水注度2013/8/206:007.13623.462013/8/207:007.12628.812013/8/225:006.91294.812013/8/226:006.91293.292013/8/231906,8184.952013/8/232006.8174.54)分区记录条数IOO(XX)点击查看功
6、能说朗幅取涓图6-3-3聚类算法-文件输入-文件上传步骤3:点击确定,完成文件输入配置。对“设置角色”节点配置如下,如图6-3-4所示:设置角色字般名名称类型角色设定杵除A1coho1A1coho1CrtB5(DOUB1ES8MaIiCAcidMakACidSte(DOUBuSZAshAshZJff1a1iDCUB1t自SfiA1s1inity.Of一。JS值型(DOUB1E白SSMagnesiumMagnesiumSKKffi(INT)SSfiTota1jheno1sTota1jhefjsSrtfiSa(DOUBUSSfiF1avonoidsFUvanoids初侬DOUB1ESSfiNonf
7、1avanoidsNonf1avanoidsStfBS(DOU8USSfiPronthocyaniProanthocyaniSHK力KDoUB1ESfiCo1orintensitCo1orjntesitCrtSSi(DOUB1EQSS算生班切除S朗喉脸步骤4:“模糊C均值”节点配置如下,如图6-3-5所示:模糊C均值X克壬查看功能说明被取消图6-3-5聚类算法-模糊C均值-节点配置步骤5:点击右上角执行按钮,如图6-3-6所示图6-3-6执行模型步骤6:模型运行结果如下,如图6-3-7、图6-3-8和图6-3-9所示:图6-3-8聚类算法-运行结果2*SB*O*Nhy*mv2MsNn07M6”
8、16377Z7M.M46046M5U3M3T746SSie。图6-3-9聚类算法-运行结果3运行结果说明:通过以上图片,完成学习如何进行聚类算法的建模和运行方法,聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其原理是:组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。聚类分析可以建立宏观的概念,发现数据的分布模式,是知识发现的基础。聚类分析在广泛的领域都扮演着重要角色。这些领域包括如下:经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征;企业信用等级分类;生物学领域:推导植物和动物的分类;对基因分类,获得对种群的认识;心理学和医学:一种疾病或健康状况有多种变种,聚类分析可以用来发现这些子类别。例如,聚类已经用来识别不同类型的抑郁症。聚类分析也可以用来检测疾病的时间和空间分布模式。Tempo平台中集成的聚类分析算法有:KMeans模糊C均值、EM聚类、Hierarchy、Kohonen聚类、视觉聚类、Canopy塞迭代等。