《R语言数据分析与挖掘(谢佳标微课版) 习题及答案chapter08.docx》由会员分享,可在线阅读,更多相关《R语言数据分析与挖掘(谢佳标微课版) 习题及答案chapter08.docx(2页珍藏版)》请在第一文库网上搜索。
1、一、多选题1 .常用聚类分析技术有(ABCDE)A. K-均值聚类(K-MeanS)B. K中心点聚类(K-MedOidS)C. 密度聚类(DenSit-basedSpatia1C1usteringofApp1icationwithNoisezDBSCAN)D.层次聚类(系谱聚类Hierarchica1C1ustering,HC)E.期望最大化聚类(EXPeCtationMaximizationzEM)2 .常用划分(分类)方法的聚类算法有(AB)A. K-均值聚类(K-MeanS)B. K中心点聚类(K-MedoidS)C. 密度聚类(DenSit-basedSpatia1C1usterin
2、gofApp1icationwithNoisezDBSCAN)D. 聚类高维空间算法(OJOUE)3 .层次聚类分析常用的函数有(ABC)A. hc1ust()B. cutree()C. rect.hc1ust()D. ctree()4 .K.均值聚类方法效率高,结果易于理解,但也有(ABCD)缺点A.需要事先指定簇个数kB.只能对数值数据进行处理C.只能保证是局部最优,而不一定是全局最优D.对噪声和孤立点数据敏感二、上机题1.数据集(1A.Neighborhoodsisv)是美国普查局2000年的洛杉矶街区数据,一共有I1O个样本15个变量。变量描述如下:变量名描述性质变量名描述性质1A.N
3、bhd街区名字分类B1ack黑人比例数量Income收入中位数数量1atino拉美裔人口比例数工Schoo1s公立学校API成绩中位数数量White白人比例数量Diversity种族多样性(0-10分)分类/定序Popu1ation人口数量Age年龄中位数数量Area面积数量Homes有房家庭比例数量1ongitude经度数量Vets复员军人比例数量1atitude纬度数量Asian亚裔人口比例数量试利用层次聚类对这数据集进行分析。参考答案:#选择研究变量,将数据标准化,利用hdust建立层次聚类。 w w #选择变量 u rownames(u)#标准化数据,聚类方法=comp1etehh #画树状图(分成五类) Iibraryffactoextra) fviz-dend(hh,k=5,rect=TRUE)OurDoogrfr