《2018大数据分析与处理结课项目要求.docx》由会员分享,可在线阅读,更多相关《2018大数据分析与处理结课项目要求.docx(2页珍藏版)》请在第一文库网上搜索。
1、大数据处理与分析实验实验目的:利用数据分析技术和挖掘算法,如分类、聚类、推荐、预测、关联分析等,在附件中的数据中任选一种进行分析和挖掘,并对实验结果进行解释和讨论。例如:对基于地理位置数据集中的用户进行聚类;根据历史数据(把部分数据作为训练集)通过预测算法对用户在某个时刻出现的位置进行预测(把剩余数据作为测试集);挖掘数据集中用户之间的关联关系,等等。实验要求:实验结果最终以实验报告的形式进行提交,实验报告至少包括如下几个主要部分:1 .实脸方案及总体设计。如数据挖掘设计方案、实验运行总体架构、大数据分析平台搭建(如基于Hadoop的分布式计算平台)等。2 .大数据挖掘算法描述。包括数据结构、
2、关键算法分析、数据挖掘的主要执行过程、代码实现等。3 .实验结果对比及分析。利用图、表、文字等方法,阐述从数据集中挖掘出的内容,并对实验结果进行对比、分析和解释。4 .实验总结及展望。总结你们利用数据挖掘技术和算法对大数据进行分析的理解,以及在实验工作中的优点、不足及展望等。注意事项:1 .实验以小组为单位进行,每2人为一个小组,构建大数据分析框架,并对数据进行某一定应用数据分析功能,每人完成一个算法,每组撰写一份实验报告,报告封面应包括成员姓名和学号。并请确切说明系统框架并对算法进行比较,且说明每个人的实际工作。2 .每个小组根据各自的兴趣和特长对附件中的数据集进行挖掘,所采用的编程语言和计算平台不限。3 .请于2018年12月30日22:00以前,每个小组发送一份实验报告和一套实现系统viviawangweio附件(数据集地址):UR1-I:http:/snap.stanfbrd.edu/data/1oc-gowa11a.htm1UR1-2:http:/snap.stanfbrd.edu/data/1oc-brightkite.htm1UR1-3:https:/group1ens.org/datasets/movie1ens/