《大数据技术与应用赛项竞赛指南.docx》由会员分享,可在线阅读,更多相关《大数据技术与应用赛项竞赛指南.docx(6页珍藏版)》请在第一文库网上搜索。
1、大数据技术与应用赛项竞赛指南1赛项介绍本次大数据技术与应用赛项目重在考核学生的大数据基础知识能力,以及使用主流大数据技术解决实际问题的能力;考核学生对目标数据进行清洗、整理、挖掘分析、数据可视化等多方面的专业知识能力;此外,通过线下竞赛方式考核学生现场问题处理能力和团队协作职业素养。本次大数据技术与应用赛项包括大数据平台搭建、大数据分布式存储、大数据分布式处理、分析与可视化,内容涉及Hadoop.HDFSxMapreduceHivexF1umexSpark等常见大数据平台组件的安装与维护技术;包含网络爬虫的编写与管理;数据清洗、数据整理等计算模型及数据处理过程的设计与实现;机器学习算法与数据分
2、析技术的综合应用;数据可视化方案的设计与实现。2考核内容本次大数据技术与应用赛项考核分两个部分:理论知识测试、综合项目测试;两项测试成绩总和为该赛项目最终成绩,其考核内容为:理论知识测试1 .Hadoop基础知识2 .分布式计算MapReduce开发基础3 .SPark开发基础4 .数据仓库hive开发基础5 .数据迁移sq。P开发基础6 .海量数据库HbaSe开发基础7 .Python语言基础8 .R语言编程基础9 .数据可视化基础10 .数据可视化工具(D3.jSxTab1eauxHighcharts)11 .EXCe1数据处理12 .SAS数据处理13 .协调服务ZOOkeePer开发1
3、4 .消息系统kafka开发基础综合项目测试1.1inUX的基本使用和She11脚本基本编写1.大数据常见框架(HadoopSparkStorm)、组件(框架内所涉组件)和工具的的搭建、调幅口运维2.网络爬虫的相关组件(scrapy.Craw1er4j等)实现网络爬取3.规则文件数据和关系型数据库(MySq1)数据抓取以及数据同步(f1ume/sq。P)4.HiVe数据仓库导入、导出以及同Had。P数据文件的转换5.通过编程(Java、Python)或者工具(pig、kett1e)对数据进行清洗和整理6.Java或Python通过MapReduce对数据进行计算分析7.Java或Python通
4、过SparkAPI实现相关数据计算?口分析8.Pandasxnumpy等或hiveSQ1等技术,进行多维度多层次的分析9.matp1ot1ib或Echarts实现数据分析的可视化10.Scikit-Iearn或SparkM1实现数据的挖掘分析11.汇总分析挖掘和展示结果,并对结论进行分析,形成分析报告。3比赛形式3.1校内选拔校内选拔使用G1AD测试平台,按照20%的比例(每15名选手推荐3人)晋级北京决赛。高职组推荐使用G1AD大数据分析与应用技术能力基础级Fundamenta1s),本科组使用G1AD大数据分析与应用技术能力核心级(Essentia1s),具体信息如下:高职组本科组测试平台
5、大数据分析与应用技术能力基础级(Fundamenta1s)大数据分析与应用技术能力核心级(Essentia1s)测评时间40分钟60分钟题目数量5080题型单项选择,多项选择,判断其他说明满分为IOoO分,及格成绩为700分,在一个月内可以免费补测1次。成绩合格可申请国际认证证书。3.2大数据理论知识测试本项目高职组和本科组赛题内容相同,采用西普教育大数据技能演练与实战系统进行竞赛选拔:测试时间30分钟题目总数量约100道题目形式单选、多选、判断测试形式在线测试,自动评分计分方式约占总体比例的20%3.3大数据综合项目测试本项目高职组和本科组使用不同赛题,采用西普教育大数据技能演练与实战系统进
6、行竞赛选拔:测试时间150分钟题目总数量1道题目形式项目实战题测试形式自动判分+手动判分计分方式约占总体比例的80%4学习资源4.1 在线学习平台请登录以下网址注册登录后,在课程版块中找到大数据课程即可获得免费学习资源与练习:http:WWW.e-WWW.Shiyarbarcom4.2 教材Hadoop大数据开发案例教程与项目实战西普教育研究院著中国工信出版社人民邮电出版社5命题解析5.1 需求背景近几年来,随着移动设备和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。电子商务作为贡献巨大数据的主力军之一,在于SNS逐渐结合的过程中,已经逐步将每一个
7、社会个体紧密的链接在一起,诸多由电商引起的活动已经成为国民级现象级的社会活动,电商数据从而也成为商务金融等方面的数据宝库。对于电商海量数据的分析挖掘历来是信息技术行业乃至全社会关注的重点。如何从海量数据中发掘出想要的数据价值并且实现电商大数据的可视化从而指导个人、组织、企业宏观战略。为了发掘电商数据中所蕴涵的价值,某大型零售企业委托我公司,对taoba。数据中商品、品牌等信息进行分析,预测出未来一周内商品、品牌的发展趋势,并按照客户特点对客户进行分类,为后续战略决策提供数据支持。5.2 项目需求构建大数据分析平台,接入淘宝包括“双十一”在内的近六个月的等数据(脱敏数据)约2G,完成数据清洗、转
8、化等数据处理,对数据中品牌商品,尤其是热门品牌和商品,进行点击量、加入购物车量、购买量、关注量进行分析和预测,对购买客户的年龄、性别、区域特点进行分析和总结。为了实现需求,要求采用Hadoop或Hadoop/Spark计算框架提升数据计算性能,系统平台安全可用,应采用较为成熟的开源框架构建。5.3 项目任务根据上述情况,公司委派你们大数据应用研发项目组,根据项目需求,利用你们掌握的大数据技术与应用相关知识,构建数据分析环境,完成图形化可量化的分析报告揭示电商用户行为的发生量和发展趋势,以及电商用户特点分析并撰写报告提出指导性意见。任务一大数据平台搭建和调优(15分)在Iinux环境下完成had
9、oopspark完全分布式大数据环境的搭建,并进行配置调优。搭建完全分布式hadoopspark计算环境并测试启动。配置搭建HiveZHbase数据仓库环境。利用Hadoop平台统计WeChat目录中微信热门文章热词。调整HadoopZSpark计算平台的参数揩计算平台分析程序的性能提高8%及以上。任务二数据采集(20分)使用从竞赛提供的服务器上使用python/Java爬取指定的淘宝客户商户数据作为分析的原始数据。1 .使用相应技术栈爬虫框架编写代码从服务器爬取脱敏的淘宝用户数据,保存在spider.test文件中。* python技术栈选用scrapy* Java技术栈选用CraWIer4
10、j2 .修改爬虫的爬取规则和匹配条件最终获取用以分析的数据。具体数据项包括:买家id、商品id、商品类别id、卖家id、品牌id、交易时间、操作行为、年龄段、性别、收货省份、卖家省份。并最终保存在taobao_bare.csv文件中。3 .通过f1ume,sqoop工具将淘宝商户用户数据导入到hdfs指定的数据目录/input中进行存储。任务三预处理和数据仓库(25分)利用大数据Spark内存计算框架数据进行清洗并转换成适当的形式存储到数据仓库中。1 .通过使用相应技术栈方式书写Spark程序对数据进行清洗掉卖家省份字段以及买家id或卖家id为空的脏数据,保存在taobao.csv文件中。 p
11、ython技术栈选用pyspark JaVa技术栈选用JAVASParkAP12 .将清洗后的淘宝商户用户数据导入以适当的形式数据仓库。3 .建立适当的维度和分区,以便于进行后续淘宝数据分析。具体包括:时间、用户行为、收货地区、年龄段。任务四数据可视化与分析(25分)利用pandas,numpy等或hiveSQ1等技术,分析淘宝用户商户数据进行多维度多层次的分析,并通过matp1ot1ib或Echarts等技术进行构建数据可视化图表。1 .分析淘宝用户点击量、加入购物车量、购买量、关注量的变化趋势,并进行可视化数据展示。* python技术栈选用pandassnumpyxmatp1ot1ib*
12、 Java技术栈选用hiveSQ1xEcharts2 .使用matp1ot1ib或hiveSQ1脚本统计出TopIO的最热商品和最热品牌,并进行可视化数据展示。* python技术栈选用pandasxnumpyxmatp1ot1ib* Java技术栈选用hiveSQ1xD3.js3 .按地区对客户进行性别比率与购买量比率的分区统计和总数统计,并进行可视化数据展示。* python技术栈选用pandasxnumpyxmatp1ot1ib* Java技术栈选用hiveSQ1xEcharts4.按照年龄和性别对客户主要购买名牌进行分析,并进行可视化数据展示。* python技术栈选用pandasxn
13、umpyxmatp1ot1ib* Java技术栈选用hiveSQ1xEcharts任务五数据挖掘和报告(20分)使用相关工具对数据进行挖掘,通过适当的图表和文字进行展现和说明,要求完成以下任务:* python技术栈选用pandas,numpyxScikit-Iearn* Java技术栈选用SparkxSparkM15 .预测未来一星期淘宝用户点击量、加入购物车量、购买量、关注量。6 .发掘关注量、加入购物车量、购买量之间的关联。7 .根据对最热商品Top10和最热品牌TopIO,预测其未来一星期发展走势。8 .通过对地区客户购买品牌和性别比率进行挖掘,分析地区主要需求特点。9 .通过对年龄、性别购买比率进行挖掘,分析出各个地区的需求年龄性别特点。组织分析结果,组合多种图形,对分析报告进行阐释。