《最新国家开放大学电大《大数据技术导论》实验报告实验2 Hadoop开发环境部署.docx》由会员分享,可在线阅读,更多相关《最新国家开放大学电大《大数据技术导论》实验报告实验2 Hadoop开发环境部署.docx(22页珍藏版)》请在第一文库网上搜索。
1、国家开放大学:大数据技术导论实验报告实验2HadoOP开发环境部署HadooP是一个能够对大数据进行分布式处理的软件架构,其可以通过可靠、高效、可伸缩的方式进行数据处理。HadOoP技术是推动大数据应用的重要引擎之一,可以使用该技术收集、清洗和分析大量结构化、半结构化和非结构化数据。运行环境部署是一项技术要求较高,但必须掌握的技术。HadoOP是大数据分布式处理平台,在大数据离线处理方面,尤其是批处理中得到了广泛的应用。1 .实验目的通过HadooP环境部署实验练习,学生可以掌握HadOoP系统安装方法、伪分布式HadooP的安装方法和Ee1iPSe开发环境的安装具体过程与使用方法,并能够灵活
2、运用,进而为解决大数据分析问题奠定环境构建与部署的基础,不仅为后续的基于HadOoP环境的各个实验建立基础,而且可以提高工程实践能力。2 .实验要求在理解本实验相关理论的基础上制订安装计划,独立完成HadooP开发环境部署过程,主要内容如下所述。(1)制订安装计划。(2)安装SSH协议。(3)安装OPenJDK1.8开发环境。(4) HadoOP系统部署。(5)伪分布式HadooP环境部署。(6) ECIiPSe开发环境的安装。3 .实验内容(1)制订实验计划。(2)完成SSH协议安装。(3)完成OPenJDK18安装。(4)完成HadoOP系统部署。(5)完成伪分布式HadoOP环境部署。(
3、6)完成Ee1iPSe开发环境的安装。4 .实验总结通过本实验,使学生了解HadOoP的特点和总体结构,理解MaPRedUCe程序的执行过程,掌握伪分布式Had。P的安装方法和EC1iPSe开发环境的安装与使用方法。5 .思考拓展(1)为什么需要安装SSH协议?说明SSH协议功能及安装方法。(2)为什么需要安装OPenJDK18软件?说明OPenJDK1.8功能及安装方法。(3)结合MaPRedUCe程序执行过程,说明其并行处理的特性。(4)结合Had。P的处理过程,说明其离线处理特点。(5)说明分布式HadooP处理与伪分布式HadooP处理的区别。(6)说明ECIiPSe开发环境的优势。答
4、:HadoOP开发环境部署方法如下Hadoop伪分布式配置创建Hadoop用户:Q,sudouseradd-mhadoop-sbinbashsudopasswdhadoopsudoadduser1sheBOBIBiOBBIISiiSi1tiMBOMBS注销并使用Hadoop用户登录,接着更新apt并且安装vim:Hsudoapt-getupdate1Udoapt-getinsta11Vin1heTBmXi39HHHHHHH安装SSH,配置无密码登录:SUdoapt-etinsta11OPenSSh-SerVer才rkcjkeygen-trsa#Zr3小.品丁。catid_rsa.pubauth
5、orized_keys安装JaVa环境:1.SUdoaptgetinsta11OPenjdk-7jreOPenjdk7jdk.bashrc#没;,JAVA_HOMi在文件最前面添加如下单独一行:export3AVA_HOME=/usr/1ib/jvm/java-7-openjdk-amd64使JAVAJdOME变量生效:安装Hadoop2:E9cdSsudotar-zxvf,/hadoop26.0tar,gzCusr1oca1Ki?domv.hadoop-2.6.0.hadoop#-:/ify叩OChO:-Rhadoop.hadoophhbhhhhhhhhhhhhhhhhhhH进行伪分布式配置
6、:修改配置文件core-site.xm1(vimusr1oca1hadoopetchadoopcore-site.m1):hadoop.tmp.dirfi1e:/usr/1oca1/hadoop/tmpAbaseforothertemporarydirectories.fs.defau1tFShdfs:/1oca1host:9000修改配置文件hdfs-site.xm1:dfs.rep1ication1dfs.namenode.name.dirfi1e:/usr/1oca1/hadoop/tmp/dfsnamedfs.datanode.data.dirfi1e:/usr/1oca1/hadoo
7、p/tmp/dfs/data启动Hadoop:1.2.3.4.cdusr1oca1hadoobin/hdfsnamenode-formatsbin/start-dfs.shjps#namenode格U他#判断是否启豆She11命令若成功启动则会列出如下进程:NameNode%DataNode和SecondaryNameNodeo运行WordCount实例:1.2.#创建HDFS目葩bin/hdfsdfs-mkdir-puserhadoopbin/hdfsdfsmkdirinputBbinhdfdf-puetchadoopxminpuhadoopjarSharehadoopmapreduceha
8、do叱-mapreduce-ex第.amp1es_*.jargrepinputOUtPIJt,dfsa-z.+,./hdfsdfsICatoutput/*1. 3安装SSHUbUntU默认已安装了SSH客户端,因此,这里还需要安装SSH服务端1.1.1 安装SSH服务端请在1inux的终端中执行以下命令:下载安装包:拷贝代码SUdoWgetsudowgethadoopecs-3918:/home/user$sudowgethttp:/fi1e.Isudopasswordforhadoop:Sorry,tryagain.sudopasswordforhadoop:-222-5-2410:36:0
9、9-http/Openssh-C1ient7.2p2-4amd64.debR().192.168.27.174C()192.168.27.174:80.connectecHTTPrequestsent,awaitingresponse.2OK1ength:586124(572K)app1ication*debianpackageSavingto:,openssh-c1ient7.2p2-4amd64.deb,openssh-c1ient7.2p10=572.39K-,-KBsin.09s222-52410:36:09(64.5MBs)-,openssh-c1ient7.2p2-4amd64.d
10、eb,saved58(24/586124CSDN4安装软件:拷贝代码SUdOdpkg-iopenssh-c1ient_7.2p2-4_amd64.debhadoopecs-3918:/home/user$sudodpkg-iopenssh-c1ient7.2p2-4amd64.debdpkg:warning:downgradingopenssh-c1ientfromI:7.2p2-4ubuntu2.4to1:7.2p2-(ReadingdatabaseJ1677fi1esanddirectoriescurrent1yinsta11ed.)Preparingtounpackopenssh-c1i
11、ent7.2p2-4amd64.deb.Unpackingopenssh-c1ient(1:7.2p2-4)over(1:7.2p2-4ubuntu2.4)Settingupopenssh-c1ient(1:7.2p2-4).ProCeSSingtriggersformangb(2.7.51)csdn拷贝彳弋码sudodpkg-iopenssh-server_7.2p2-4_amd64.debhadoopaecs-3918:/ho(ne/user$sudodpkg-iopenssh-c1ient7.2p2-4amd64.debdpkg:warning:downgradingopenssh-c1
12、ientfromI:7.2p2-4ubuntu2.4to1:7.2p2-4(Readingdatabase.141677fi1esanddirectoriescurrent1yinsta11ed.)Preparingtounpackopenssh-c1ient7.2p2-4amd64.deb.Unpackingopenssh-c1ient(1:7.2p2-4)over(1:7.2p2-4ubutu2.4)Settingupopenssh-c1ient(1:7.2p2-4)Processingtriggersforman-db(2.7.5-1)hadoopecs-3918:homeuserSsudodpkg-iopenssh-server7.2p2-4amd64.debdpkg:errorprocessingarchiveopenssh-server7.2p2-4amd64.deb(-insta11):cannotaccessarchive:Nosuchfi1eordirectoryErrorswereencounteredwhi1eproc