《Hadoop生态系统及开发 实训手册 实训4 部署YARN集群.docx》由会员分享,可在线阅读,更多相关《Hadoop生态系统及开发 实训手册 实训4 部署YARN集群.docx(8页珍藏版)》请在第一文库网上搜索。
1、实训3.1部署YARN集群L实训I目的通过本实训熟悉如何构建YARN分布式集群,并能够使用YARN集群提交 一些简单的任务,理解YARN在Hadoop生态中的作用与意义。2 .实训内容构建YARN集群,并使用YARN集群提交简单的任务,观察任务提交之后 YARN的执行过程。3 .实训要求以小组为单元进行实训,每小组5人,小组自协商选一位组长,由组长安排 和分配实训任务,具体参考实训操作环节。4 .准备知识需要有计算机基础及Linux基础能力,可参考教材后面的Linux附件资料。5 .实训步骤(1)在master机器上进行YARN配置编辑YARN的配置文件修改文件为“optsoftwarehad
2、oop-334etchadoopyarn-site.xml”在master节点执行:Cd optsoftwarehadoop-3.3.4etchadoopvim yam-site.xml将如下内容添加到最后两行的标签之间:yarn.resourcemanager.hostnamemasterdescription表示 ResourceManager 服务器/descriptionyarn.resourcemanager.addressmaster8032VdeSCriPtion表示 ResourceManager 监听的端口yarn.nodemanager.local-dirsoptsoftw
3、arehadoop-3.3.4yarnlocal-dirl,optsoftwarehadoop-3.3.4yam Zlocal-dir2VdeSCriPtion表示 NodeManager 中间数据存放的地方yarn.nodemanager.resource.memory-nb 1024description表示这个 NodeManager 管理的内存大小/descriptionyarn.nodemanager.resource.cpu-vcores2description表示这个 NodeManager 管理的 cpu 个数/description,yarn.nodemanager.aux-
4、servicesmapreduce-shuffleVdeSCriPtiOn为 MapReduce 应用打开 shuffle 服务/description,yarn.nodemanager.vmem-pmem-ratio4VdeSeriPtiOn配置虚拟内存与物理内存比例,默认值是2.1yarn-site.xml是YARN守护进程的配置文件,将虚拟内存与物理内存的比例 调整成4倍,避免执行任务时报错。拷贝配置文件到SIaVe1、slave2shellscp-call.sh yarn-site.xml(2)启动 HDFS 和 YARN在master节点执行(如已启动则无需启动)。操作效果如图2-所
5、示。 start-dfs.shstart-yam.shrootnaster hadoop# start-dfs.sh Starting namenodes on masterfrom 192.168.128.1 on ptson ptson ptson pts0on ptsLast login: Fri Oct 28 15:21:38 CST 2022 Starting datanodesLast login: Fri Oct 28 15:28:43 CST 222 Starting secondary namenodes (master Last login: Fri Oct 28 15:2
6、8:45 CST 222 root额aster hadoop# root领aster hadoop# root加aster hadoop# rootnaster hadoop# start-yarn.sh Starting resourcemanagerLast login: Fri Oct 28 15:28:52 CST 222 Starting nodemanagersLast login: Fri Oct 28 15:29:59 CST 222图3-4启动HDFS和YARN图示(3)验证YARN启动成功查看各节点的进程情况rootnaster hadoop# -/shell/jps_al
7、l.sh = master jps = 149 NameNode276 ResourceManager3048 Jps1674 Seconda FyNameNode= slavel jps =1682 NodeManager1270 DataNode1836 Jps= slave2 jps =1669 NodeManager127 DataNode1823 JPS图3-4查看各节点的进程(4)查看YARN的Web UI界面在浏览器中打开master的ip地址加端口: 192.168.128.131:8088 格式:master的ip:8088。如图2-46所示。Cluster Metrics
8、ClusterNode Labels ApplicationsNEWNEW SAVING SlIBMrnTD ACCEPXED RUNNING FlNISHED FAILED KILLEDSChedUIer ToolsApp SubmittedAPPS Pending00Cluster Nodes MetricsActive NodesScheduler MetricsCapacity SchedulerScheduler TypeShow 20 v entriesDUserNameApps Running 0Apps Completed 0Decommissioning Nodes(memo
9、ry-mb (unit=Mi), vcoresScheduling Resource TypeApplicationTypeApplicationTagsQueueApplicationPriorityStartTiShowing 0 to 0 of 0 entries图3-4查看YARN的WebUI界面(5)提交MaPRedUCe任务编辑MapReduce配置文件修改文件为“optsoftwarehadoop-33.4etchadoopmapred-site.xml”在master节点执行:vim mapred-site.xml编辑此文件,在此文件的configuration标签间中加入以下
10、内容:mapreduce.framework.nameyarnmapreduce.jobhistory.addressmaster: 10020mapreduce.jobhistory.webapp.addressmaster: 19888yarn.app.mapreduce.am.resource.mbl 024yarn.app.mapreduce.am.resource.cpu-vcoreslyarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=$HADOOP_HOME)mapreduce.map.envHADOOP_MAPRED_HOME=$HADOOP
11、_HOME)mapreduce.reduce.envHADOOP.M APRED_HOME=$ HADOOP_HOME 此配置指定了 MapReduce作业运行在YARN上,同时对JObHiStOrySerVer 进行配置,方便查看相关日志;MaPRedUCe作业需要的内存和虚拟CPU数;并且 配置了 M叩RedUCe作业相关的环境变量。拷贝配置文件到SlaVe1、slave2shellscp-call.sh mapred-site.xml提交MapReduce任务接下来提交Hadoop内置的估算值的任务。在master节点执行:hadp jar$HADOOP_HOME/share/hadoo
12、p/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 5 10命令盘后两个两个参数的含义:第一个参数是指要运行map的次数,这里 是5次;第二个参数是指每个m叩任务,取样的个数;而两数相乘即为总的取 样数O执行过程如图35所示。rootnaster hadoop# hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar pi 5 lNumber of Maps Samples per Map Wrote input for Wrote input for Wrote input for Wrote input for Wrote input for Starting Job=5=10Map #0