《工业大数据分析HIVE输入与输出教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析HIVE输入与输出教学讲义.docx(8页珍藏版)》请在第一文库网上搜索。
1、任务2.2Hive输入与输出任务概述本任务读取CSV文件数据,并数据存储到大数据平台HIVE数据库中。文本输入节点实现csv文件上传到平台,Hive输出节点通过hive数据源将数据写入大数据平台的hive数据库。本任务中的数据集来源自某台风力电机IOmin间隔SCADA真实运行数据,主要有4个维度信息分别为时间戳(Time)、风速(WindSpeed)功率(Power)和风轮转速(RotorSpeed),包含3426条数据。通过本任务的学习:(1)能够实现HIVE数据源的搭建;(2)能够实现读CSV数据,并写入HIVE数据库。任务实现2.2.1新建hive数据源步骤1:选择算法建模工具中数据管
2、理模块,使用关系数据中创建数据源功能创建hive数据源。图2-2-1为选择创建hive数据源的功能界面。算法建模s*数据源信息道理算法苜页创建经疡5r1痔M数抠状态B38源名稀类型数据分析数据分类1启用SSfiS-tert111MySQ1慢型列表限7z2启用MySQHf1gJfiotacxya1MySQ1平口寄植3启用hive1敢堂蹲Hive制4启用hiveffi-enterprise_history_Hive5 启用案例如酶MySQ16 启用MySQ1KeK-CCitJeachingMySQ1图2-2-1创建hive数据源步骤2:打开图2-2-1中的“创建数据源”的配置界面,输入数据源名称“
3、hive数据源”,在类型中选择“hive”。配置UR1地址,IP为数据源的服务器地址,如10.10.74.134,hive数据库默认端为IOoOO,数据库名enterprisehistorydata(需要在hive数据库服务器预先创建)。输入用户名和密码,单击“测试连接”按钮,连接成功后,显示“数据源测试成功”,单击“完成”保存hive数据源。创建hive数据源的UR1格式:jdbc:hive2:/:1) host:数据库所在服务器的IP地址或主机名2) Port:端口号3) sid:数据库名4) principa1:kerberos身份,可选参数,开启kerberos时需要该参数创建数据源X
4、数据源名梆腿类型HiveV应用于模型数据源UR1jdbchive2z4.1.74.134:10000/enterp&historydata|用户名hive空码|台0t!5画5空闲回收时间5(分钟)asis趣图2-2-2配置hive数据源步骤3:对新建hive数据源分配访问权限。选择“数据管理”中的“数据权限”功能,在“组织机构”中选择一个组织机构,如“常信院演示二班”,在数据源中选择“hive数据源,如图2-2-3所示。步骤4:在图2-2-3中勾选“允许访问整个数据源”,将hive数据源筛选到2.2.2文件输入步骤1:使用“数据分析”界面的“挖掘分析”功能,将“文件输入”节点拉到设计窗口。如图
5、2-2-5所示。2-2-5创建文件输入节点步骤2:配置“文件输入”节点,将存储“风机”数据的CSV数据集上传到大数据平台。如图2-2-6所示。文件法入口文件上传科除全部8H除数据内容数据结构timewindspeedgeneratorspeed2015/11/418X)60.4143105161.2568325752015/11/418:070.7904830791.2501849652015/11/418802999835611.2568325752015/11/418:090.4880698421.2734515992015/11/418:100.7462274831.2568325752
6、015/11/418:110.3294872921.25683257S口分区记录条数ooo点击2幅切频用确定房肖图2-2-6上传文件2.2.3HIVE输出步骤1:将输出功能下的“hive输出”拉倒设计界面,创建hive输出节点,并和输入节点搭建统一模型。如图2-2-7所示。图2-2-7创建hive输出节点步骤2:打开hive输出界面配置界面,配置hive输出节点。序列化文件选择csv,数据源选择新建的“hive数据源”,存储模式为“覆盖”,输出表名称为afengji,配置信息设置完,点击“确定”保存数据源。HIVEtfe出X字段名原典里出奥专NUtiKA切Mt出time字符SK5BQ口5nd.
7、一蜘BSWIM回Doue32Qgenerator蜘喇DC嫩理(DOU8382QpowerIMagatX缴DOUe382wind.direftff1DC敷也型(DOU382Qyawjsi1ao!(D0U8382Q次;w/a。hivMSVat*则K去丁deJest01(enterrise-htocy-dadejeit111(entefpre-hHtfy_d-de-zk(enterpre-htory-daU)-Tde-zk22(entefpfise-htory-dt善ev2280003(cnterpriteahittorysd.Tea,2320007(eAterprite.hitory.d.FBo.
8、23R009(mterpri.hMory.dWHfengjirIIyaw.peeBKfXMBMXJB382图2-2-8hive输出节点配置功能说明:节点支持用户能够将流程过程数据和处理结果数据保存到HIVE表中。输入端口:1个数据集。输出端口:1个数据集。参数:序列化类型:指定数据在hive数据库中的存储格式,包含orc,parquet,csv格式。输出信息配置:对输出目标表的内容设置,选择需要输出的属性,并逐或者批量配置待输出数据的输出类型、输出长度、输出精度。选择数据源:选择已配置的数据源。查询:通过关键字查询表名。输出表名称:用户设置输出表名称。存储模式:选择输出模式,包括覆盖、追加两种
9、,默认追加模式下若同名表存在,在已有表中追加内容;覆盖模式下若同名表存在,直接覆盖原有表结构和数据。输出到hbase:选择输出到hbase,则会在hbase中创建一个相同表名的表;创建hbase表时必须选择一个列作为id歹U;选择关联到hive同时会在hive中创建同名的表,但是数据是关联hbase表中的数据,如果没有关联hive则直接输出到hbaseO步骤3:配置完成后,点击工具栏“保存”按钮,然后执行建模,模型运行结束,将反馈执行过程分析信息,如图2-2-9所示。图2-2-9执行建模文件步骤4:Hive输出节点的列表功能区查看上传的hive数据表执行成功后,可以在数据表的列表区能发现“fe
10、ngji”数据表,如图2-2-10所示。忠岫(Se序列化类型绮索国Kde-testI(enerp5e-history-dde_teit111(eterprise-htory-dde_zk(enterpcise_histoy_dau)-Tde_zk22(9nterpfi$9_hi$tory_cht4iKe-220OOO3(entefpie-hitfy-d.e-2320007(enterpfie-hipeedwindspeed数值生(DOUB1E)generatorspeedgeneratorspeedJff1(DOUB1E)powerpower数值型(DOUBIE)Wind_directionWirVd.directionfiff1fi(DOUB1E)yawJXHitionyawpositionttff1(DOUB1E)yawspeedyawspeed蜘B型(DOUB1E)向Ch1angIePitCh1ang1efStt(DOUB1E)选择数坂数据内容图2-2-14hive输出节点数据结构