工业大数据分析HIVE输入与输出教学讲义.docx

资源描述

《工业大数据分析HIVE输入与输出教学讲义.docx》由会员分享，可在线阅读，更多相关《工业大数据分析HIVE输入与输出教学讲义.docx（8页珍藏版）》请在第一文库网上搜索。

1、任务2.2Hive输入与输出任务概述本任务读取CSV文件数据，并数据存储到大数据平台HIVE数据库中。文本输入节点实现csv文件上传到平台，Hive输出节点通过hive数据源将数据写入大数据平台的hive数据库。本任务中的数据集来源自某台风力电机IOmin间隔SCADA真实运行数据，主要有4个维度信息分别为时间戳(Time)、风速(WindSpeed)功率(Power)和风轮转速(RotorSpeed),包含3426条数据。通过本任务的学习：(1)能够实现HIVE数据源的搭建；(2)能够实现读CSV数据，并写入HIVE数据库。任务实现2.2.1新建hive数据源步骤1：选择算法建模工具中数据管

2、理模块，使用关系数据中创建数据源功能创建hive数据源。图2-2-1为选择创建hive数据源的功能界面。算法建模s*数据源信息道理算法苜页创建经疡5r1痔M数抠状态B38源名稀类型数据分析数据分类1启用SSfiS-tert111MySQ1慢型列表限7z2启用MySQHf1gJfiotacxya1MySQ1平口寄植3启用hive1敢堂蹲Hive制4启用hiveffi-enterprise_history_Hive5 启用案例如酶MySQ16 启用MySQ1KeK-CCitJeachingMySQ1图2-2-1创建hive数据源步骤2：打开图2-2-1中的“创建数据源”的配置界面，输入数据源名称“

3、hive数据源”，在类型中选择“hive”。配置UR1地址，IP为数据源的服务器地址，如10.10.74.134,hive数据库默认端为IOoOO,数据库名enterprisehistorydata(需要在hive数据库服务器预先创建)。输入用户名和密码，单击“测试连接”按钮，连接成功后，显示“数据源测试成功”，单击“完成”保存hive数据源。创建hive数据源的UR1格式：jdbc:hive2:/:1) host:数据库所在服务器的IP地址或主机名2) Port:端口号3) sid:数据库名4) principa1:kerberos身份，可选参数，开启kerberos时需要该参数创建数据源X

4、数据源名梆腿类型HiveV应用于模型数据源UR1jdbchive2z4.1.74.134:10000/enterp&historydata|用户名hive空码|台0t!5画5空闲回收时间5(分钟)asis趣图2-2-2配置hive数据源步骤3：对新建hive数据源分配访问权限。选择“数据管理”中的“数据权限”功能，在“组织机构”中选择一个组织机构，如“常信院演示二班”，在数据源中选择“hive数据源，如图2-2-3所示。步骤4：在图2-2-3中勾选“允许访问整个数据源”，将hive数据源筛选到2.2.2文件输入步骤1：使用“数据分析”界面的“挖掘分析”功能，将“文件输入”节点拉到设计窗口。如图

5、2-2-5所示。2-2-5创建文件输入节点步骤2：配置“文件输入”节点，将存储“风机”数据的CSV数据集上传到大数据平台。如图2-2-6所示。文件法入口文件上传科除全部8H除数据内容数据结构timewindspeedgeneratorspeed2015/11/418X)60.4143105161.2568325752015/11/418:070.7904830791.2501849652015/11/418802999835611.2568325752015/11/418:090.4880698421.2734515992015/11/418:100.7462274831.2568325752

6、015/11/418:110.3294872921.25683257S口分区记录条数ooo点击2幅切频用确定房肖图2-2-6上传文件2.2.3HIVE输出步骤1：将输出功能下的“hive输出”拉倒设计界面，创建hive输出节点,并和输入节点搭建统一模型。如图2-2-7所示。图2-2-7创建hive输出节点步骤2：打开hive输出界面配置界面，配置hive输出节点。序列化文件选择csv,数据源选择新建的“hive数据源”，存储模式为“覆盖”，输出表名称为afengji,配置信息设置完，点击“确定”保存数据源。HIVEtfe出X字段名原典里出奥专NUtiKA切Mt出time字符SK5BQ口5nd.

7、一蜘BSWIM回Doue32Qgenerator蜘喇DC嫩理(DOU8382QpowerIMagatX缴DOUe382wind.direftff1DC敷也型(DOU382Qyawjsi1ao!(D0U8382Q次;w/a。hivMSVat*则K去丁deJest01(enterrise-htocy-dadejeit111(entefpre-hHtfy_d-de-zk(enterpre-htory-daU)-Tde-zk22(entefpfise-htory-dt善ev2280003(cnterpriteahittorysd.Tea,2320007(eAterprite.hitory.d.FBo.

8、23R009(mterpri.hMory.dWHfengjirIIyaw.peeBKfXMBMXJB382图2-2-8hive输出节点配置功能说明：节点支持用户能够将流程过程数据和处理结果数据保存到HIVE表中。输入端口：1个数据集。输出端口：1个数据集。参数：序列化类型:指定数据在hive数据库中的存储格式，包含orc,parquet,csv格式。输出信息配置:对输出目标表的内容设置，选择需要输出的属性，并逐或者批量配置待输出数据的输出类型、输出长度、输出精度。选择数据源:选择已配置的数据源。查询:通过关键字查询表名。输出表名称:用户设置输出表名称。存储模式:选择输出模式，包括覆盖、追加两种

9、，默认追加模式下若同名表存在，在已有表中追加内容;覆盖模式下若同名表存在，直接覆盖原有表结构和数据。输出到hbase:选择输出到hbase,则会在hbase中创建一个相同表名的表；创建hbase表时必须选择一个列作为id歹U;选择关联到hive同时会在hive中创建同名的表，但是数据是关联hbase表中的数据，如果没有关联hive则直接输出到hbaseO步骤3：配置完成后，点击工具栏“保存”按钮，然后执行建模，模型运行结束，将反馈执行过程分析信息，如图2-2-9所示。图2-2-9执行建模文件步骤4：Hive输出节点的列表功能区查看上传的hive数据表执行成功后，可以在数据表的列表区能发现“fe

10、ngji”数据表，如图2-2-10所示。忠岫(Se序列化类型绮索国Kde-testI(enerp5e-history-dde_teit111(eterprise-htory-dde_zk(enterpcise_histoy_dau)-Tde_zk22(9nterpfi$9_hi$tory_cht4iKe-220OOO3(entefpie-hitfy-d.e-2320007(enterpfie-hipeedwindspeed数值生(DOUB1E)generatorspeedgeneratorspeedJff1(DOUB1E)powerpower数值型(DOUBIE)Wind_directionWirVd.directionfiff1fi(DOUB1E)yawJXHitionyawpositionttff1(DOUB1E)yawspeedyawspeed蜘B型(DOUB1E)向Ch1angIePitCh1ang1efStt(DOUB1E)选择数坂数据内容图2-2-14hive输出节点数据结构

展开阅读全文