工业大数据分析HIVE输入与输出教学讲义.docx

上传人:lao****ou 文档编号:555011 上传时间:2024-01-25 格式:DOCX 页数:8 大小:141.04KB
下载 相关 举报
工业大数据分析HIVE输入与输出教学讲义.docx_第1页
第1页 / 共8页
工业大数据分析HIVE输入与输出教学讲义.docx_第2页
第2页 / 共8页
工业大数据分析HIVE输入与输出教学讲义.docx_第3页
第3页 / 共8页
工业大数据分析HIVE输入与输出教学讲义.docx_第4页
第4页 / 共8页
工业大数据分析HIVE输入与输出教学讲义.docx_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《工业大数据分析HIVE输入与输出教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析HIVE输入与输出教学讲义.docx(8页珍藏版)》请在第一文库网上搜索。

1、任务2.2Hive输入与输出任务概述本任务读取CSV文件数据,并数据存储到大数据平台HIVE数据库中。文本输入节点实现csv文件上传到平台,Hive输出节点通过hive数据源将数据写入大数据平台的hive数据库。本任务中的数据集来源自某台风力电机IOmin间隔SCADA真实运行数据,主要有4个维度信息分别为时间戳(Time)、风速(WindSpeed)功率(Power)和风轮转速(RotorSpeed),包含3426条数据。通过本任务的学习:(1)能够实现HIVE数据源的搭建;(2)能够实现读CSV数据,并写入HIVE数据库。任务实现2.2.1新建hive数据源步骤1:选择算法建模工具中数据管

2、理模块,使用关系数据中创建数据源功能创建hive数据源。图2-2-1为选择创建hive数据源的功能界面。算法建模s*数据源信息道理算法苜页创建经疡5r1痔M数抠状态B38源名稀类型数据分析数据分类1启用SSfiS-tert111MySQ1慢型列表限7z2启用MySQHf1gJfiotacxya1MySQ1平口寄植3启用hive1敢堂蹲Hive制4启用hiveffi-enterprise_history_Hive5 启用案例如酶MySQ16 启用MySQ1KeK-CCitJeachingMySQ1图2-2-1创建hive数据源步骤2:打开图2-2-1中的“创建数据源”的配置界面,输入数据源名称“

3、hive数据源”,在类型中选择“hive”。配置UR1地址,IP为数据源的服务器地址,如10.10.74.134,hive数据库默认端为IOoOO,数据库名enterprisehistorydata(需要在hive数据库服务器预先创建)。输入用户名和密码,单击“测试连接”按钮,连接成功后,显示“数据源测试成功”,单击“完成”保存hive数据源。创建hive数据源的UR1格式:jdbc:hive2:/:1) host:数据库所在服务器的IP地址或主机名2) Port:端口号3) sid:数据库名4) principa1:kerberos身份,可选参数,开启kerberos时需要该参数创建数据源X

4、数据源名梆腿类型HiveV应用于模型数据源UR1jdbchive2z4.1.74.134:10000/enterp&historydata|用户名hive空码|台0t!5画5空闲回收时间5(分钟)asis趣图2-2-2配置hive数据源步骤3:对新建hive数据源分配访问权限。选择“数据管理”中的“数据权限”功能,在“组织机构”中选择一个组织机构,如“常信院演示二班”,在数据源中选择“hive数据源,如图2-2-3所示。步骤4:在图2-2-3中勾选“允许访问整个数据源”,将hive数据源筛选到2.2.2文件输入步骤1:使用“数据分析”界面的“挖掘分析”功能,将“文件输入”节点拉到设计窗口。如图

5、2-2-5所示。2-2-5创建文件输入节点步骤2:配置“文件输入”节点,将存储“风机”数据的CSV数据集上传到大数据平台。如图2-2-6所示。文件法入口文件上传科除全部8H除数据内容数据结构timewindspeedgeneratorspeed2015/11/418X)60.4143105161.2568325752015/11/418:070.7904830791.2501849652015/11/418802999835611.2568325752015/11/418:090.4880698421.2734515992015/11/418:100.7462274831.2568325752

6、015/11/418:110.3294872921.25683257S口分区记录条数ooo点击2幅切频用确定房肖图2-2-6上传文件2.2.3HIVE输出步骤1:将输出功能下的“hive输出”拉倒设计界面,创建hive输出节点,并和输入节点搭建统一模型。如图2-2-7所示。图2-2-7创建hive输出节点步骤2:打开hive输出界面配置界面,配置hive输出节点。序列化文件选择csv,数据源选择新建的“hive数据源”,存储模式为“覆盖”,输出表名称为afengji,配置信息设置完,点击“确定”保存数据源。HIVEtfe出X字段名原典里出奥专NUtiKA切Mt出time字符SK5BQ口5nd.

7、一蜘BSWIM回Doue32Qgenerator蜘喇DC嫩理(DOU8382QpowerIMagatX缴DOUe382wind.direftff1DC敷也型(DOU382Qyawjsi1ao!(D0U8382Q次;w/a。hivMSVat*则K去丁deJest01(enterrise-htocy-dadejeit111(entefpre-hHtfy_d-de-zk(enterpre-htory-daU)-Tde-zk22(entefpfise-htory-dt善ev2280003(cnterpriteahittorysd.Tea,2320007(eAterprite.hitory.d.FBo.

8、23R009(mterpri.hMory.dWHfengjirIIyaw.peeBKfXMBMXJB382图2-2-8hive输出节点配置功能说明:节点支持用户能够将流程过程数据和处理结果数据保存到HIVE表中。输入端口:1个数据集。输出端口:1个数据集。参数:序列化类型:指定数据在hive数据库中的存储格式,包含orc,parquet,csv格式。输出信息配置:对输出目标表的内容设置,选择需要输出的属性,并逐或者批量配置待输出数据的输出类型、输出长度、输出精度。选择数据源:选择已配置的数据源。查询:通过关键字查询表名。输出表名称:用户设置输出表名称。存储模式:选择输出模式,包括覆盖、追加两种

9、,默认追加模式下若同名表存在,在已有表中追加内容;覆盖模式下若同名表存在,直接覆盖原有表结构和数据。输出到hbase:选择输出到hbase,则会在hbase中创建一个相同表名的表;创建hbase表时必须选择一个列作为id歹U;选择关联到hive同时会在hive中创建同名的表,但是数据是关联hbase表中的数据,如果没有关联hive则直接输出到hbaseO步骤3:配置完成后,点击工具栏“保存”按钮,然后执行建模,模型运行结束,将反馈执行过程分析信息,如图2-2-9所示。图2-2-9执行建模文件步骤4:Hive输出节点的列表功能区查看上传的hive数据表执行成功后,可以在数据表的列表区能发现“fe

10、ngji”数据表,如图2-2-10所示。忠岫(Se序列化类型绮索国Kde-testI(enerp5e-history-dde_teit111(eterprise-htory-dde_zk(enterpcise_histoy_dau)-Tde_zk22(9nterpfi$9_hi$tory_cht4iKe-220OOO3(entefpie-hitfy-d.e-2320007(enterpfie-hipeedwindspeed数值生(DOUB1E)generatorspeedgeneratorspeedJff1(DOUB1E)powerpower数值型(DOUBIE)Wind_directionWirVd.directionfiff1fi(DOUB1E)yawJXHitionyawpositionttff1(DOUB1E)yawspeedyawspeed蜘B型(DOUB1E)向Ch1angIePitCh1ang1efStt(DOUB1E)选择数坂数据内容图2-2-14hive输出节点数据结构

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服