《工业大数据分析特征获取方法教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析特征获取方法教学讲义.docx(14页珍藏版)》请在第一文库网上搜索。
1、任务3.1特征获取方法任务概述本任务主要进行特征属性生成、主成分分析和因子分析的案例实操演示。通过本任务的学习,学生可以了解到:(1)能够了解工业大数据特征工程的概念和特征。(2)能够学习相关特征的提取和处理方法。(3)能够学习特征工程的评估步骤。任务实现任务3.1.1特征属性生成属性生成的功能主要是新增字段,公式计算可以对字段的值进行处理,如可以新增一个字段c,字段c为字段a+字段bo属性生成节点的图标如图3-1-1所zj0图3-1-1属性生成图标参数说明打开属性生成节点,查看相关参数,如图3-1-2所示。3校验按钮显示验证结果,如表达式正确则显示:“验证通过”,如表达式存在问题,则提示具体
2、的异常信息数据描述本段中所用数据为风机结冰故障数据。数据集文件名称:fengji_data_t1_demo2.csv0数据集案例背景:叶片结冰是风电领域的一个全球范围难题。低温环境所导致的叶片结冰、材料及结构性能改变、载荷改变的问题等,对风机的发电性能和安全运行造成较大的威胁。随着风机的设计功率不断提升,现有风机塔筒高度也在不断增长,因此即使在北部沿海和山区地区,冬季里大量风机都会触碰到较低的云层,在低温和潮湿环境下非常容易结冰。目前风机运行的实时数据主要由SCADA(注)系统进行存储,对叶片结冰故障的监测手段主要是比较风机实际功率与理论功率之间的偏差,当偏差达到一定值后会触发风机的报警和停机
3、。然而,触发报警时往往已经发生叶片大面积结冰现象,在这样的情况下运行会增加叶片折断损坏的风险。虽然许多新型风机都设计了自动除冰系统,但是实际应用中面临的挑战是很难对结冰的早期过程进行精确预测,以便能够尽早开启除冰系统。对结冰过程的预测准确度决定了除冰系统的效率、风机的效率损失和风机运行的风险。数据集字段说明,如表3-1-2所示。表3-1-2数据集字段说明字段名称数据类型数据样例解释说明time字符型2015/11/40:00数据采集时间wind_speed数值型(DOUB1E)1.096584281风速generator_speed数值型(DOUB1E)1.236889745发电机转速powe
4、r数值型(DOUB1E)1.008939网侧有功功率(kw)wind_direction数值型(DOUB1E)1.537073对风角()wind_direction_mean数值型(DOUB1E)1.06865325秒平均风向角yaw_position数值型(DOUB1E)-O.62627偏航位置yaw_speed数值型(DOUB1E)-O.03896偏航速度pitch1_ang1e数值型(DOUB1E)0.222222叶片1角度pitch2_ang1e数值型(DOUB1E)0.195556叶片2角度pitch3_ang1e数值型(DOUB1E)0.177778叶片3角度pitch1_spee
5、d数值型(DOUB1E)0.0101叶片1速度pitch2_speed数值型(DOUB1E)0.0203叶片2速度pitch3_speed数值型(DOUB1E)0.0301叶片3速度PitCh1jnoto_tmp数值型(DOUB1E)-1.389叶片1变桨电机温度pitch2_moto_tmp数值型(DOUB1E)-1.43叶片2变桨电机温度pitch3_moto_tmp数值型(DOUB1E)-1.35叶片3变桨电机温度acc_x数值型(DOUB1E)-1.02399X方向加速度acc_y数值型(DOUB1E)0.061109y方向加速度environment,tmp数值型(DOUB1E)-0
6、.8947环境温度int_tmp数值型(DOUB1E)-0.92206机舱温度pitch1_ng5_tmp数值型(DOUB1E)0.969231叶片1上ng5的温度pitch2_ng5_tmp数值型(DOUB1E)0.629231叶片2上ng5的温度pitch3_ng5_tmp数值型(DOUB1E)0.769231叶片3上ng5的温度pitch1_ng5_DC数值型(DOUB1E)-0.8叶片1ng5充电器直流电流pitch2_ng5DC数值型(DOUB1E)0.48叶片2ng5充电器直流电流pitch3_ng5DC数值型(DOUB1E)-0.08叶片3ng5充电器直流电流group数值型(I
7、NT)44数据分组标识frozen_state布尔型(BOO1EN)0结冰状态操作步骤步骤1:用户登录算法建模工具产品,打开数据分析,打开或新建挖掘分析模型后,在产品界面左侧菜单“数据管理一输入”菜单下,向建模区拖入“文件输入”节点模块,如图3-1-4所示。图3-1-3文件输入双击打开,如图3-1-4所示。文件输入读译数簿文件上传删除全部删除分区记录条数1000图3-1-4文件上传界面步骤2:点击“文件上传”按钮,选择待上传的文件“fengji_data_t1denIO2”点击确定,如图3-1-5所示。fengjidatat1demo2X文件上传翻徐全部B除数据内容加8结构3fengjidat
8、at1-demo2timewindspeedgenerator印Ced2015/11/40z1.0965842811.2368897452015/11/40:010.9453776631.2634801842015/11/40:010.9084981.2435373552015/11/414:040.6761561241.2501849652015/11/41440.7056598541.2435373552015/11/414X)50.8568664721.243537355分区记录条数100000点击查看功能说明百图3-1-5文件上传配置点击“确定”按钮,完成文件输入节点配置。步骤3:打开
9、“特征工程”下拉列表拖入“属性生成”节点模块,连接两个节点模块,形成以下的逻辑关系,构建如下模型,如图3-1-6所示:fenqj1data国尾性生戌瞰图3-1-6构建模型步骤4:双击打开“属性生成”节点,设置节点配置参数,新增属性名称“NewWS”,表达式为sqrt(wind_speed),表示取wind_speed的平方根值,如图3-1-7所示。图3T-7属性生成节点配置步骤5:点击右上角运行,模型运行完成后,在洞察中查看结果,参照下图,如图3-1-8所示。图3-1-8洞察页面按钮通过以上模型运行,可以得出一些关于风机的运行时间、风速、发电机转速、电能、风向等新增特征,如图3-1-9所示。图
10、3-1-9模型运行结果任务3.1.2主成分分析主成分分析常用于社会科学、市场调研和使用大型数据集的其他行业,用来从大数据集形成较小数量的不相关变量。在一系列分析中,通常将主成分分析作为其中的一个步骤。主成分分析的目的是为了使用最少数量的主成分来解释最大量的方差。可以使用主成分分析减少变量数目并避免多重共线性,也可以在相对于观测值数目而言有太多预测变量时使用主成分分析。主成分分析节点的图标如图3-1-10所示。图3-1-10主成分分析图标参数说明打开主成分分析节点,查看相关参数,如图3TT1所示。主成分分析2.噫选中的变量点壬直切呻潮.定取消图主成分分析相关参数节点参数与节点配置页面对应说明,如
11、表3-1-3所示。表3-1-3主成分分析参数说明参数类型描述选择变量列表框用户指定需要进行主成分分析的属性列,需要指定大于1个的变量作为主成分分析的对象提取方法下拉框按照因子数、累积贡献度的方式进行主成分分析。因子数文本框当提取方法为因子数时,用户直接指定需要分解的因子数。默认为Io累积贡献度文本框当提取方法为累积贡献度时,用户直接指定需要贡献度的大小。默认为90%。其中提取方法可以展开选择选项:分别有“因子数”和“累积贡献度二如图3-1-12所示。提取方法累积贡献度(%)累积贡献度因子数累积贡献度操作步骤步骤1:打开“数据管理”下拉列表向建模区拖入“文件输入”节点模块,打开“特征工程”下拉列
12、表拖入“主成分分析”节点模块,连接两个节点模块,形成以下的逻辑关系,构建如下模型,如图3-1-13所示。-QQQ图3-1T3主成分分析构建模型步骤2:“文件输入”节点配置如下,点击“文件上传按钮”,选择fengji_data_t1_demo2,数据源上传数据文件,点击“确定”完成文件输入节点的配置,如图3TT4所示。fengjidatat1demo2文件上传删除XQ数据内容教掘结构csvfengji-datat1demo2timewindspeedgeneratorspeed2015/11/40:001.0965842811.2368897452015/11/40010.9453776631.
13、2634801842015/11/40:010.9034981.2435373552015/11/41440.6761561241.250184965C2015/11/414:040.7056598541.2435373552015/11/41450.8568664721.243537355施记录条数1(XXXX)点壬鳄切潴是取消图3-1-14文件输入节点配置步骤3:“主成分分析”节点配置如下:从左侧选择分别选择“wind_speed”、“Wind_direction、yaw_position,、“yaw_speed”、“pitch1_ang1e,、“pitch1SPeed”几个选项,“提取方法”选择“累计贡献度”,如图3TT5所JO主成分分折X数值Q1字段名名称类型移除OWind_$peedwindspeed数值型(DOUB1E)XgeneratorspeedWind.directionwindjdirection数值型(DOUB1E)XpowereyawJjositionyawpositionJJfiS(DOUB1