云计算技术的电力大数据预处理属性约简方法研究.docx

上传人:lao****ou 文档编号:412390 上传时间:2023-10-29 格式:DOCX 页数:4 大小:36.33KB
下载 相关 举报
云计算技术的电力大数据预处理属性约简方法研究.docx_第1页
第1页 / 共4页
云计算技术的电力大数据预处理属性约简方法研究.docx_第2页
第2页 / 共4页
云计算技术的电力大数据预处理属性约简方法研究.docx_第3页
第3页 / 共4页
云计算技术的电力大数据预处理属性约简方法研究.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《云计算技术的电力大数据预处理属性约简方法研究.docx》由会员分享,可在线阅读,更多相关《云计算技术的电力大数据预处理属性约简方法研究.docx(4页珍藏版)》请在第一文库网上搜索。

1、云计算技术的电力大数据预处理属性约简方法研究关键词:云计算;电力大数据;预处理;约简;HadOC)P平台;MaPRed1ICe模型摘要云计算数据处理计算令电力大数据的处理智能化以及快速化,云计算技术将变化复杂、数量大、类型多电力数据虚拟化、池化,云计算数据处理中心成为了当下支撑电力大数据的重要技术。论文基于云计算技术背景,提出了电力大数据预处理约简,针对该理论进行简要概述,并结合M叩RedUCe模型,实施了电力大数据月处理约简应用。最后,在Had。0P平台上对电网故障诊断表和风电实测数据进行属性约简,实验结果表明,该方法有效可行,并具有较好的加速比和可扩展性,适用于电力大数据预处理属性约简。1

2、引言电力行业是国民经济的基础支撑行业,电力行业信息化和电力生产自动化的发展与应用在电力企业产生了海量的数据。随着物联网、云计算、电子商务等技术在电力行业的应用,电力企业数据中心数据量从几百TB快速增长到几千TB,数据增长速度越来越快,电力行业步入大数据时代1。电力大数据具有数据量大、类型多、变化快、价值高等大数据普遍特性,深入挖掘电力大数据蕴含的价值,对于电力企业经营管理、电力生产、社会能源节约都具有重要的现实意义。属性约简可以减少数据维数,减少不必要的存储和不相关的输入,显著提高电力数据预处理的效率。面对呈几何级增加的海量电力大数据,电力系统中的计算机面临着存储资源和计算资源的瓶颈,靠单纯提

3、高软硬件水平也已很难满足快速增长的需求。作为新一代并行编程系统,MapReduce利用其特有的弹性分布式数据集MP_P0SRS1在现有的软硬件基础上可以很好地并行处理大规模的电力数据集。本文以某风电场海量短期功率预测数据为例,并将MapReduCe引入到知识约简算法中来。由于功率预测表中数据大多属性是连续型的,必须将连续属性离散化,由于知识的割裂和离散化技术本身的特点,有可能会丢失一些信息2。为了保证知识的完整性,笔者深入研究了MapReduce编程模型,对粗糙集相对正域理论及现有的知识约简算法进行剖析,利用相对正域的性质,给出了电力大数据预处理属性约简中的相关定义和定理,结合MapReduc

4、e模型设计了并行计算电力大数据集相对正域势的算法MP_P0SRS1并利用Had00P平台实现了云环境下的电力大数据预处理属性约简算法。实验结果表明,该算法不仅能够高效地进行电力大数据集属性约简计算,而且具有较好的可扩展性。2电力知识表达系统相关定义及定理Hadp是由Goog1e公司提出的Map-Reduce并行编程框架的开源实现。MapReduce程序由Map函数和Reduce函数组成,Map函数每次将一个输入(key,va1ue)对转换为一组中间结果(key,va1ue)对;Reduce函数对key相同的一组VaIUe进行处理,产生最终结果并写入分布式文件系统HDFSoMapReduce这种

5、比较高效的并行编程模型,就能够很好的解决电力大数据预处理属性约简问题,如下,便是其中较具代表性的定义和定理4。图1M叩RedUCe运行架构图2.1定义定义1:假设电力知识表达系统为决策信息表S,S=(U,AJy),表中,U为对象集合,A=CUD,C为条件属性集,D为决策属性集,V为属性值集合,f为信息函数,并明确对象属性值5。定义2:令P,QA,PCQ=0,P是Q的正域,记以3(。)=乙,XWUQ表示P中所包含的元素个数C2.2定理定理1:假设电力知识表达系统S=(U,AJ,V),P,QeA,PCQ=0,RjP,Count(pos1i()-Count(posp()WsR(Q)=WSP(Q)的充

6、要条件;必要性证明:因为PoSR=PoSP(Q),所以Q的P正域与Q的正域R相同,Count(posR()=Count(posp();充分性证明:通过反证法进行证明,即设po%(Q)=po(。)不成立,而因为RqP,所以WSR(Q)qpoSp(Q),而因为pos(Q)=posp(Q)不成立,贝IJCount(pos1i()posc(D),由定理1可知Count(pos(D)jCountposc(D)0充分性证明因为Count(PoSC&(。)Coimi(posc(D)1由定理1可知POSC.0(D)posc(D);可知a为核属性。以上为MaPRedUCe并行编程模型中的部分定义和定理,从中能够

7、看出,在对一个电力知识表达系统属性约简的过程中利用粗糙集理论,可以有效降低关键属性约简的复杂度,不仅能够有效降低整个约简过程的计算量,还能够更好的降低时间和资源的消耗,而基于云计算技术的电力大数据预处理属性约简,就是在由此为基础的前提下,通过加强对云计算技术的应用,来进一步提高其约简效率6。3约简算法的MaPRedUce编程设计将一个电力大数据集视作为是一项电力知识表达系统,相应的便需求出对指定决策属性集的条件属性,也就是将这一电力大数据集的属性约简问题转归成计算正域势的问题。应用M叩RedUCe计算以上问题,其具体方法为:map函数同时对于多个数据分片进行访问,依据实际需求,将属性及属性值取

8、出,并以此产生出key,Va1Ue键值对(其所代表的意义即V,CoI1故障区域See1”,1).Reduce函数接收来自于各个节点map所发送出的key值所对应的键值对序列,并以此来求出相同等价类的具体数量。(Dmap函数位于同一时段内针对多项数据分片各自独立展开访问,同时依据实际要求规范来获取属性和属性值,进而产生出键值对key,Vak1e;(2)RedUCe函数对即为各节点处的map与所发送的key值所相对应的键值对序列,同时还需针对相应的等价类个数予以计算处理C应用HadoOP针对复杂任务予以处理之时,其主要侧重于对任务数量的增多,而并非是针对map以及RedUCe函数复杂性的加强。因而

9、,在基于云计算技术的电力大数据预处理属性约简方面,针对性设计出两项map,三项RedUCe以及Ca1IjOb函数,同时还可携带一项主控程序,最终再结合以实际需求,各自给定算法,即可针对大数据预处理属性展开约简计算。4实验分析传统的知识约简方法无法处理大数据集,所以本节不与传统方法作对比,仅从节点数目的影响讨论其在电力大数据预处理中的应用。本文采用HadooP平台搭建了一个由16台笔记本电脑组成的集群实验环境,其中,HadoC)P的版本为Hadoop-0.20.0,笔记本电脑的最高配置为双核2.5OGHzs4GB内存、1TB硬盘,最低配置为双核2.00GHz、1.5GB内存、16OGB硬盘。实验

10、数据为风电实测数据,包含14个属性,大小为24GBo实现实验数据的抽取、转换、加载(ET1),使用相邻数据的平均值对空缺值进行填充,将数据离散化为一系列0,1列表,以提高数据处理效率,进而得到了具有13个条件属性、1个决策属性的电力知识表达系统S8o1)可扩展性可扩展性是按节点数成比例增大数据规模时并行算法的性能。为测试算法的可扩展性,从实验数据中取出2.5,5,10,2OGB四个样本作为测试数据集,分别在2,4,8,16个节点上进行规模和时效对比实验,结果如图2所示。从图中可以看出,虽然由于硬件和平台运行资源消耗的原因,节点数增加到16时算法性能略微下降,但这些作业的运行时间基本保持了相同的

11、水平,这体现出本文并行算法良好的可扩展性。I11I.,图2可拓展性测试2)加速比加速比是数据规模固定,不断增加节点数时并行算法的性能。理想的加速比是线性的,但由于计算机间通信、任务调度等开销,实际的加速比将低于理想情况。测试数据集大小为2OGB,节点数分别为2,4,8,16。如图3所示,从图中的约简时间和节点数目的关系可以看出,本文并行算法获得了良好的加速比性能。图3加速比测试6结论随着智能电网建设进程的快速发展,电力系统的数据采集量呈几何级增长,即步入电力大数据时代。传统的非并行化启发式属性约简算法,在处理电力大数据时遇到了挑战,虽然改进的并行化启发式属性约简算法克服了这一瓶颈,但由于启发式

12、属性约简算法自身固有的特点,在进行约简的过程中会丢掉一些属性重要度比较低的属性,从而造成决策表部分信息丢失。本文所研究的偏序约简算法,不但解决了启发式属性约简算法所引起的决策表信息丢失问题,还略过了启发式属性约简算法的求核过程,利用偏序方法的并行化特征将其应用到MapReduce框架下,直接对电力数据集的相关属性进行约简。最后,通过在HadOOP平台上进行仿真,结果证明偏序方法可用于电力大数据的约简运算,算法的时间性能良好。参考文献1 .吴凯峰,刘万涛,李彦虎,等.基于云计算的电力大数据分析技术与应用.中国电力,2015,48(2):111-116.2 .王订,余秀丽,刘晓峻.基于云计算的电力

13、大数据分析技术与应用.移动信息,2015(12):00079-00079.3 .毛冬,裴旭斌,沈志豪,等.电力大数据属性约简方法的研究“电子技术应用智能电网会议.2017.4 .皮霄林基于云计算技术的电力大数据预处理属性简约方法.科技创新导报,2017,14(12):158-159.5 .于潇.基于并行启发式约简方法的关键技术研究.华北电力大学,2015.6 .徐菲菲,雷景生,毕忠勤,等.大数据环境下多决策表的区间值全局近似约简.软件学报,2014(9):2119-2135.7 .王璐鑫.基于云计算技术的电力大数据属性离散化方法.数字技术与应用,2015(1):56-58.8.陈琦.基于Hadoop的电力大数据特征分析研究.华北电力大学(北京),2016.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服