工业大数据分析数据行处理教学讲义.docx

上传人:lao****ou 文档编号:555043 上传时间:2024-01-25 格式:DOCX 页数:18 大小:379.84KB
下载 相关 举报
工业大数据分析数据行处理教学讲义.docx_第1页
第1页 / 共18页
工业大数据分析数据行处理教学讲义.docx_第2页
第2页 / 共18页
工业大数据分析数据行处理教学讲义.docx_第3页
第3页 / 共18页
工业大数据分析数据行处理教学讲义.docx_第4页
第4页 / 共18页
工业大数据分析数据行处理教学讲义.docx_第5页
第5页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《工业大数据分析数据行处理教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析数据行处理教学讲义.docx(18页珍藏版)》请在第一文库网上搜索。

1、任务2.3数据行处理任务概述本节主要介绍常见的数据行处理的原理和方法,并通过案例实现进行实操演示。数据行处理包括数据过滤和数据排序。数据集选用“工业用水处理投药量数据”。数据过滤在数学建模中占有很重要的地位。它是数学建模的第一步,只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中的数据量往往是巨大的。为了保证所用的方法能够在原始数据的支持下得以实现,必须要对数据进行筛选,使得解决方法简单化。同时,又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。应用到计算机行业数据筛选的最终目的就是为数据挖掘做准备。比如,数据是五年时间产生的数据,但是由于去年某公司更换了设备,现

2、在需要分析新老设备的性能。那么需要将这五年的数据进行时间维度的筛选,前四年的数据做为一个数据集,去年更换设备的数据作为另一个数据集。这种操作就是时间维度的一个数据过滤的例子。数据排序是按一定顺序将数据排列,以便数据分析工作者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。在某些场合,排序本身就是分析的目的之一,例如居民用电,国家电网的变电箱中会实时记录每户家庭的用电量,数据会实时同步到国家电网工业大数据库中,此时数据分析者即可使用按地区,按每天的小时能分析出某地区每小时的用户用电量排在前50的家庭。通过本任务的学习

3、:(1)能够对上传到大数据平台中的数据进行数据过滤处理;(2)能够对上传到大数据平台中的数据进行数据排序处理。任务实现2.3.1数据过滤用户可使用数据过滤节点进行数据行的过滤和筛选。保留满足条件时的记录,过滤不符合条件的数据。图2-3-1数据过滤节点数据过滤案例实操步骤如下:步骤1:用户登录算法建模工具产品,打开数据分析,打开或新建挖掘分析模型后,先完成文件输入。将“数据管理”功能下的“文件输入”功能对象添加到建模界面,并上传文件“工业用水处理投药量数据.csv”。步骤2:在挖掘界面左侧”数据处理一行”菜单下,将“数据过滤”节点拖至设计区,构建如下模型,如图2-3-2所示。步骤3:与需要处理数

4、据的节点连接,双击打开节点,如图2-3-3所示。至军O冲QKtf1O日期O文本时间31足以下金睁率O38是以下任分条传故据过我X原水PH*7X:3E*aat取水,PAE图2-3-3数据过滤界面步骤4:界面左侧加载所有列,将需要过滤的列名选至页面右侧,输入过滤条件。本案例选择“原水PH”数据列,过滤条件选择“大于”,值填入“7”,如图2-3-4所不。是以下全部条件O:S足以下任堂笔件故据过渡X出水独度取M1PACM守壬查看动皓氏明定取消图2-3-4数据过滤-过滤条件如界面上方所示,过滤支持两种模式,满足全部条件或满足任意条件。其中前者设置的各个条件是“and”关系,输出的保留记录为满足各个条件的

5、记录交集,除此之外剩余的数据集为删除数据集;后者设置的各个条件是“or”关系,输出的保留记录为满足各个条件的记录并集,除此之外剩余的数据集为删除数据集。图2-3-5所示的过滤条件为“原水PH大于7,同时原水浊度大于100”。满足以下全部条件IO满足以下任3曲点击is.功能说明数据过滤全部O字符。日期0台w0*PHa*出水泡度黎水量PACft图2-3-5数据过滤-条件设置参数信息配置情况:【输出模式工支持两种模式,一种是保留满足全部条件的数据,一种是保留满足任意条件的数据。其中前者设置的各个条件是and关系,输出的保留记录为满足各个条件的记录交集,除此之外剩余的数据集为删除数据集;后者设置的各个

6、条件是Or关系,输出的保留记录为满足各个条件的记录的并集,除此之外剩余的数据集为删除数据集。【过滤条件批处理工从输入数据集中选择属性作为处理对象。【选择变量】:从输入数据集中选择属性作为处理对象。【过滤条件分别针对数值型、字符型和日期型的变量进行条件设置。不满足该条件要求的记录将被过滤掉。示例:某属性列:介于/不介于80,100,“80,100”;某属性列:在列表中/不在列表中,“西安,北京,成都”;某属性列:包含/不包含,“西,北日期型格式:“2000-北-01”或“2000/01/01”或“2000.01.01”【方式】:区分数据过滤条件是通过值来过滤,还是字段来过滤。关于此节点的使用说明

7、:注1: 字符型属性支持得过滤条件有:等于、不等于、在列表中、不在列表中、包含、不包含、缺失、非缺失、以开始、以结束、单类别个数小于、单类别个数小于等于、单类别个数大于、单类别个数大于等于、单类别占比小于、单类别占比小于等于、单类别占比大于、单类别占比大于等于; 数值型属性支持的过滤条件有:等于、不等于、在列表中、不在列表中、小于、小于等于、大于、大于等于、介于、不介于、缺失、非缺失、升序TOPN、降序TopN; 日期型属性支持的过滤条件有:等于、不等于、在列表中、不在列表中、小于、小于等于、大于、大于等于、介于、不介于、缺失、非缺失、升序TOPN、降序TopNo注2:针对数值型属性支持与数据

8、集中的其他字段进行大小对比进行数据过滤。当数值型属性的过滤条件选择等于、不等于、小于、小于等于、大于、大于等于时,方式可选择字段,在值/字段处可选择其他数值型字段。注3:支持过滤方式选择值时,引用流程参数,引用格式:$参数名称。步骤5:配置完成后,点击界面下方的“确定”按钮,即可保存已编辑内容。点击右上角“运行”按钮,运行后在“洞察”中查看节点运行结果,两条记录满足条件,如图23-6所示。图2-3-6数据过滤-结果查看该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条件时的记录将被过滤删除。在不同的过滤条件下,又会出现什么样的结果?接下来,

9、我们对常见的几种过滤条件进行说明。过滤条件/支持方式值字段流程参数支持数据类型等于/不等于/小于/大于/小于等于/大于等于日期、字符/文本、数值在列表中/不在列表中X日期、字符/文本、数值包含/不包含X字符/文本缺失/非缺失XX日期、字符/文本、数值以开始/以结束X字符/文本单类别个数小于/小于等于/大于/大于等于X字符/文本单类别占比小于/小于等于/大于/大于等于7字符/文本介于/不介于X日期、数值升序TOPN/降序TopN7X日期、数值条件说明1大小比较 字符型属性的过滤条件为等于/不等于时,方式可选择值或字段。 数值型和字符型属性的过滤条件可选择等于/不等于/小于/小于等于/大于/大于等

10、于,可通过具体的数值会与某个字段进行比较。 当方式选择值时,在值/字段的编写框中填写固定的字符或数值。图2-3-7是取水量等于7的数据过滤。图2-3-7数据过滤-大小比较点击建模界面右上角“运行”按钮,运行结果展示,如图2-3-8所示。图2-3-8数据过滤-运行结果展示当方式选择字段时,在值/字段的编写框中选择输入数据集中的其他字段,如图2-3-9所不。图2-3-9数据过滤-值/字段点击建模界面右上角运行按钮,运行结果展示,如图2-3-10所示。图2310数据过滤-运行结果展示运行结果分析:该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条

11、件时的记录将被过滤删除。条件说明2在列表中/不在列表中字符型、数值型、日期型字段的过滤条件为在列表中/不在列表中时,方式可选择值,如图2-3T1所示。注:填写“值/字段”时,使用英文逗号隔开。图2-3-数据过滤-值/字段编辑点击建模界面右上角“运行”按钮,运行结果如下,图2-3-12所示。除述fW艘从PH于水于15228靖出I1K:虺”HIS水2013闻加607436234612013/B/207力07J262831112013网22506J14别OJS2013/B/226:006J13290.782013/B/23661S4S5。航2013/B/23203006J174.540.72013/

12、B/24506J9。购2013/B/246与06J81352OS2013/8/252286J,138940&2013/8/?56J71S2JIa-81RctM;:OOtIHO图2-3-12数据过滤-运行结果展示运行结果说明:该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条件时的记录将被过字符型属性的过滤条件为在包含/不包含时,方式可选择值。注:若需要包含多个值,使用英文逗号将值进行隔开即可,图2-3-13所运行结果说明:该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条件时的记录将被过

13、滤删除。条件说明4一缺失/非缺失值/字段,图2-3-15所示。St据过速O*5Ojff1Om期。文I可X03S以下全部条件O而足以下任要芟件5W8类更过逮条供OXPHIJ11fi(DOUB1i天XB1ZKPHBjcaara*aat*PAE3j点壬看春?崎月明片定取消图2-3-15数据过滤-缺失/非缺失点击界面建模右上角“运行”按钮,运行结果如下,图2-3-16所示。图2-316数据过滤-运行结果运行结果说明:该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条件时的记录将被过滤删除。字符型属性过滤条件为以开始/以结束时,方式可选值,在值/字段

14、处填写要开始的字符,图2-3-17所示。图23-17数据过滤-过滤条件点击建模界面右上角“运行”按钮,运行结果如下,图2-3-18所示。4日本YO2023412415c5335g1厘血pc4M.U372OK7O365.O631O2X-112414MJ5正M行45tm*CM22W116曲OJW111-241”341CJCff1Q=DT多EOUbH24)W4FWnJrw图2-318数据过滤-运行结果运行结果分析:该节点能够根据用户设置条件完成行数据的过滤和筛选,当属性/列满足条件时的记录将被保留,当属性/列不满足条件时的记录将被过滤删除。当字符型属性的过滤条件选择小于等于3时,相当于该字段取值的个数只

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服