《工业大数据分析数据列处理教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析数据列处理教学讲义.docx(17页珍藏版)》请在第一文库网上搜索。
1、任务2.4数据列处理任务概述本节主要介绍常见的数据列处理的原理和方法,并通过案例实现进行实操演示。数据集选用“工业用水处理投药量数据”。数据列处理包括“属性过滤”、“缺失值处理”、“异常值检测”和“数据类型变换”。属性过滤能够根据用户设置的一个或者多个属性进行列数据的过滤和筛选。缺失值处理能够对存在缺失值的变量进行填充,根据数据类型的不同,可选择多种方式进行变量的缺失值替换。异常值检测能够对存在异常和噪声的数据进行检测和识别,同时可进一步对识别出的异常值进行处理。数据类型变换包括数值型属性变换、字符型属性变换和日期型属性变换。数值型属性列可转换为日期、字符串的方式。字符型属性可变换为数字、日期
2、的方式。日期型属性可变换为数值型、字符型属性的方式。通过本任务的学习:(1)能够对上传到大数据平台中的数据进行属性过滤处理;(2)能够对上传到大数据平台中的数据进行缺失值处理;(3)能够对上传到大数据平台中的数据进行异常值检测;(4)能够对上传到大数据平台中的数据进行数据类型变换处理。任务实现2.4.1属性过滤属性过滤节点能够根据用户设置的一个或者多个属性进行列数据的过滤和筛选,选择“保留属性”,则选到右边的属性是保留下来的;选择“过滤属性”,则选到右边的属性是过滤掉的,过滤掉的变量列将被删除掉不再输出。图2-4-1属性过滤节点属性过滤操作步骤如下:步骤1:用户先完成文件输入。登录算法建模工具
3、产品,打开数据分析,打开或新建挖掘分析模型后,在产品界面左侧菜单“数据管理一输入”菜单下,将“文件输入”节点拖至右侧设计区,双击打开界面,点击“文件上传”按钮,上传文件“工业用水处理投药量数据.csv”。步骤2:在挖掘界面左侧”数据处理一列”菜单下,将“属性过滤”节点拖至右侧设计区,与需要处理数据的节点连接,构建如下模型,图2-4-2所示。图2-4-2属性过滤模型建立步骤3:双击“属性过滤”节点打开节点,图2-4-3所示。属性过滤全85C)字符。数值O保留属性过泡属性O日期。文$B3M类型瞬-11I时句ISzKiSS出水速度取水IjRzKPHPACM图2-4-3属性过滤界面说明:界面左侧加载节
4、点输入数据的所有列名,将需要处理的列名选至右侧,进行和属性的过滤。也支持通过读取模型进行属性筛选。参数信息配置情况:【保留属性工选择保留属性,则选到右边的列是保留下来的属性,未被选中的变量列将被删除掉不再输出。【过滤属性工选择过滤属性,则选到右边的列是过滤掉的属性,过滤掉的变量列将被删除掉不再输出。【选择变量】:从输入数据集中选择属性作为输出对象。原数据集中未被选中的变量列将被删除掉不再输出。【模型读取】:支持读取描述数据特征、变量选择和相关系数输出的模型。注:属性过滤中的模型读取支持描述数据特征、相关系数、变量选择模型,通过不同的过滤条件进行属性的筛选。步骤4:选择“取水量”、“原水PH”和
5、“PAC耗”三个属性列进行过滤,过滤后的数据集中排除这三列数据。属性过滤全部O字符O数值OOK时间m*is出水速度己选择字段类型瞬eK7X*数值型(INT)XOIKzkPHWffiS(DOUB1E)XPACttff1S(D0U81E)XO保留W点击查看功能说明1ft啕图2-4-4描述数据特征-属性过滤注:属性过滤读取模型时,保证数据名称和数据类型与原信息保持一致。步骤5:点击右上角“运行”按钮,运行后在“洞察”中查看节点运行结果,图2-4-5和图2-4-6所示。运行结果分析:通过以上运行结果截图可以看到属性过滤处理后的10个样例的运行结果。2.4.2缺失值处理用户可使用缺失值处理节点对存在缺失
6、值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值替换,最后输出满足设置方式处理后的数据表。图2-4-7缺失值处理节点缺失值处理案例操作步骤如下:步骤1:用户在建模区分别拖入“文件输入”和“缺失值处理”节点,构建如下模型如图所示,图2-4-8所示。步骤2:对“文件输入”节点进行设置,选择“工业用水处理投药量数据”,点击“确定”按钮,图2-4-9所示。工业用水处理投药量数据i3文件上传删除辐蒯除数据内容数据结枸6可用飒混投西量教据时向原水PH原水速度2013/8/206:007.13623462013/8/207:007.12628812013/8/225:006.9129
7、4812013/8/226:006.91293.292013/8/231906.818495I分区记弱毁100000点建看功能说明确定取消图2-4-9文件输入设置步骤3:双击“缺失值处理”节点,进行设置,如图2-4-10所示。图2-4-10缺失值处理节点配置缺失值处理针对存在缺失值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值处理。最后输出满足设置方式处理后的数据表。界面左侧加载节点输入数据的所有列名,将需要处理的列名选至右侧,节点对数值型数据提供最小值、最大值、平均值、众数、中位数、。和自定义等方式的缺失值处理。用户可在变换方式处进行选择。参数信息配置情况:【选择列工
8、用户指定需要进行缺失值处理的属性列。【搜索】:支持对已选字段进行自定义搜索。【数值批处理工针对数值型提供最小值、最大值、平均值、中位数和自定义等方式的缺失值处理。其中最小值是将属性出现值的最小值赋给缺失的单元格所在值。最大值是将属性出现值的最大值赋给缺失的单元格所在值。平均值是将属性出现值的平均值赋给缺失的单元格所在值。中位数是将属性出现值的中位数赋给缺失的单元格所在值。自定义方式是用户自己设置一个特定的数值赋给缺失的单元格。默认为平均值。【日期批处理】:针对日期型提供自定义方式的缺失值处理。支持用户自己设置一个特定的日期值赋给缺失的单元格。【字符/文本批处理】:针对字符型及文本型提供最多次项
9、、最少次项和自定义等方式的缺失值处理。其中最多次项是将属性列出现频次最高的值赋给缺失的单元格所在值。最少次项是将属性出现频次最少的值赋给缺失的单元格所在值。自定义方式是用户自己设置一个特定的字符值赋给缺失的单元格。默认为最多次项。步骤4:选择完成后点击界面右下方“确定”按钮,保存已编辑内容。点击右上角“运行”按钮,运行后在“洞察”中查看节点运行结果,如下图2-4-11所示所示。缺失值处理针对存在缺失值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值处理。最后输出满足设置方式处理后的数据表。2.4.3 异常值检测用户可使用异常值检测节点对存在异常和噪声的数据进行检测和识别。
10、同时可进一步对识别出的异常值进行处理。异常值险测本Q图2-4-12异常值检测节点异常值检测案例操作步骤如下:步骤1:在挖掘界面左侧“数据管理-输入”菜单下拖入“文件输入”节点,在“数据处理一高级”菜单下,将“异常值检测”节点拖至右侧设计区,文本输入节点D点和异常值检测D点相连接,如图2-4-13所示。图2-4-13异常值检测节点步骤2:对“异常值检测”节点进行参数配置。“原水PH”使用自定义异常检测公式,定义PH值大于7为异常值。“出水浊度”使用“基于四分位距”检测方法。配置界面如图2-4-14所示。界面左侧加载输入该节点的所有数值型字段名称,将需要检测的列名“原水PH”和“出水浊度”选至界面
11、右侧,设置检测方式和检测公式,在界面上方选择“满足以下任意条件”,异常值操作“直接删除二编辑完成后,点击界面右下方“确定”按钮保存已编辑内容。异常值检测PAC耗碓碎图2-4-14异常值检测界面异常值检测利用原始数据的分布的特征情况,对存在异常和噪声的数据进行检测和识别。同时可进一步对识别出的异常值进行处理。参数信息配置情况:【满足以下全部条件】:满足所有条件则进行异常值处理。【满足以下任意条件】:满足任意一个条件则进行异常值处理。【异常值操作工提供“直接删除”、“用均值替换”、“仅输出异常值”、“标记异常值并输出整表”及“用自定义值替换”共五种异常值处理方式。注:当满足用户指定的条件,判断某样
12、本为异常样本时,才会对其异常值进行操作。【选择列工用户指定需要进行异常值检测的属性列,这里的属性列数据类型必须为数值型。【检测方式提供“基于四分位距”和“自定义异常检测公式”两种检测方式,其中“基于四分位距”,用户不需要输入“检测公式”;当检测方法为“自定义异常检测公式”时,用户需要选择“符号”并自定义“值注:当选择基于四分位距时,当值大于上四分位数+3倍四分位距或小于下四分位数-3倍四分位距,属于异常值。步骤3:点击建模界面右上角“运行”按钮,运行后在“洞察”界面中查看节点运行结果,“原水PH”大于7的数据在处理后的结果中被删除了。异常值处理结果如图2-4-15所示。图2-4-15异常值检测
13、处理异常值检测利用原始数据的分布的特征情况,对存在异常和噪声的数据进行检测和识别。同时可进一步对识别出的异常值进行处理。2.4.4 数据类型变换算法建模工具产品中提供了3个数据类型变换节点:数值型属性变换、字符型属性变换和日期型属性变换。这3个节点的功能图标如图2-4-16所示。数值型属性变换字符型属性兖换I1aQaAQy/m1Q图2416数据类型变换节点(1)数值型属性变换用户可使用该节点将数值型属性列转换为日期、字符串的方式,并提供了按照区间转换为字符功能;用户还可以按照自己指定的平方、平方根、对数、空值转换、非空值转换、四舍五入以及单位转换等方式对数值型属性进行计算。转换后将按照配置生成
14、新列进行输出。(2)字符型属性变换字符型属性变换提供多种将字符型属性变换为数字、日期的方式,可以直接将字符转换为原字符串值的日期数值,也可以按照用户自定义的规则将指定的字符转换为指定的值;同时,还提供了对字符串进行截取、大小写转换、去空格等功能;支持用户对空字符型属性或者非空字符型进行替换。且这些经过转换后的字符型属性列将产生新的变量列,原数据中的字符型属性、日期型属性和数值型属性则保持不变输出。(3)日期型属性变换日期型属性变换提供多种将日期型属性变换为数值型、字符型属性的方式,可以按照用户自定义的规则将指定的日期区间转换为指定的值;同时还提供了对日期按年、月、日等不同精度级别进行截取的功能
15、;用户还可以按照自己指定的日期格式对日期型属性进行变换。且这些经过转换后的日期型属性列将产生新的变量列,原数据中的字符型属性、日期型属性和数值型属性则保持不变输出。数值型属性变换案例操作步骤如下:步骤1:用户在挖掘界面左侧”数据处理-列”菜单下,将“数值属性变换”节点拖至右侧设计区,与需要处理数据的节点连接,如图2-4-17所示。图2-4-17数据类型变换节点步骤2:双击打开节点,进行“数值型属性变换”参数配置,将“原水PH”数字值转换为字符串,如图2-4-18所示。界面左侧加载节点输入数据的所有列名,将需要处理的列名选至右侧,默认转为字符型,也可在变换方式处进行选择。选择完成后,点击界面右下方“确定”