《工业大数据分析数据融合教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析数据融合教学讲义.docx(11页珍藏版)》请在第一文库网上搜索。
1、任务2.5数据融合任务概述本节主要介绍常见的数据融合的原理和方法,并通过案例实现进行实操演示。数据集选用“工业用水处理投药量数据”。数据连接是基于连接字段按照给定的连接方式进行两个表格的字段组合得到新的数据表,支持两个数据表的单个或多个字段为连接字段的连接操作,连接方式包括内连接、外连接、左连接、右连接。数据追加是针对原有业务数据库系统分析基础上提出的,它解决的是在数据仓库初始数据转载后,如何再向数据仓库输入变化的数据的问题。它要求对原有的业务系统作最小改造,并记录在数据追加周期内数据的变化过程减小由于提取周期而影响数据分析展现,同时减少访问整个业务数据库。“数据追加周期”是指将操作型环境的变
2、化反映到数据仓库中,会有一个时间延迟。数据拆分即数据分割,是指把逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储,以便于重构、重组和恢复,以提高创建索引和顺序扫描的效率。数据分割使数据仓库的开发人员和使用者具有更大的灵活性。通过本任务的学习:(1)能够选择系统内的数据源,通过数据融合的方式对数据进行连接;(2)能够选择系统内的数据源,通过数据融合的方式对数据进行追加;(3)能够选择系统内的数据源,通过数据融合的方式对数据进行拆分。任务实现2.5.1 数据连接数据连接是基于连接字段按照给定的连接方式进行两个表格的字段组合,从而得到新的数据表,支持多个数据表的单个或多个字段为连接
3、字段的连接操作,连接方式包括内连接、外连接、左连接、右连接。数据连接0Q图2-5-1数据连接节点数据连接案例操作步骤如下:步骤1:在建模界面放置2个文件输入节点,文件输入节点中的数据文件选择“工业用水处理投药量数据”,选择“数据融合-数据连接”,拖入建模区进行连接,如图2-5-2所示。图2-5-2数据连接建模步骤2:双击打开“数据连接”节点,如图2-5-3所示,配置两个数据表的连接关系。数据连接连接方式内连接(给定条件,仅返回酶的行)连接条件表达式右表的列时间IV时间Vandv点击查看功能娴取消图2-5-3数据连接配置步骤3:完成连接配置,点击右上角“运行”按钮,如图2-5-4所示。图2-5-
4、4完成连接配置步骤4:数据连接处理后,运行结果如图2-5-5所示。图2-5-5数据连接处理结果2.5.2 数据追加数据追加支持将两个或多个类似数据表的行进行连接,追加成一个新的数据集。匹配的属性列必须具备同样的数据类型。结果数据集包含各个输入表中的每行。图2-5-6数据追加节点数据追加有“按列顺序添加”和“自定义”两种追加方法,如图2-5-7所示。数据追加追加密去按列顺彩釉口二:自定义下表新届性名称点击查看功能说明确定取消图2-5-7数据追加数据追加提供将具有相同个数的属性列的两个输入表的行记录连接,以创建一个输出数据集。匹配的属性列必须具备同样的数据类型。作为结果的数据集包含同样多个属性列以
5、及各个输入表中的每行。参数说明:按列顺序:将追加前的两个或多个数据集中的属性列按照顺序合并成新的列,依次追加相应的行记录。自定义:按照用户指定的需求,将追加前的两个或多个表的属性列进行匹配,追加匹配列相应的行记录。支持新增或删除属性列,可进行重复指派,部分行没有对应字段时用空值填充。数据追加案例操作步骤如下:步骤1参照下图构建模型:选择“数据管理-文件输入”,拖入2个“文件输入”节点到建模区;选择“数据融合-数据追加”节点到建模区,建立连接,如图25-8所示。工业用水处理投药量数据1选择数据FCVUE用水婢喇撒文件上传翻除全部刷除数据内容数据结构原水PH原水浊度出水浊度取水量PAs2013/8
6、/206:007.13623.461.156801.382013/8/207:007.12628.811.156602.012013/8/225:006.91294.810.785580112.012013/8/226:006.91293.290.785570120.65图2-5-8构建模型步骤2:分别将“工业用水投药量数据1”和“工业用水投药量数2”加载到不同的“文件输入”节点。如图2-5-9和图2-5-10所示。X口分区记录条数1000点击查看功能说明确定取消工业用水处理投药Si数据2K文件上传蒯除全部册J除Q1数据内容数据结构vZU1光水岭投药量数I时间原水PH原水浊度出水浊度取水量PA
7、C耗2013/10/2323:007.228.010.78983929.682013/10/240:007.225.050.78985524.76201310241z7.216.910.71711427.412013/10/2522.007.218.30.78978524.942013/10/252307.217.920.78978624.932013/10/260r7.216.010.74982829.81:分区记录条数1000点击查看功敏明确定取消图2-5-10工业用水投药量数据2步骤3:数据追加配置界面如图2-5-11所示。数据追加追加方法按列顺序添加O自定义新属性名称上表下表时间时间时
8、间原水PH原水PH原水PH原水浊度出水海S取水量取水量PAC耗PAC耗PAC耗取消点击查看功能说明确定步骤4:数据追加“运行”后,结果如图2-5-12所示。“工业用水投药量数2”追加合并到“工业用水投药量数据1”后面。2.5.3数据拆分数据拆分节点是将原始样本集按照2个(训练集和测试集)或者3个(训练集、测试集和验证集)方式,被拆分为2或3数据子集个数,拆分后各个子集的比例总和小于等于100%o数据拆分经常作为回归或者分类算法节点的前置节点。支持近似拆分和精确拆分,默认为近似拆分。数据拆分酶Q图2-5-13数据拆分节点注:输入类型:数值/字符/日期/文本数据格式:Dataframe空值检测:检
9、测NU11值校验规则:对拆分条件进行检验,输入数据量拆分数;拆分比例1.0数据拆分案例操作步骤如下:步骤1:建模区分别拖入文件输入和数据拆分节点,连接两者之间的逻辑关系,对两个节点进行模型构建,将“工业用水处理投药量数据”加载到“文件输入节点”,如图2-5T4所示。图2-5-14文件输入和数据拆分节点模型步骤2:双击数据拆分节点,进行参数配置,拆分成2个数据集,训练集占比80%,测试集占比20%,如图2-5-15所示。数据拆分拆分个数2个:训陈集和测-随机种子名称拆分比例(%)训练集8020点击查看功能说明确定或肖图2-5-15数据拆分节点配置参数说明:参数类型描述拆分个数下拉框涵盖拆分为2个
10、数据集或者3个数据集等方式,其中2个数据集时一般一个数据集为训练集,一个数据集为测试集。3个数据集时一般一个数据集为训练集,一个数据集为测试集,一个数据集为验证集。拆分比例文本框若拆分个数为2,需要用户指定拆分后的2个数据集样本数占拆分前数据集样本数的比例,且这2个比例的和不超过100%。若拆分个数为3,需要用户指定拆分后的3个数据集样本数占拆分前数据集样本数的比例,且这3个比例的和不超过100%o步骤3:数据拆分模型“运行”后,形成训练集和测试集,运行结果如图2-5-16所示。图2-5-16数据拆分结果数据说明:数据拆分是将原始样本集按照2个(训练集和测试集)或者3个(训练集、测试集和验证集)方式,被拆分为2或3子集个数。拆分后各个子集的比例总和小于等于100%。数据拆分经常作为回归或者分类算法节点的前置节点O