工业大数据分析工业大数据分析教学讲义.docx

上传人:lao****ou 文档编号:555023 上传时间:2024-01-25 格式:DOCX 页数:16 大小:35.37KB
下载 相关 举报
工业大数据分析工业大数据分析教学讲义.docx_第1页
第1页 / 共16页
工业大数据分析工业大数据分析教学讲义.docx_第2页
第2页 / 共16页
工业大数据分析工业大数据分析教学讲义.docx_第3页
第3页 / 共16页
工业大数据分析工业大数据分析教学讲义.docx_第4页
第4页 / 共16页
工业大数据分析工业大数据分析教学讲义.docx_第5页
第5页 / 共16页
亲,该文档总共16页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《工业大数据分析工业大数据分析教学讲义.docx》由会员分享,可在线阅读,更多相关《工业大数据分析工业大数据分析教学讲义.docx(16页珍藏版)》请在第一文库网上搜索。

1、和强关联等特性,这里主要围绕工业大数据存储与管理技术中多源异构数据高效管理技术和多模态数据集成技术两类关键技术进行介绍。多源异构数据管理技术多源异构数据是指数据源不同、数据结构或类型不同的数据集合。各种工业场景中存在大量多源异构数据例如,在诊断设备故障时,通过时间序列数据可以观测设备的实时运行情况;通过BOM图数据可以追溯出设备的制造情况,从而发现是哪些零部件问题导致异常运行情况;通过非结构化数据可以有效管理设备故障时的现场照片、维修工单等数据;键值对数据作为灵活补充,能方便地记录一些需要快速检索的信息。数据源不同、数据类型不同,使得这类数据集的使用变得非常复杂,因此大规模多源异构数据管理技术

2、变得十分重要。为使这些多源异构数据各自发挥其价值,不仅需要高效的存储管理优化与异构的存储引擎,在此基础上还需要能够通过数据融合对数据的元数据定义和高效查询与读取进行优化,实现多源异构数据的一体化管理,从而最大程度上榨取数据价值。多源异构数据管理需要突破的是针对不同类型数据的存储与查询技术,并在充分考虑多源异构数据的来源和结构随着时间推移不断增加与变化的特定的情况下,研究如何形成可扩展的一体化管理系统。(3)多源异构数据管理需要从系统角度,针对工业领域涉及的数据在不同阶段、不同流程呈现多种模态(关系、图、键值、时序、非结构化)的特点,研制不同的数据管理引擎致力于对多源异构数据进行高效地采集、存储

3、和管理。当前,国产数据库及数据管理引擎仍处于新兴发展阶段,在传统的结构化数据之外,针对多源异构数据(包括时序数据、过程与BOM图数据,以及工程非结构化数据等),开发稳定而高效的数据管理引擎、并真正落地到工业领域变得愈发重要。针对海量的工业时序数据在查询高效性和接入吞吐量方面的需求,需要构建能够满足数据边缘接入与缓存、高性能读写、高效率存储、查询与分布式分析一体化的时序数据管理系统,配合缓存、分布式计算与存储框架等组件,以满足功能和易用性需求。同时需要提供基于SQ1标准的数据查询接口给工业用户以降低使用门槛。工业领域的非结构化数据,面向仿真、试验等场景的海量小文件的挑战,要求按产品生命周期、BO

4、M结构等多种维度进行灵活组织和高效查询,同时对数据能够进行批量读取分析,因此需要构建面向工业场景的支持海量非结构化文件建模、存储、查询和读取的技术系统。多源异构数据管理技术可有效解决大数据管理系统中由模块耦合紧密、开放性差而导致的系统对数据多样性和应用多样性的适应能力差的问题,使大数据管理系统能够更好地适应数据和应用的多样性并能够充分利用开源软件领域强大的技术开发和创新能力。针对企业自身数据类型和特点,通过量体裁衣式的构件组合,能够帮助工业企业快速开发和定制适合自身需求的制造业大数据管理系统。多模杰数据集成技术工业大数据来源十分广泛,包括但不限于研发环节的非结构化工程数据、传统的企业信息管理系

5、统、服务维修数据和产品服役过程中产生的机器数据等。这些数据格式异构、语义复杂且版本多变。在工业大数据应用中,希望能够将多模数据有机地结合在一起,发挥出单一模态数据无法挖掘出的价值。数据集成是将存储在不同物理存储引擎上的数据连接在一次,并为用户提供统一的数据视图。传统的数据集成领域中认为,由于信息系统的建设是阶段性和分布性的,会导致“信息孤岛”现象的存在。“信息孤岛”造成系统中存在大量冗余数据,无法保证数据的一致性,从而降低信息的利用效率和利用率,因此需要数据集成。在工业大数据中,重点不是解决冗余数据问题,而更关心数据之间是否存在某些内在联系,从而使得这些数据能够被协同地用于描述或者解释某些工业

6、制造或者设备使用的现象。数据集成的核心任务是要将互相关联的多模态数据集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。更进一步地,数据融合是在数据集成的基础上,刻画出不同数据之间的内在联系,并允许用户根据这些内在联系进行数据查询。在数据生命周期管理中,多模态数据存储分散、关系复杂,在研发、制造周期以BOM为主线,在制造、服务周期以设备实例为中心,BOM和设备的语义贯穿了工业大数据的整个生命周期。因此,以BOM和设备为核心建立数据关联,可以使得产品

7、生命周期的数据既能正向传递又能反向传递,形成信息闭环,而对这些多模态数据的集成是形成数据生命周期信息闭环的基础。针对工业领域在研发、制造和服务各个周期产生的多模态数据,如核心工艺参数、检测数据、设备监测数据等,及其存储分散、关系复杂的现状,需要实现统一数据建模,定义数字与物理对象模型,完成底层数据模型到对象模型映射。在多模态数据集成模型的基础上,根据物料、设备及其关联关系,按照分析、管理的业务语义,实现多模态数据的一体化查询、多维分析,构建虚实映射的全生命周期数据融合模型。在多模态数据集成模型基础上,针对多模态数据在语义与数据类型上的复杂性,实现语义模糊匹配技术的异构数据一体化查询。工业大数据

8、分析(4)工业大数据具有实时性高、数据量大、密度低、数据源异构性强等特点,这导致工业大数据的分析不同于其他领域的大数据分析,通用的数据分析技术往往不能解决特定工业场景的业务问题。工业过程要求工业分析模型的精度高、可靠性高、因果关系强,这样才能满足日常工业生产需要,而纯数据驱动的数据分析手段往往不能达到工业场景的要求。工业数据的分析需要融合工业机理模型,以“数据驱动+机理驱动”的双驱动模式来进行工业大数据的分析,从而建立高精度、高可靠性的模型来真正解决实际的工业问题。因此,工业大数据分析的特征是强调专业领域知识和数据挖掘的深度融合。这里主要对时序模式分析技术、工业知识图谱技术、多源数据融合分析技

9、术等三种典型的工业大数据分析技术进行介绍。时序模式分析技术伴随着工业技术的发展,工业企业的生产加工设备、动力能源设备、运输交通设备、信息保障设备、运维管控设备上都加装了大量的传感器,如温度传感器、振动传感器、压力传感器、位移传感器、重量传感器等,这些传感器在不断产生海量的时序数据,提供了设备的温度、压力、位移、速度、湿度、光线、气体等信息。对这些设备传感器时序数据分析,可实现设备故障预警和诊断、利用率分析、能耗优化、生产监控等。但传感器数据的很多重要信息是隐藏在时序模式结构中,只有挖掘出背后的结构模式,才能构建一个效果稳定的数据模型。工时序数据的时间序列类算法主要分六个方面:时间序列的预测算法

10、如ARIMA,GARCH等;时间序列的异常变动模式检测算法,包含基于统计的方法、基于滑动窗窗口的方法等;时间序列的分类算法,包括SAX算法、基于相似度的方法等;时间序列的分解算法,包括时间序列的趋势特征分解、季节特征分解、周期性分解等;时间序列的频繁模式挖掘,典型时序模式智能匹配算法(精准匹配、保形匹配、仿射匹配等),包括MEON算法、基于motif的挖掘方法等;时间序列的切片算法,包括AutoP1ait算法、HOD-ID算法等。工业大数据分析的一个重要应用方向是对机器设备的故障预警和故障诊断,其中设备的振动分析是故障诊断的重要手段。设备的振动分析需要融合设备机理模型和数据挖掘技术,针对旋转设

11、备的振动分析类算法主要分成三类:振动数据的时域分析算法,主要提取设备振动的时域特征,如峭度、斜度、峰度系数等;振动数据的频域分析算法,主要从频域的角度提取设备的振动特征,包括高阶谱算法、全息谱算法、倒谱算法、相干谱算法、特征模式分解等;振动数据的时频分析算法,综合时域信息和频域信息一种分析手段,对设备的故障模型有较好的提取效果,主要有短时傅里叶变换、小波分析等。工业知识图谱技术工业生产过程中会积累大量的日志文本,如维修工单、工艺流程文件、故障记录等,此类非结构化数据中蕴含着丰富的专家经验,利用文本分析的技术能够实现事件实体和类型提取(故障类型抽取)、事件线索抽取(故障现象、征兆、排查路线、结果

12、分析),通过专家知识的沉淀实现专家知识库(故障排查知识库、运维检修知识库、设备操作知识库)。针对文本这类的非结构化数据,数据分析领域已经形成了成熟的通用文本挖掘类算法,包括分词算法(POStagging,实体识别)、关键词提取算法(TD-IDF),词向量转换算法、词性标注算法(c1aws.Vo1sunga).主题模型算法(如1da)等。但在工业场景中,这些通用的文本分析算法,由于缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)、语境上下文(包括典型工况描述、故障现象等),分析效果欠佳。这就需要构建特定领域的行业知识图谱(即工业知识图谱),并将工业知识图谱与结构化数据图语义模型融合,实现更加

13、灵活的查询和一定程度上的推理。多源数据融合分析技术在企业生产经营、营销推广、采购运输等环节中,会有大量的管理经营数据,其中包含着众多不同来源的结构化和非结构化数据,例如来源于企业内部信息系统(CRM、MES、ERP、SEM)的生产数据、管理数据、销售数据等,来源于企业外部的物流数据、行业数据、政府数据等。利用这些数据可实现市场洞察、价格预测、供应链协同、精准销售、市场调度、产品追溯、能力分析、质量管控等等。通过对这些数据的分析,能够极大的提高企业的生产加工能力、质量监控能力、企业运营能力、市场营销能力、风险感知能力等。但多源数据也带来一定的技术挑战,不同数据源的数据质量和可信度存在差异,并且在

14、不同业务场景下的表征能力不同。这就需要一些技术手段去有效融合多源数据。针对多源数据分析的技术主要包括:统计分析算法、深度学习算法、回归算法、分类算法、聚类算法、关联规则等。可以通过不同的算法对不同的数据源进行独立的分析,并通过对多个分析结果的统计决策或人工辅助决策,实现多源融合分析。也可以从分析方法上实现融合,例如通过非结构化文本数据语义融合构建具有制造语义的知识图谱,完成其他类型数据的实体和语义标注,通过图模型从语义标注中找出跨领域本体相互间的关联性,可以用于识别和发现工业时序数据中时间序列片段对应的文本数据(维修报告)上的故障信息,实现对时间序列的分类决策。工业大数据可视化进入大数据时代,

15、数据可视化这个说法慢慢的流行起来,究其原因,一个是因为大数据的展示比起以前的数据展示有不同的地方,最大的难点就是面对如此巨大的数据,如何比较好的展示给用户,成为前台程序员面临的难题。另一个是随着近几年技术的发展,我们可以通过更多的形式,例如三维模型、动画、视频、动态交互式页面、手机APP等将数据以展示、推送、提醒、互动等等模式提供给用户,其复杂度上升了一个数量级,因此,渐渐地,数据可视化就成为一个专门的领域,成为了大数据时代的一个研究分支,无数优秀的工程师和设计者为这个领域做出了贡献。具体到工业大数据领域,其可视化又有自己独特的特点,呈现出与互联网大数据可视化不同的难点和方向,本文总结了一下,

16、工业大数据可视化有以下几个特点:(1)数据量呈现海量趋势,且更新频率极高。由于工业大数据主要来源于传感器的数据采集,因此其数据量相比传统互联网大数据只多不少,而且,它的更新频率极高,传感器按照恒定的频率快速更新。在这种情况下,如何保证监控页面的数据实时更新,还能够让监控人员看数据的变化,就是需要研究的问题。当某个数据每秒更新10次,那么,屏幕上的数字直接变化就是无意义的,因为监控人员根本就一个数字都看不到。如何兼顾数字的更新频率与视觉效果,就成为可视化的第一个难题。(2)大量的监控点,无法进行有效地显示。一台普通的设备,可能就有上百个传感器,再加上相关的视频、环境、人员等等监测,可能会有几百个监测数据是这个设备需要的,那么,这么多的数据如何在有限的屏幕上进行排列,如何取舍,成为可视化的第二个难题。(3)整体与局部如何有效地结合。一个企业会有许多下属的分子公司,下属企业又会有车间、工作面等等工作场景,每个工作场景又会有许多设备。这样层层嵌套的可视化局面如何比较好的结合,在保障使用人员看到整体的时候,还能够同时关注到局部的数据变化,是可视化的第三个难题。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服