《自标准数据体系如何实现(10).docx》由会员分享,可在线阅读,更多相关《自标准数据体系如何实现(10).docx(17页珍藏版)》请在第一文库网上搜索。
1、自标准数据体系实现上海麦杰科技田鹏目录一、自标准数据的意义3二、什么是自标准数据5三、自标准数据体系实现遵循原则:6四、体系实现方案设计(草案):71 .数据标准定义语言82 .数据港口82.1. 港口管理82.1.1. 安全管理82.1.2. 存储管理82.1.3. 供应者管理92.1.4. 规则管理92.1.5. 使用者管理92.1.6. 数据质量管理92.1.7. 信用管理IO2.2. 资源管理IO2.2.1. 数据管理IO2.2.2. 标准管理IO2.2.3. 贸易管理112.2.4. 数据域定义112.2.5. 其它资源1123服务管理111.1.1. 订阅服务111.1.2. 推送
2、服务121.1.3. 数据服务121.1.4. 标准服务121.1.5. 报警服务121.1.6. 证书服务132.4. 引擎管理132.4.1. 数据分析132.4.2. 解析引擎132.4.3. 数据适配132.4.4. 数据巡检132.5. 配套工具142.5.1. 标准生成器142.5.2. SDK142.5.3. 手工填报142.5.4. 其它工具143 .数据泵144 .数据规则155 .数据港口组件156 .港口链路16为在一定的范围内获得最佳秩序,对实际的或潜在的问题制定共同的和重复使用的规则的活动,称为标准化。它包括制定、发布及实施标准的过程。标准化的重要意义是改进产品、过程
3、和服务的适用性,防止壁垒,促进技术合作。数据标准化是统计学上的常用方法,是为了消除不同属性或样方之间的不齐性,是同一样方内不同属性间或同一属性在不同样方内的方差减小。有些数量分析方法要求特殊的标准化过程,并将标准化作为其分析方法的一部分。数据标准化在信息化建设过程中有着重要的作用和意义。但是不可避免的会遇到数据使用困难问题。例如相同的数据有着不同的格式导致数据难以使用,数据的内容不完备导致数据无法使用,不同的数据具有类似或相同的名称等等。通过标准化能够良好的解决这些问题,能够让数据符合一定的格式,其内容也是完备的没有二义性。这样的数据就是符合标准描述的数据。最初人们设计了自描述的数据,例如XM
4、1与XSD之间的关系,XSD是用来描述XM1文件的结构的。但自描述数据仅仅能够解决数据格式上的标准化,在企业信息化中除了格式的标准化还需要有内容等方面的标准化。于是企业中的信息化专家纷纷提出各种标准化定义。既然作为标准,相同的数据就只能有一套标准;如果相同的数据内容存在不同的标准那么还是不标准。由人为制定的标准由于组织机构,地域因素,信息化水平差异等因素很难做到一次成型。从信息化发展的角度来看,用发展的眼光看问题,标准本身也不是一成不变的。于是就出现了自标准体系结构。自标准体系结构提供自标准数据平台(数据港口),通过一系列手段和方法使得数据开放、数据自治、简单协议、统一管理成为可能,这就为数据
5、标准化搭建了平台。这将会是承载数据标准的产生、演变、完善、消亡完整生命周期的基础。自标准体系结构以数据为中心,通过数据共享、分治催生标准,完善标准,最终使得标准化走上一条生态的自然之路。在国际上有众多的标准化组织,大到跨行业跨国家的ISO国际标准化组织(IntematiOna1StandardOrganized),国家有国家的标准诸如我们国家使用GB标准等,也有行业内的标准化组织例如W3C组织(Work1WideWebCOnSOrtiUm)O这些标准化组织产生的产品就是各个行业标准。自标准的产生标志着标准是建立在数据的客观基础上产生,随着数据的发展而发展,随着数据的变革而改进。解决了个别专家决
6、定标准,标准推行困难,标准交流困难等问题。使得标准在自然而然中产生、完善。二、什么是自标准数据自标准数据=数据体+数据格式(数据体解释)。自标准数据也是标准,它的标准时局部自治的。凡描述数据的标准定义,是遵循自标准数据中数据标准定义语言的,都是自标准数据。为什么不是自描述数据?自标准数据是自标准体系中的核心。自标准体系是用来促进标准形成,逐步规范化各类数据的一种思想,所以是自标准数据,而不是自描述数据。在自标准数据体系结构中应包含:/数据标准定义语言/数据港口/数据泵/数据规则/标准解析引擎/数据港口组件/港口链路所谓自标准数据体系是指,对自标准数据概念的一种实现模型。Open;整个体系结构中
7、,所有数据体中数据均完全。使得所有数据使用者可方便调用。自治;自标准数据中,标准是采用自治管理方式。也就是自标准数据中,标准是可以进行变更的,标准变更意味数据同时按照变更后标准提供,是数据提供方对数据进行的描述。简单标准;自标准数据遵循简单原则,数据定义过程中,数据的标准定义使用简单标注。减少数据使用繁琐度。集中管理关键;整个体系结构中,仅对各数据供应者的ID信息、自标准数据体、数据缓存周期、数据权限进行管理。其它数据具体业务不进行过度干预。即插即用;自标准体系中,凡遵守数据描述定义语言标准的自标准数据所有数据供应者接入即可使用。即使数据供应者对数据未进行任何标准定义的私密数据,由使用者自行解
8、决对应数据体。适配;自标准体系中,数据港口可提供一定的自标准数据适配功能。保障数据体标准变更后,可提供部分自动适配功能。使所有数据使用者避免由于标准变更产生更大的变更活动。自发展;所有在数据港口中的数据,凡反复被使用的标准,都将进行提炼、整理。使其在局部范围内,为后续建立的系统中沿用,从而整个体系实现自然生成,被使用的标准产生自我完善和自我改进,形成自发展。四、体系实现方案设计(草案):标准定义语言管理I服务管理II引擎管理ISDK标准生成费解析引擎数据分析推送服务订阅服务搜索引擎资源管理港口管理数据集组件一码头组件标准管理比他工数据巡检数据适配标准服务证日服务数据服务报警服务数据管理其它管理
9、自标准SDKQ与数据变为自标准结构自标准SDK.将数据变为自标准结构白4j5*sDr留数据变为自标准结构对外数据接11Webservice-json、XM1对外数据接II文本、关系数据库、exce1n-B系统对外数据接II.进制文件、加密数据等等一C系统工对外数据接11基于通讯协议的其他数据北一X系统1 .数据标准定义语言数据标准定义语言是由总体平台框架定义的对数据体进行自描述的语言结构。数据标准定义语言应能够尽量通过简单标签实现对数据体进行描述。具体内容还在思考2 .数据港口数据港口是不是数据中心,它是物流中心,是用于数据交换与流通的,仅存储少量数据,它不是资产。数据描述定义语言标准、数据港
10、口、数据泵是总体结构中不可或缺的部分。港口拥有唯一可解释的港口ID,类似于KKS码格式。数据港口大致因包含:港口管理、资源管理、服务管理、引擎管理、配套工具五大部分。2.1 .港口管理2.2 .1安全管理数据港口中,所有资源访问、资源调度、数据传输、授权信息、系统角色、系统用户等安全方面的管理功能。2.12.存储管理在整个数据港口中,存储空间是根据港口建设要求搭建的,港口存储容量与数据存储周期都有一定的限制性。存储管理用于对存储区块进行划分。2.13.供应者管理供应者是数据港口中交换数据的数据供应者,其主要负责生产的数据体。供应者管理是对所有数据供应者的相关信息的管理,包括供应者登记、供应者权
11、限设定、供应清单登记、数据整理规则划分、数据存储位置划分等。2.14规则管理规则管理是指存在于数据港口的默认数据整理规则、数据堆放规则、数据合法性校验、数据质量判定规则等规则的管理模块。2.1.5. 使用者管理使用者是数据港口中交换数据的数据应用单位。使用者管理是对所有数据使用者的相关信息的管理,包括使用者登记、数据权限设定、取用记录登记、订阅记录、数据存储位置划分等。2.1.6. 数据质量管理用于对数据质量建立数据质量进行审计核查工作,数据质量的好坏是直接影响使用者的关键,其数据供应者在数据质量的审计核查不仅基于数据质量规则的自动审查。同时,所有数据使用者可对其数据进行评价、评定。信用管理是
12、对所有数据供应者、数据使用者进行的质量核查统计,多次数据质量较差的,在信用等级中将进行评级。信用较差的数据供应者与数据使用者可为平台管理以及数据使用者作参考。2.2.资源管理在整个系统当中,所有存放于港口上的信息都是资源,资源管理对这些信息资源进行分类、检索及管理。2.2.1. 数据管理系统中,由数据供应者上报的数据集中管理业务。包括数据所有特性(例如:版本、数据项、发行者、有效期)等。同时,对供应者接入的数据登记,并对其数据设定存储区域、存储空间、存储周期管理、数据质量审查。2.22标准管理标准管理是用于对已入港的所有自标准数据的标准管理功能。所有的自标准数据的标准都将进行提取、整理,码头存
13、放数据仅包含标准标注,实际存储不包含数据标准本身。同时,标准管理中,将提供标准清单。根据使用者需要的标准,通过标准适配引擎进行标准转换后,提供给使用者。标准管理也是标准的一个提炼过程。标准管理中,将根据自标准数据的使用情况、数据质量情况等进行标准的审计,对未来提供数据的数据供应者提供数据标准建议,减少重新制定标准,让数据逐渐标准化。形成标准提炼的活动,促进标准形成自发展。223.贸易管理在整个数据港口中,通过港口链路,港口与港口之间是会建立互联互通关系的。两个港口中的数据使用者,是需要产生数据交换,也就是数据贸易。港口与港口之间的数据交换级别、数据资源交换等级均通过贸易管理中进行设定,包括贸易
14、策略、授信等级等。224,数据域定义数据域是指,所有上报的数据项中,数据域是预先设定的。域是被定义的,但是域与域之间是平等的。例如:小队的生产系统中上报的原油产量与科室的生产系统上报的原油产品就是两个域。域是在系统中数据供应者、数据使用者都自带的范围标示。数据搜索时,默认会将对应域范围内满足要求且热度最高的数据列表优先提供。225.其它资源2.3. 服务管理1 .3.1.订阅服务用于数据使用者订阅常用的数据。2 .32推送服务用于当数据发生变化时,根据将使用者的订阅情况将数据推送或发送至使用者。发生变化可以理解为:数据更新、数据质量变更等活动。3 .33数据服务数据港口中所有的存在于数据港口中
15、的数据对数据港口本身是完全开放的(仅有少量数据是由数据提供商指定了数据权限,为特定的数据使用者服务)。数据港口将对所有堆放至港口的数据进行梳理分析,直接对外提供标准的数据访问服务。其中数据解析由数据解析引擎进行。解析后的数据可以通过标准的对外数据服务进行提供,例如:webserviceJSON、BSON.JDBC、ODBC、AP1等。234 .标准服务标准资源服务是指,系统中所有存在于港口中的数据标准清单列表、标准定义的内容等。可提供对应满足某标准的数据检索、新数据供应者进行标准参考。235 .报警服务用于对数据、数据标准进行提醒的各类报警规则,报警可直接发送至数据管理人员、数据供应者、数据使用人员等。报警需要与推送服务结合使用。23.6.证书服务系统证书颁发单位。扶着系统内全部安全访问证书生成与安全核查。2.4. 引擎管理241.数据分析提供数据的二次统计、数据切片、数据关联设定、数据汇总等