《计量检测数据开发流程.docx》由会员分享,可在线阅读,更多相关《计量检测数据开发流程.docx(6页珍藏版)》请在第一文库网上搜索。
1、计量检测数据开发流程第一章总则第一条计量检测过程中会产生大量过程数据与结果数据,通常这些数据被作为原始记录或者证书报告结果被保存。各个检测机构之间的数据孤立,造成计量检测数据难于成规模的被用作数据挖掘使用。第二条本流程将着眼于计量大数据应用的数据来源,重点解决数据采集方式、数据类型、数据脱敏、数据清洗、标准协议等问题,为后期计量数据各类应用建模提供支撑。第三条本流程拟用于计量检测数据相关上层应用开发以及全国检测机构数据上传应用的技术选型及参考。第二章采集数据第四条各检测机构的计量数据库中已经存储了大量的数据,包括结构化的和非结构化的,但是分布在不同的系统,形成了难以维护管理的“蜘蛛网”,需要建
2、立统一的数据管理和访问平台,便于统一维护和管理,提供“一站式”的数据访问服务。第五条所有上层应用接收各检测机构上传的数据必须经过数据中心统一数据接口,各上层应用计算、展示等使用数据也需调用数据中心统一接口,不得使用自建存储私自保存数据。第六条所有接入数据中心的数据需携带数据提供者ID标识、建立上传连接前需经过数据中心的数据提供者统一认证接口认证。第七条国家计量检测数据中心存储的结构化数据。举例如下:强检数据:器具名称,型号规格,测量范围,准确度等级,出厂编号,自编号,生产厂家,生产地,购买日期,安装使用地点,器具状态,器具用途,器具类型,检定方式,检定证书号,有效期。检测机构数据:机构名称、地
3、址、法人代表、联系人、联系电话、实验室面积、所属类别、证书号、批准日期、有效日期、是否备案、名称、建立计量标准数、实验室面积、设备总值。检测机构专业部门:部门名称、专业、检测项目、检测人员、联系方式。检测机构注册计量师:级别、姓名、性别、身份证号、工作单位、注册编号、注册有效期、资格证书编号、合格证明编号、检定员证编号、继续教育学分逾期、继续教育学分重新、专业、项目、子项目、规程/规范名称及编号、联系电话。 年度计量比对能力验证情况:项目名称、组织单位、主导单位、参与单位、比对结果概述、主要问题概述。 建立计量标准:类别、建标单位名称、计量标准名称、计量标准证书号、建标人及建标时间、测量范围、
4、不确定度或准确度等级、依据规程规范、检定或校准项目、批准机关名称、主考核单位、证书批准日期、证书有效日期。第八条非结构化数据及半结构化数据。对于非标准化、非机构化以及半结构化的数据,数据提供者自行设计数据格式,使用BSON类型(是一种类json的一种二进制形式的存储格式)进行传输,数据中心将采用NOSQ1数据库进行存储。非结构化数据举例如下: 检测数据:送检日期、器具名称、委托单位名称、型号规格、检定结论、量程、精度等级、制造厂家、出厂编号、检测日期、检测周期、检测地点、检测温度、相对湿度等元数据,每个机构可自行规定上传的数据。 检测证书:二进制WoRD、PDF、图片。 检测原始记录:XM1、
5、二进制WORD、EXe1E、PDF、图片。 仪器自动化数据:状态、使用次数、自检信息、过程数据等。 时序数据:温湿度数据、压力数据、设备的各类监控传感器数据。第三章数据脱敏处理第九条对于检测机构,部分数据属于客户的隐私信息或行业机密(计量的准确度和设备等级在很大程度上决定了该实体在整个行业的水平,尤其是军工和科研机构),在进行大数据共享时要注意保护。同时各个检测机构对于内部的隐私数据,经内部许可允许上传使用时,也应注意这部分数据的隐秘性。数据提供者(检测机构)对于上传数据,需在上传前统一进行动态的脱敏处理,数据中心保存的数据属于静态脱敏后的数据。第十条数据提供者(检测机构)对于上传的数据按可按
6、隐私级别分为高、中、低三等进行脱敏保护。低等级可不进行脱敏处理,其余可采取下列一种或者几种方法进行数据脱敏,存于数据中心的数据即默认可被合法访问。去除标识信息:从数据中去除能够识别个体的明显标识变量,如个体的姓名、地址等。即使原始隐私数据去除了标识符,其仍有高可能识别其中的个体,被处理过的数据仍然存在个体层面的信息,潜在的标识信息仍然存在于被去除表示信息的数据中。假名替换:用人工标识符或者假名替换数据库中的标识性字段,如用引用性编码或假名替代姓名等标识符。应用编造假名可以在保持数据原始可用性的同时降低数据中个体的可标识性,有利于数据共享。若关联其他仍包含个人标识隐私信息的数据,通过假名替换处理
7、过的数据仍存在一定程度泄露隐私的风险。降低数据精度:降低数据集中个人标识数值的精度,如出生日期或年龄用年龄区间代替,工资值用工资区间代替。应当注意的是,若区间设置不合理,则存在通过小区间和统计分析方法识别个体,造成隐私泄露。进而,可通过用随机值或者添加随机噪音的方法降低数据精度,同时保持数据的统计特征。数据聚合:通过聚合的方式处理在原始数据中存储的个人信息,利用群组或者总体信息进行聚合处理。则通过增加个人群组分组的方式达到减少特定信息的目的,进而降低群组可识别性。匿名技术:处理数据集,通过加密技术进行处理实现匿名化,剔除个人标识信息可以达到提升隐私性的目的。差分隐私:设有随机算法M,PM为M所
8、有可能的设计出构成的集合。对于任意两个邻近数据集D和D以及PM的任何子集SM,若算法M满足PrM(D)SMexp()PrM(D,)SM,则称算法M提供-差分隐私保护,其中成为隐私保护预算。第四章数据清洗及存储方式第十一条数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。各上层应用应制定各自应用的清洗手段,保证数据中心存储数据的格式一致性、正确性、无重复、无NU11值等可能导致后台应用计算失效的数据。面向计量大数据的数据清洗技术主要将数据划分为结构化数据、非结构化数据,分别采用ET1工具和分布式并行处理框架来实现,总体架构如图1所示。数据资产统一的数据视图数据存储结构化数据(关系型数据库
9、)Orac1eRDBMSsRDSSq(X)P和DataX非结构化数据云谷、FusionInsightBig1nsightsFTT据迁移在线AE1一寸一图线.PoVOtaI等数据来源计量源数据采集计量数据交互(法定计量检测机构、计量实验室)图1数据清洗总体架构对不同质量的原数据进行分类以适应清洗工作,数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。其中,分清和掌握数据的质量至关重要。对不同质量类型的数据采用不同的清洗方法,针对以上数据质量中普遍存在
10、的空缺值、噪音值和不一致数据的情况,可以采用统计学方法、聚类、分类、基于距离的方法、关联规则等方法来实现数据清洗。数据清洗过程可视化,可视化作为一种有效的展示手段和交互手段,可以用于提高数据错误识别和清理的效率,且透明化的清洗过程,有助于故障、错误发生时的自我诊断与排查。第十二条结构化的数据存储在传统的关系型数据库中,非结构化数据使用文档对象型数据库进行存储。结构化数据和非结构化数据之间的数据迁移。如果要将传统结构化数据,例如关系型数据库中的数据导入到分布式存储中,可以利用SqooP等工具,先将关系型数据库(mysq1、PoStgreSq1等)的表结构导入分布式数据库(Hive),然后再向分布
11、式数据库的表中导入结构化数据。第十三条各上层应用所用数据库需实现分布式。具备存储节点横向扩展;具备高可用性,单节点故障自动切换;具备可审计性,各项操作需明确的权限且日志清晰可追溯;具备安全性,需按数据的重要性制定备份策略并规定是否异地灾备。具备高并发性,需进行读写分离、可进行分布式计算。第五章数据提供者流程与确权第十四条所有上传的数据均需经过统一数据采集接口,经过权限认证后采集,清理后存储。数据可分类进行实时上传或集中批量上传。数据提供者可尽可能的上传脱敏数据,数据清洗去重等工作由上层应用实现。第十五条数据提供者申请,审核。数据提供者与数据中心签订合作协议(如所提供数据涉及付费应用需签订收益分
12、配补充协议),注册上传账号和密码,完成基本结构化数据的填写。选择上层数据应用,根据上层应用数据接口适配本地程序,进行数据上传测试。具体通讯协议根据数据上层应用不同而定。第十六条数据各项权利属于各检测机构,数据提供者可对上传的数据拥有编辑权,可进行编辑操作。第十七条数据含归属者ID项,数据如被上层付费应用使用会被记录,数据中心应告知数据提供者,并按照付费应用的收益分配方案付给数据提供者相应收益。第六章上层应用开发第十八条所有上层数据的应用均需经过统一数据交互接口操作该计量大数据库。应用开发者(检测机构或者数据中心)与数据中心工作组确定应用需求,使用数据中心提供的脱敏数据子集进行相关开发。第十九条开发者内部测试后进行小范围数据提供者接入应用上传数据进行验收测试。数据中心工作组测试验收后开放数据给公众用户。第二十条上层应用分为付费应用、公益应用。上层应用开发者应同数据中心签订开发协议,确认商业模式,如为付费应用,协议需包含收益分配部分。