电力大数据数据质量评测规范(2022征求意见稿).docx

上传人:lao****ou 文档编号:443278 上传时间:2023-11-17 格式:DOCX 页数:13 大小:56.53KB
下载 相关 举报
电力大数据数据质量评测规范(2022征求意见稿).docx_第1页
第1页 / 共13页
电力大数据数据质量评测规范(2022征求意见稿).docx_第2页
第2页 / 共13页
电力大数据数据质量评测规范(2022征求意见稿).docx_第3页
第3页 / 共13页
电力大数据数据质量评测规范(2022征求意见稿).docx_第4页
第4页 / 共13页
电力大数据数据质量评测规范(2022征求意见稿).docx_第5页
第5页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《电力大数据数据质量评测规范(2022征求意见稿).docx》由会员分享,可在线阅读,更多相关《电力大数据数据质量评测规范(2022征求意见稿).docx(13页珍藏版)》请在第一文库网上搜索。

1、:C。电力大数据数据质量评测规范Eva1uationindicatorsforpowerdataqua1ity团体标准-XX-XX发布XXXX-XX-XX实施目次前言II1范围12术语和定义13指标框架24数据质量评价指标25数据质量评价过程8本标准按照GB/T1.1-2009给出的规则起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。本标准由中电联(SAC/TC28)提出并归口。本标准起草单位:XXXo本标准主要起草人:XXXo电力大数据数据质量评测规范1范围本标准规定了电力大数据质量评价指标的框架及评价过程。本标准适用于电力大数据生存周期各个阶段的数据质量

2、评价。2术语和定义下列术语和定义适用于本文件。2.1数据data信息的可再解释的形式化表示,以适用于通信、解释或处理。注:可以通过人工或自动手段处理数据。GB/T5271.1-2000,定义O1o1O21.1 2元数据metadata关于数据或数据元素的数据(可能包括其数据描述),以及关于数据拥有权、存取路径、访问权和数据易变性的数据。GB/T5271.17-2010,定义17.06.051.2 3数据质量dataquaIity在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。原始数据rawdata终端用户所存储使用的各种未经过处理或简化的数据。注:原始数据有多种存在形式,如文本数据

3、,图像数据,音频数据或者几种数据混合存在。数据生存周期dataIifecyc1e将原始数据转化为可用于行动的知识的一组过程。数据集dataset具有一定主题,可以标识并可以被计算机化处理的数据集合。数据模型datamode1对分析的图像和文本表述,该分析识别了组织为完成其使命、功能、目标、目的和战略,以及管理和评价组织所需要的数据。注1:在从高到低的不同抽象层次表示数据时,通常会区分概念模型(与某些努力相关的概念组成的模型)、逻辑模型和物理模型。注2:所使用数据模型的使用周境的边界的正规描述,称为上下文模式。注3:数据模型标识实体、域(属性)以及与其他数据的关系(关联),提供数据和数据间关系的

4、概念视图。示例1:由框图组成的语义数据模型,这种框代表对业务有意义的事务集,如“人”或“行动”,以及描述这类实体对之间关系的线条。示例1:应用特定数据管理技术的关系表或可扩展标记语言XM1等是逻辑数据模型。2.8数据标准datastandard数据的命名、定义、结构和取值规范方面的规则和基准。3数据质量评价指标框架数据质量评价指标框架见图1。可访问性数据质量评价指标框架e,匚整性图1数据质量评价指标框架数据质量评价指标框架包括规范性、完整性、准确性、一致性、时效性和可访问性六项,具体的定义如下:a)规范性:数据符合数据模型、业务规则、元数据或权威参考数据的程度。b)完整性:按照数据规则要求,数

5、据元素被赋予数值的程度。C)准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度。d)一致性:数据与其他特定上下文中使用的数据无矛盾的程度。e)时效性:数据在时间变化中的正确程度。可访问性:数据能被访问的程度。4数据质量评价指标数据质量评价指标共分为二级,一级指标是数据质量评价指标框架中的六项指标,每一项一级指标包含数量不等的二级指标,每一项二级指标包含数量不等的指标子项。数据质量评价二级指标见表1。表1数据质量评价指标级指标二级指标指标描述计算公式计算公式描述规则示例规范性数据模型数据符合数据模型的度量。X=AB*100%A=满足数据模型要求的数据集中元素的个数B=被评价的数据集中

6、元素的个数元数据数据符合元数据定义的度量。X=AB*1OO%A=满足元数据定义的数据集中元素的个数B=被评价的数据集中元素的个数包含各字段名称、描述、类型值域等内容的数据字典为一种元数据文档业务规则数据符合业务规则的度量。X=AB*1OO%A=满足业务规则的数据集中元素的个数B=被评价的数据集中元素的个数权威参考数据数据符合参考数据定义的度量。参考数据是系统、应用软件、数据库、流程、报告及交易记录和主记录用来参考的数值集合或分类表。X=AB*1OO%A=满足参考数据规则的数据集中元素的个数B=被评价的数据集中元素的个数一张用于一个特定字段的有效值列表为一种参考数据类型安全规范数据符合安全规范的

7、度量。安全规范是安全和隐私方面的规则,包括数据权限管理,数据脱敏处理等X=B*1OO%A=满足安全规范的数据集中元素的个数B=被评价的数据集中元素的个数完整性数据记录完整性按照业务规则要求,数据集中应被赋值的数据记录的赋值程度.X=AB*1OO%A=被赋值得数据集中元素的个数B=预期被赋值的数据集中元素的个数对表指定字段非空值检测准确性数据内容正确性数据内容是否是预期数据。X=AB*1OO%A=满足数据正确性要求的数据集中元素的个数B=被评价的数据集中元素的个数订单金额+税额=发票金额数据格式合规性数据格式(包括数据类型、数值范围、数据长度、精度等)是否满足预期要求。X=AB*1OO%A=满足

8、格式要求的数据集中元素的个数B=被评价的数据集中元素的个数性别一栏不能出现男/女以外的内容身份证不能出现标点符号:以及对字符编码的一些限制级指标二级指标指标描述计算公式计算公式描述规则示例数据重复率特定字段、记录重复的度量。X=AB*100%A=重复的数据集中元素的个数B=被评价的数据集中元素的个数因为数据增量历史数据合并异常造成的数据重复记录数据唯一性特定字段、记录唯一性的度量。X=AB*1OO%A=满足唯一性要求的数据集中元素的个数B=被评价的数据集中元素的个数供应商编码对应供应商名称的唯一公司编码对公司名称的唯一订单编号对合同编号的唯一致性相同数据一致性同一数据在不同位置存储数据的一致性

9、:数据发生变化时,存储在不同位置的同一数据被同步修改。X=AB*1OO%A=满足一致性要求的数据集中元素的个数B=被评价的数据集中元素的个数贴源层表与共享层表之间数据比对。关联数据一致性根据一致性约束规则检查关联数据的一致性。X=AB*1OO%A=满足一致性要求的数据集中元素的个数B=被评价的数据集中元素的个数宽表与源表之间的数据比对。时效性基于时间段的正确性基于日期范围的记录数或频率分布符合业务需求的程度X=B*1OO%R=满足有效性要求的数据集中元素的个数;B=被评价的数据集中元素的个数基于时间点及时性基于时间戳的记录数、频率分布或延迟时间符合业务需求的程度X=AB*1OO%A=满足及时性

10、要求的数据集中元素的个数;B=被评价的数据集中元素的个数时序性数据集中同-实体的数据元素之间的相对时序关系X=AB*1OO%A=满足时序性要求的数据集中元素的个数;B=被评价的数据集中元素的个数可访问性可访问数据在需要时的可获取性X=AB*1OO%A=满足可访问性要求的数据集中元素的个数;B=被评价的数据集中元素的个数可用性数据在设定有效生存周期内的可使用性X=AB*1OO%A=满足可用性要求的数据集中元素的个数;B=被评价的数据集中元素的个数数据质量评价二级指标及子项见表2。表2数据质量评价二级指标及指标子项级指标二级指标指标描述指标子项指标子项描述规则示例规范性数据模型数据符合数据模型的度

11、量。数据模型相对业务领域的覆盖率存在数据模型的业务领域占所有业务领域的比率数据符合数据模型的覆盖率相关业务域中的数据集中的数据符合数据模型的比率数据模型更新迭代数据模型随业务实际变化及时更新数据随数据模型版本更新的及时率相关业务域中的数据集中的数据随数据模型的升级而及时更新元数据数据符合元数据定义的度量。元数据相对业务领域的覆盖率存在元数据的业务领域占所有业务领域的比率数据符合元数据定义的覆盖率相关业务域中的数据集中的数据符合元数据定义的比率元数据丰富、更新迭代元数据随业务实际变化及时增加、更新、删除数据随元数据定义版本更新的及时率相关业务域中的数据集中的数据随元数据的升级而及时更新业务规则数

12、据符合业务规则的度量。业务规则相对业务领域的覆盖率梳理出清晰业务规则的业务领域占所有业务领域的比率数据符合业务规则定义的覆盖率。数据集是否能清晰的反应业务逻辑,字段和取值的具体意义是否明确。业务规则丰富、更新迭代业务规则随业务实际变化及时增加、更新、删除数据随业务规则定义版本更新的及时率相关业务域中的数据集中的数据随业务规则的升级而及时更新权威参考数据数据符合参考数据定义的度量。参考数据是系统、应用软件、数据库、流程、报告及交易记录和主记录用来参考的数值集合或分类相关数据赋值符合参考数据定义的比率有参考数据的相关数据的赋值在参考的数值集合或分类表里参考数据准确率用来参考的数值集合或分类表符合业

13、务实际参考数据及时更新率用来参考的数值集合或分类表随业务实际的变化更级指标二级指标指标描述指标子项指标子项描述规则示例表。新安全规范数据符合安全规范的度量。安全规范是安全和隐私方面的规则,包括数据权限管理,数据脱敏处理等识别出的相关国际安全规范是否全面识别出和电力企业相关的数据国际安全规范,形成列表,并随时间更新列表。国际安全规范合规率数据符合识别出的国际安全规范的比率识别出的相关国家安全规范是否全面识别出和电力企业相关的数据国家安全规范,并形成列表,并随时间更新列表。国家安全规范合规率数据符合识别出的国家安全规范的比率识别出的相关行业安全规范是否全面识别出和电力企业相关的数据国行业安全规范,

14、形成列表,并随时间更新列表。行业安全规范合规率数据符合识别出的行业安全规范的比率完整性数据记录完整性按照业务规则要求,数据集中应被赋值的数据记录的赋值程度。数据集中应被赋值的数据记录有赋值的比率。对于数据信息记录缺失的检测,可以通过对比源库上的表数据量和目的库上对应表的数据量来判断数据是否存在缺失数据集对具体业务对象的覆盖程度,一个数据集的特定属性都被赋予了数值数据集中应被赋值的数据记录的赋值符合业务规则的比率。数据集中有赋值的数据记录,其赋值符合业务规则要求。数据集中应被赋值的数据元素(字段)有赋值的比率。对于字段信息记录缺失的检测,选择需要进行完整性检查的字段,计算该字段中空值数据的占比,通常来说表的主键及非空字段空值率为0%o空值率越小说明字段信息越完善,空值率越大说明字段信息缺失的越多。准确性数据内容正确性数据内容是否是预期数据。错误值占比数据记录的信息存在错误的比率用于描述一个值与它所描述的客观事物的真实值之间的接近程度。异常值占比数据记录的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服