公共数据 数据治理规范 第1部分:数据归集.docx

上传人:lao****ou 文档编号:690625 上传时间:2024-04-09 格式:DOCX 页数:23 大小:81.77KB
下载 相关 举报
公共数据 数据治理规范 第1部分:数据归集.docx_第1页
第1页 / 共23页
公共数据 数据治理规范 第1部分:数据归集.docx_第2页
第2页 / 共23页
公共数据 数据治理规范 第1部分:数据归集.docx_第3页
第3页 / 共23页
公共数据 数据治理规范 第1部分:数据归集.docx_第4页
第4页 / 共23页
公共数据 数据治理规范 第1部分:数据归集.docx_第5页
第5页 / 共23页
亲,该文档总共23页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《公共数据 数据治理规范 第1部分:数据归集.docx》由会员分享,可在线阅读,更多相关《公共数据 数据治理规范 第1部分:数据归集.docx(23页珍藏版)》请在第一文库网上搜索。

1、ICS35.240CCS167H37山东省地方标准DB37TXXXXX-XXXX公共数据数据治理规范第1部分:数据归集Pub1icdata-Specificationofdatagovernance-Part1:Dataco11ectionXXXX-XX-XX实施XXXX-XX-XX发布山东省市场监督管理局发布目次前言II弓情III1范围12规范性引用文件13术语和定义14缩略语15数据归集流程2KI明确归集范围24i)明确归集方式241开展数据归集2;,归集结果确认36数据归集要求3A1库表归集3Rt)文件归集4R服务接口归集67数据更新要求68数据归集安全7附录A(资料性)库表归集相关数据

2、表约束及示例8A.1业务数据表约束及示例8A. 2对账数据表约束及示例8附录B(资料性)文件归集相关数据表约束及示例10B. 1文件信息表约束及示例10B. 2文件拆分信息表约束及示例10B.3对账数据表约束及示例11附录C(资料性)服务接口数据示例及内容描述13C. 1XM1格式数据示例13C.2增加信息服务接口13C.3删除信息服务接口14C.4修改信息服务接口14C.5只增信息服务接口15参考文献16本文件按照GB/T1.1-2023标准化工作导则第1部分:标准化文件的结构和起草规则的规定起草。本文件是DB37TXXX公共数据数据治理规范的第1部分。DB37TkXX已经发布了以下部分:一

3、一第1部分:数据归集; 第2部分:数据清洗比对; 第3部分:数据返还; 第4部分:资源服务目录。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由山东省大数据局提出、归口并组织实施。为构建完善全省一体化数据资源体系,强化数据供给,提升数据治理能力,深化数据创新应用,山东省先后印发山东省“十四五”数字强省建设规划(鲁政字(2023)128号)等一系列政策文件,对全省一体化数据资源体系建设和管理提出要求。为进一步发挥标准化在全省数据治理工作规范化开展中的保障作用,针对当前数据治理中数据归集、数据清洗比对、数据返还、资源服务目录等工作存在的普遍问题,制定DB37TkX

4、XN公共数据数据治理规范系列标准。DB37TO曜拟由以下四个部分构成。 第1部分:数据归集。目的在于规范各级公共管理和服务机构归集数据至省一体化大数据平台的流程和要求。 第2部分:数据清洗比对。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展数据清洗比对工作的流程、方法和要求。一第3部分:数据返还。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展数据返还工作的流程和要求。 第4部分:资源服务目录。目的在于规范各级公共管理和服务机构依托省一体化大数据平台开展资源服务目录管理和应用的工作要求。公共数据数据治理规范第1部分:数据归集1范围本文件规定了公共数据的数据归集流程、数

5、据归集要求、数据更新要求、数据归集安全等。本文件适用于指导各级公共管理和服务机构归集数据至省一体化大数据平台。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T22239-2019信息安全技术网络安全等级保护基本要求GB/T352732023信息安全技术个人信息安全规范GB/T379732019信息安全技术大数据安全管理指南DB37TXXXXXXXXX公共数据数据治理规范第2部分:数据清洗比对3术语和定义下列术语和定义适用于本文件。21公

6、共数据资源目录directoryofpubIicdataresources按照一定的分类方法进行排序和编码的一组信息,用于描述各个公共数据特征及组织方式,便于公共数据的组织、检索、定位、发现与获取。来源:DB37/T35202019,3.2,有修改省一体化大数据平台provincia1integratedbigdatap1atform全省公共数据管理、共享开放的统一基础支撑平台,由省级枢纽、市级节点和县级节点组成。公共管理和服务机构pubIicadministrationandservicesorganization国家机关、法律法规授权的具有管理公共事务职能的组织,以及供水、供电、供气、公共

7、交通等公共服务运营单位。4缩略语下列缩略语适用于本文件。CSV:逗号分隔文件格式(COnima-SeParatedVa1ues)FTP:文件传输协议(Fi1eTransferProtoco1)GZIP:文件压缩程序(GNUZIP)HTTP:超文本传输协议(HypertextTransferProtoco1)HTTPS:超文本传输安全协议(HypertextTransferProtoco1Secure)IP:网络互联协议(IntCrnetProtoco1)PDF:可携带文档格式(POrtabIeDocumentFormat)SFTP:安全文件传送协议(SeCretFi1eTransferProt

8、oco1)TXT:文本(Text)URI:统一资源标识符(UniformResourceIdentifier)UTF-8:UniCOde的可变长度字符编码(8-bitUnicodeTransformationFormat)UUID:通用唯一识别码(UniVerSa1IyUniqueIdentifier)XM1:可扩展标记语言(EXtenSib1eMarkup1anguage)5数据归集流程K1明确归集范围公共管理和服务机构应根据业务职责,编制并动态维护公共数据资源目录,按照“按需归集、应归尽归”的原则,将本机构所有可归集公共数据持续归集至省一体化大数据平台。57明确归集方式5.2.1应结合归集

9、数据的范围、数据传输要求等,确定数据的归集方式。5.2.2公共数据的归集方式主要包括库表、文件、服务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适用于对数据传输速度和实时性有较高要求的情况。注:以服务接口方式归集数据时,有公共管理和服务机构推送待归集数据、大数据工作主管部门拉取待归集数据两种方式,本文件以公共管理和服务机构推送待归集数据方式为主。S1开展数据归集5.3.1应将数据库表结构发送至大数据工作主管部门,并根据数据归集方式和数据实际情况,做好数据归集前准备工作并开展数据归集。5.3.2以库表方式开展数据归集的要求应符合6.1主要工作包括:a)应

10、在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置库;b)应在前置库中建设业务数据表、对账数据表,业务数据表存储待归集的业务数据,对账数据表存储数据的更新情况。注:前置机主要部署在公共管理和服务机构端,用于实现库表、文件数据的批量传输。5.3.3以文件方式开展数据归集的要求应符合6.2,主要工作包括:a)应在前置机中建设文件系统,用于临时存储待归集的文件;b)在前置库中建设文件信息表、文件拆分信息表、对账数据表,文件信息表、文件拆分信息表分别存储非结构化文件的详细信息和拆分信息,对账数据表存储文件的更新情况。5.3.4以服务接口方式开展数据归集主要工作包括:

11、a)大数据工作主管部门应根据提供的库表结构开发服务接口,挂载到相关公共数据资源目录下,通过省一体化大数据平台发布,服务接口的命名、服务方法、请求类型、输入参数和输出参数等应符合DB37/T42252023中第5章的规定;b)应依据服务接口要求,开发服务接口调用程序,调用服务接口推送本机构数据至省一体化大数据平台,可采用压缩等技术实现数据高速传输,服务接口相关要求应符合6.3。5.3.5以库表和文件方式归集数据时,大数据工作主管部门应依据业务数据表结构、对账数据表内容等开展数据归集。K4归集结果确认5.4.1大数据工作主管部门应通过对账数据等对己归集数据进行核对,确保公共管理和服务机构提供的数据

12、与已归集的数据、公共数据资源目录一致。5. 4.2大数据工作主管部门应对已归集数据开展数据清洗比对等数据治理工作,反馈问题数据和数据质量报告,公共管理和服务机构对问题数据开展源头治理,对修正数据重新进行归集。其中,数据清洗比对应符合DB37/T|乂*乂一)0(|的要求。6数据归集要求A1库表归集6. 1.1前置库前置库应支持国产数据库,字符编码应为UTF-8。6.1.2 业务数据表业务数据表除业务字段外应包含记录ID、批次号、业务操作标识、更新时间字段等扩展信息。业务数据表扩展信息的字段名称和说明见表1,业务数据表的约束和示例见A.1。表1业务数据表扩展信息字段名称字段说明记录ID记录ID为业

13、务数据主键,是业务数据的唯一记录标识,宜使用UU1D主键策略。批次号批次号为业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的日期,格式为YYYYMMDD;数据序号为8位数字,每日从OOOOOOOI顺序递增。以2023051000000003为例,该数据序号表示2023年5月10日第3批次数据。业务操作标识业务操作标识用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U,数据删除为“D”。更新时间更新时间为业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:nim:SSo6.1.3 对账数据表对账数据表见表2,约束和示例见A.2。表2

14、对账数据表字段名称字段说明对账记录唯标识对账记录唯标识为时账表主键,宜使用UU1D主键策略。表名表名为该批次更新数据所在业务数据表的名称。批次号批次号为业务数据按批次更新时生成,是数据H期和数据序号的组合,应保证唯一性。其中数据日期指数据更新的F1期,格式为YYYYMMDD:数据序号为8位数字,每日从OoOoOoOI顺序递增。以2023051000000003为例,该数据序号表示2023年5月IOH第3批次数据。批次条数批次条数为该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致。批次时间批次时间为对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DDhh:

15、nun:SSo表2对账数据表(续)字段名称字段说明批次状态批次状态为本批次数据归集状态,业务数据表实际数量不一致。0为初始默认值,1为完成归集,T为对账数据表批次数量与A,文件归集6.2.1文件系统文件系统可采用FTP、SFTP等。6.2.2文件6. 2.2.1命名约束文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(09)、英文字符(az、AZ)、下划线组成。6. 2.2.2文件大小应设置文件大小阈值,文件超出阈值应拆分成多个小文件。7. 2.2.3文件格式结构化文件格式包括CSV、TXT、X1S、X1SX等,非结构化文件格式包括PDF、DOC、DOCXWPS、ZIP,以及图片、音频、视频等资源的常用格式。CSV.X1S.X1SX的首行数据应为列名,字符编码应为UTF-8,且不应存在特殊字符,其他约束包括但不限于:a) TXT、CSV文

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 工作总结

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服