《统计局大数据平台建设方案.docx》由会员分享,可在线阅读,更多相关《统计局大数据平台建设方案.docx(29页珍藏版)》请在第一文库网上搜索。
1、统计局大数据平台建设方案(一)建设原则根据国家电子政务建设的指导思想,结合XXX统计局的具体情况,项目的建 设应坚持以下几项原则:1、规范性系统设计开发遵循中国国家标准、信息产业部有关软件行业的通用规范、通 用的国际规范及各子系统间接口标准,保证XXX统计局的各系统能够根据业务需 要实现有效的连接。2、开放性系统设计的各种接口在遵循规范性原则的基础上,保证其可以集成不同设备 厂商、系统或平台供应商、软件供应商的产品;保证系统的设备管理、系统扩容 和业务维护不依赖于单一设备厂商、系统或软件供应商的产品。3、先进性与成熟性相结合系统设计采用先进的流数据实时采集挖掘技术和手段,以保障系统具有高效、
2、全面和稳定等良好品质。系统结构采用分布式、组件化技术和模块化的业务构造 与系统构造方式。4、扩展性系统设计应充分保证系统容量、处理能力和业务范围具有良好的扩展能力; 应满足甲方今后业务发展的需要,保护投资,避免重复建设。5、易用性系统设计需要保证系统软件容易使用,界面简单易操作,能够使操作用户方 便识别并易于操作,能够为各类用户提供良好的服务。6、安全性运用区块链数据库保证系统在运营过程中管理的各种资料的安全,保证系统与其他相关系统信息交换过程的安全;保证系统业务管理体系的安全。区块链数 据库技术作为互联网底层安全保障,为数据服务提供分布式安全共性技术和“基 础设施安全屏障”。对传统统计专业机
3、构所涉及范围的互联网化新业态开发都将 利用区块链数据库的定向追索性、分布式账本及留痕制,保障数据的安全性。7、可靠性保证系统具有较高的可靠性和良好的容错性能,保证系统能够提供7X24 小时不间断访问服务。(二)建设目标XXX统计局大数据平台定位于整合各部门数据,支持查询企业、标签等功能。 建设经济数据中心,满足统计局日常工作数据需求。自动对接一套表平台,从多 个维度对全区数据进行数据预警。可以储存需要的报表,支持生成分析报告及临 时性报表需求。要求建立数据分析平台,从多个角度分析全区主要经济指标。建 立移动办公,支持企业查询、进度数据查询、重点企业查询、宏观数据查询、宏 观经济指标查询等。充分
4、有效发挥统计职能,提升统计工作效率和质量,深入做 好大数据技术在统计领域的应用。(三)平台架构图表1:平台架构图应用层I企业查询I I聂娓变诲I I报友生产 Imm I - I s: |能力层数据层获取层数据源awh;* mz: IgatMMMBR-MSSX 9. WS. MOX AR. 一G 人数掘平台wias*awt. JtawtiSJH1、数据源大数据统计平台的数据包括发展和财政局联网直报数据、统计部门数据、工 商部门数据、税务部门数据、金融机构数据、交通部门数据等各政府职能部门数 据及宏观数据、行业数据和企业数据等外部数据,是支撑整个业务应用系统的数 据统计及数据挖掘分析。2、数据获取
5、层数据整理主要通过ETL及内容分析实现数据的治理问题,确保数据的质量, 保证数据的正确性、完整性、一致性、完备性、有效性、时效性和可获取性等, 主要通过空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换等 手段实现数据的整合。3、数据层负责存储海量数据,提供并行的计算和非结构化数据的处理能力,实现低成 本的存储和低时延、高并发的查询能力。数据加工、关联、汇总后的业务数据, 并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI 和高度汇总数据。4、能力层通过对原始数据进行整合汇总,形成上层可用的数据挖掘工具,平台能力层 主要向用户提供实时数据处理能力、基础分析能力、
6、数据挖掘能力、自助分析能 力、数据共享能力等,同时面向使用人员提供FTP传输、APl接口、SQLMDX 语句使用能力。5、应用层数据应用层存储不同的综合级别的数据,主要包括当前明细数据、轻度综合 数据、高度综合数据。根据不同的报表分割不同的数据粒度,实现数据立方体的 存储。根据统计的基础数据和各行业各领域的数据构造WEB资源池。根据业务 需要实现各种灵活专题统计任务和宏观经济预测。并可以根据新的业务需求,实 现新增专题统计。(四)大数据智慧平台功能1、数据交换系统数据交换系统主要实现所有源系统中原始的业务数据进行采集,并对其进行 一定的数据处理,并根据业务的需要分为实时数据采集和批量数据采集,
7、实时数 据采集不能对业务系统有较大的负担影响到业务系统的运行,建议使用基于数据 库日志的方式进行数据同步。整个过程按照主题进行数据重组和格式转换,传送 并装载到大数据平台中。(1)数据采集大数据智慧平台的数据包括内部数据和外部数据。内部数据是汇集XXX统计局各业务处室的各类数据和信息以及已经积累的 各类行业资讯、政策文件等。外部数据包括XXX统计局其他相关部门数据及外部宏观数据、行业数据、企 业数据、社会数据等。图表2:数据采集流程图实时交揆定时交换离线交换权限控制受务票缆1业务系线2备系统n(2)数据采集机制对于需要补充的相关部门数据、宏观数据、行业数据、企业数据、社会数据、 网络数据等各类
8、数据资源,将通过“间接获取+直接获取”相结合的方式。D间接获取人工采集:我司为本项目配备的团队成员具有十分丰富的数据采集和搜索经 验。项目执行期间,项目团队将对互联网公开数据进行收集、筛选并整理成库。 对互联网公开数据的收集、筛选并整理成库,为本项目的研究需求提供基础数据。 该方式主要通过搜索引擎等人为复制、整理并录入互联网公开数据到数据库系统 以及计算机程式不定期地监测、更新互联网公开的数据。大数据抓取:我方基于大数据已经建立的服务器集群,采用大规模的分布式 采集系统及智能云服务,大数据爬虫自动从监测源采集数据,并通过基于机器学 习的主题归类技术和大数据清洗技术,实现宏观数据、资质数据、行业
9、数据、网 络数据、社会数据、企业数据多维指标数据的自动化采集和清洗,为本项目的应 用需求提供高质量的数据内容。2)直接获取方式直接获取方式指的是针对特定区域或特定时间的某一特定行业,通过问卷调 查、电话调查、访谈等调研途径获取数据的方式。直接获取的数据具有时效性及 区域性,这部分数据主要供本项目采购方内部网络使用。(3)数据采集处理本项目采集的数据包含结构化数据和非结构化数据。其中结构化数据存储在 关系型数据库以两种形式对数据及数据文件两种形式体现;非结构化数据主要体 现形式为图片文件、音视频文件等。根据数据的表现形式,可以分为关系型数据库数据及文件数据两个形态数据; 针对这两种形态数据采集处
10、理方式如下:D关系型数据库数据开通数据库接口,如socket传输或Sqoop组件实现关系型数据库中数据与 平台进行对接。口2)文件数据数据文件可以通过FTP上传方式实现文件数据采集。根据部门业务库的安 全保障体系规范,统计平台提供接口协议、鉴权方式、数据提取的流程定义统一 的规范,转化成标准的数据格式。统计平台根据权限控制模块开通相关部门采集 权限。根据业务对数据的时效性,数据采集分为实时数据采集、定时数据采集及 离线数据采集三种模式。(4)数据交换数据交换系统通过访问接口管理实现数据共享交换的统一管理和元数据管 理实现系统数据资源的统一规划。D数据接口元数据访问接口元数据访问接口提供了对数据
11、结构的统一修改、访问方法,通过元数据访问 接口,应用程序可以调整资源库中各个组成部分的结构、约束关系,也可以掌握 目前资源库的情况。数据访问接口数据访问接口为面向应用和联机事务处理系统提供统一的访问数据的方法, 包括维护、查询、统计等数据操作。通过应用系统访问接口,应用系统只需要知 道信息资源库的元数据,就可以实现对数据的访问,而与数据的存储、组织方法 无关,这种实现机制有效的屏蔽了网络异构、操作系统异构、数据库异构给数据 访问带来的影响,保证了信息资源库的技术变化不会影响到应用系统的访问,从 而既实现了应用的透明访问,又支持了资源库的不断发展和管理机制的不断完 善。与外系统交换接口与外系统交
12、换接口通过映射的技术,将外系统中数据导入到信息资源库中来, 同时也可以根据外系统的需要,将信息资源库中的信息按一定格式导出到外系统 中去。2、元数据库元数据是描述数据的数据。通过元数据,应用程序可以知道数据以及数据之 间的关系。应用程序在正确访问、操作处理和显示数据时需要参考和读取元数据 信息。统一的元数据管理能够保证数据从数据交换、数据建模、数据清洗、数据 加载、数据存储、数据分析、数据查询、信息发布等全过程中的有效和一致性, 以及使核心数据能够在不同数据库和应用中共享和同步更新。为各种应用和数据 库的信息共享提供服务。数据交换系统主要提供源数据采集及数据交换功能。为保证数据质量,在新 增数
13、据接口前,通过制定相关政策与规章制度,以及从事数据管理规划、实施、 管理、监控的团队之间协同工作,完成数据从原系统到大数据平台的采集存储工 作。3、数据质量管理数据在数据存储层中进行集中管理。在数据存储层,数据是存放在两类数据 库中:关系型数据库和多维数据库。(1)数据整合通过数据获取层采集到数据后,对源数据进行一定的数据处理,按主题进行 数据重组和格式转换。由于源数据分散各自的业务库系统中,子系统之间使用的 软硬件平台不同、字符编码及数据结构不同,导致数据难以统一。因此,数据需 要进展数据抽取、数据转换、数据装载的处理过程,即ETL过程。确保数据进 行数据存储之前,同类业务数据的一致性和完整
14、性。图表3: ETL工作流程图数据抽取数据清洗数据转化数据加载工作流调度A、数据抽取就是从数据源抽取出所需的数据的过程。数据抽取后,再经过 数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据大数 据平台中去。B、数据转换主要用于解决数据不一致问题,数据加载就是将从数据源系统 中抽取、转换后的数据加载到数据存储层。C、流程管理调度是ETL过程中的统一调度者和指挥者,它把复杂的数据处 理过程中各个步骤整合成一个整体。D、异常数据处理机制指源数据系统中的数据本身出错并发生变更后,对于 正在抽取、已经抽取、已经处理、已经汇总等各个环节,如何进行回退处理的一 套机制。数据进行ETL处理之
15、后,生成规范的综合的业务统计基础数据。根据不同 的业务分析系统的业务口径,进行汇总、生成汇总数据,在汇总数据的基础上再 加工生成多维数据、报表数据和统计分析数据等应用数据支持数据使用层的业务 系统调用。(2)数据治理原则图表4:数据治理原则A、约束输入:设定用户输入权限及范围,做好输入约束工作。该用户填写 的,系统必须设置为“必填”;值有固定选项的,一定用列表让用户选,不能再 手工输入;系统在录入提交时就做好检查,格式不对,值不在正常范围内,直接 报错的情况必须让用户重新输入;设计录入表单时尽量原子化字段,比如上面说 的地址,设计时就分成国家、省、市、区、详细地址等多个字段,避免事后拆分; 录入数据保存的数据表也尽量统一,不能产生有大量相同数据的表,造成数据重 复隐患。B、规范输出:统一报表指标与参考值,统一语义,统一口径,排除计算错 误,做一个公司级别的语义字典(不是数据库的数据字典)。所有给人看的报告上 的指标名称,都要在语义字典中备案,语义字典明确定义其统计口径和含义。不 同统计口径的指标必须用不同的名词。如果发现一个词已经在语义字典中有了, 就必须走流程申请注册一个新词到语义字典。(3)脏数据处理脏数据的种类有如下几种分类:图表5:脏数据分类图01.数据缺失脏数据的种类02.数据重复0