《大数据平台描述.docx》由会员分享,可在线阅读,更多相关《大数据平台描述.docx(14页珍藏版)》请在第一文库网上搜索。
1、大数据平台在系统结构上包括数据采集系统、数据库管理系统、数据融合系统、资源服务管理系统、平台管理系统、任务调度管理系统、数据分析系统、数据可视化系统,如图所示:图:大数据平台系统结构1.1.1.1数据采集系统1)系统概述数据采集子系统通过多种方式和途径,把政府和企业各个部门的数据、物联网的数据、互联网的数据汇聚到大数据中心。基于大容量、消息和事件的数据导入,面向不同格式的结构化、非结构化和流形式的城市数据,提供易于运营的多种数据源管理和格式转换以及原始数据的临时存储。2)系统结构数据采集子系统通过丰富多样可供选择的采集方式,包括系统直采填写、数据导入、数据交换、网络抓取、API接口调用、感知设
2、备对接等多种方式把政府和企业各个部门的数据汇聚到数据服务中心。数据格式包括传统的结构化数据,或视频、录音、图片、文本等非结构化的数据,并可实现采集自动归类和预处理。其基本原理如下图所示:图:数据采集总体架构数据采集子系统通过不同数据节点,通过数据的推拉,将政府和企业各部门的数据汇聚到数据服务中心,形成数据服务中心的基础数据资源库。3)系统功能数据采集系统的功能包括数据源管理、指标项管理、集群管理、流程管理、流程日志、服务日志、插件管理。(1)数据源管理:数据源管理主要解决政府各个部门、互联网爬取站点和物联网设备的数据源注册和管理,目前系统支持数据源包括:MySQL数据库、Oracle数据库、H
3、base、Hive、NoSQL数据、云数据库、大文件系统、小文件系统等各种关系性数据库和非关系数据库。数据源中存储了所有建立数据库连接的信息,就象通过指定文件名可以在文件系统中找到文件一样,通过提供正确的数据源名称,用户可以找到相应的数据库连接;能够实现多类型数据源的注册、查询和管理等功能。(2)指标项注册:包括采集指标项注册,下发指标项注册,对需要做共享交换的数据进行登记,配置好交换数据的源和目标,这个功能就是对所有指标项做统一的管理。(3)集群管理:集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务
4、器;集群配置是用于提高可用性和可缩放性;集群管理就是对所有的节点机的管理,包括节点机的激活,禁用,并对激活的节点机进行监控。(4)流程管理:包括规则定制,流程定制,任务定制,流程监听和任务监听等模块。流程管理是在多个参与者之间按照某种预定义的规则流程传递信息,或让任务的过程自动进行,从而实现预期的业务目标实现。流程管理是业务整合的关键控制链,是业务协同处理的中心集成者和管理者。规则定制解决交换过程中库之间格式不能正常交换等问题,在流程定制时根据需求选择规则来定制流程;流程定制完全是拖拽方式,可定制化流程配置即可实现数据传输;添加,启动任务调度流程运行,可设置任务执行的生效时间,频率;可分别对流
5、程和任务做监听。(5)监控管理:主要是对各种不同的数据源采集过程进行监控,能监控到每一批数据采集的结果,能统计到每天数据采集的结果,通过监控管理能很清楚的了解数据汇聚的全部情况,为数据采集提供了良好的运维支撑。(6)日志管理:包括,流程日志和服务日志,流程日志用于流程运行监控;服务日志,用于系统运行监控。(7)插件管理:包括基础插件、数据库插件、本地文件、FTPServer、Windows远程共享、Linux远程共享目录、Cloud File。1.1.1.2数据库管理系统1)系统概述数据库管理子系统为城市数据采集的结构化数据、非结构化数据的提供云存储和管理服务,存储和丰富日常操作数据的数据库系
6、统和集中整合不同行业的历史和当前数据的数据仓库,实现各类数据按照约束条件进行汇聚,并提供数据访问的安全策略执行,并按照数据安全服务协议提供数据信息服务,实现对城市信息资源的统一汇聚和监控。2)系统结构数据服务中心对采集后的数据进行统一的存储,由计算节点的本地磁盘、存储阵列、分布式文件系统(如HDFS、CFS、GLUSTERFS等)、NAS等组成。具体数据存储包括但不限于分布式文件系统、分布式缓存、分布式数据库和分布式索引等多种方式存储,既实现数据调用的灵活性和及时性,又保证数据的汇聚和融合的高效性。数据库管理子系统根据数据类型和特征采用分层建模,方便数据管理,提高数据查询的速度。数据库管理基本
7、结构如下图所示:图:数据库管理结构模型3)系统功能数据库管理系统的功能包括仪表盘、数据库管理、索引管理、数据导入导出、数据备份管理、文件存储管理、文件导入导出、文件备份管理。(1)仪表盘:数据源表统计;(2)数据库管理:数据存储配置、表管理、数据浏览;(3)索引管理:索引库管理、索引表管理、索引规则定制、索引数据浏览;(4)数据导入导出:数据导入、数据导出;(5)数据备份管理:备份规则、备份任务、备份日志;(6)文件存储管理:文件存储配置、存储路径配置、文件数据浏览;(7)文件导入导出:文件导入、文件导出;(8)文件备份管理:备份规则、备份任务、备份日志。1.1.1.3数据融合系统1)系统概述
8、数据融合子系统通过对采集的海量数据进行清洗、格式转换、时空化处理、关联、重组等操作,实现政务数据、互联网数据、物联网数据和互联网地图数据的按照“时间、空间、属性”三个维度进行融合,构建公共信息资源新次序,形成基础库、主题分析库,满足各业务系统基于地图进行处理和分析的需求,最终为管理和决策提供数据支撑。2)系统结构数据融合通过连接所需多源数据库并获取相关数据,研究和理解所获得的数据,梳理和清理数据,数据转换和建立结构,数据组合,建立以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集,通过服务发布,满足数据服务和数据应用需求,数据融合的总体架构如下图所示:计真节点数据
9、朦务智慧应用A皴据模里务我将生产JI务计算节点计算节点图:数据融合系统架构A数整挖掘JR务3)系统功能(1)数据源管理:数据源管理主要解决政府各个部门、互联网爬取站点和物联网设备的数据源注册和管理,系统支持数据源包括:MySQL数据库、Oracle数据库、Hbase、Hive、NoSQL数据、云数据库、大文件系统、小文件系统等各种关系性数据库和非关系数据库。数据源中存储了所有建立数据库连接的信息,就像通过指定文件名可以在文件系统中找到文件一样,通过提供正确的数据源名称,用户可以找到相应的数据库连接;能够实现多类型数据源的注册、查询和管理等功能。(2)流程定制管理:包括规则定制、流程定制、任务定
10、制等模块。流程管理是在多个参与者之间按照某种预定义的规则流程传递信息,或让任务的过程自动进行,从而实现预期的业务目标实现。流程管理是业务整合的关键控制链,是业务协同处理的中心集成者和管理者。规则定制解决交换过程中库之间格式不能正常交换等问题,在流程定制时根据需求选择规则来定制流程;流程定制完全是拖拽方式,可定制化流程配置即可实现数据传输;添加,启动任务调度流程运行,可设置任务执行的生效时间,频率。(3)云节点管理:云几点管理就是对所有的节点机的管理,基本信息如节点名称,节点IP,节点端口,web端口,包括节点机的激活,禁用,并对激活的节点机进行监控。(4)日志管理:日志管理包括流程日志和操作日
11、志两个板块;流程日志显示流程的执行状态,开始时间,结束时间并可查看本流程中所有插件的执行情况,包括插件名称,输入总数,输出总数,错误总数并记录运行时间;操作日志对每个使用系统的人员操作进行记录,显示操作结果和操作内容。1.1. 1.4资源服务管理系统1)系统概述资源服务管理系统对数据资源全生命周期的管理,对数据资源进行编目、发布、以服务的方式对外提供数据服务。资源服务管理子系统作为数据服务中心SOA架构的基石,提供服务注册、应用适配、协议适配、消息转换、格式转换、智能路由、服务管理、服务编排、实时监控、多级互联、安全传输、安全验证、日志等功能,将分散的各应用系统以标准服务的形式联通为一个有机的
12、整体,有效实现系统间的信息解耦,进而促进各应用系统之间的协作、以及信息的互联互通,解决阻碍智慧城市建设快速发展的信息孤岛问题。2)系统结构资源服务管理系统作为所有接入服务的开关,为城市的整合应用提供资源服务,对数据服务中心的各类服务进行统一接入、统一管理、统一授权发布和服务安全管理。系统总体架构如下图所示:服务中心对外服务管理服务编排-服务授权-服务发布数据中心Oir Ijir UrAl MCJIHWzA图:资源服务管理系统架构资源服务管理采用基于动态可插拔组件的系统架构,提供开放的、有针对性的二次开发API接口/SDK,使资源服务更容易与现有业务系统融合,为用户提供更高效、更稳定的服务。同时
13、,建立统一的资源服务体系,实现城市基础资源多级联动的互联互通。3)系统功能资源服务管理系统包括大数据中心和资源服务管理。(1)大数据服务中心:包括数据集市、服务集市、个人中心、开发者中心。(2)资源服务管理:包括数据采集管理(采集目录注册、指标项管理、采集过程监控)、数据融合管理(规则定义、清洗比对规则、清洗比对结果、人工审计)、数据中心管理(数据目录定义、数据血缘分析、数据关联分析、数据中心数据监控)、资源发布管理(数据发布目录、服务发布目录)、资源审批管理(资源申请审批、资源共享审批)、资源使用统计(数据使用统计、服务使用统计)。1.1. 1.5平台管理系统1)系统概述平台管理系统作为数据
14、服务中心的管理控制中心,为平台管理和平台运行提供系统支撑。管理平台子系统是以各类硬件设备、应用平台、应用系统等云资源以及数据中心的服务对象作为管理对象,实现IT资源的全生命周期一站式服务,支持跨异构系统部署和应用,包括数据服务中心的调度、管理、监控、服务和运营。2)系统结构平台管理系统根据不同的用户需求,动态配置、调度各类软、硬件资源,实现用户应用环境的动态弹性扩展,满足客户的服务需求。为用户提供高安全、高性能、可扩展、可管理和可伸缩的全面保障IT资源保障。通过平台管理为数据服务中心的监管部门、监管人员、管理部门、管理人员、使用部门、使用人员等相关组织和人员,进行严格的分级、分类授权管理。通过平台运行支持,建立平台快速高效的运维管理体系。系统总体架构如下图所示:服务消费者服务管理者服务提供者云管理平台云服务供应0g务产品喻强务产品申请服务供给申请服务产品订阅服务生贵省理云服善理服务产品曾理运营管理产品蝴产品发布用户管理订单甘理计管亮产后维JP产品订涧计费管理研抬田张单宜及服务台管理故JSJS管服务受18服务工手?Sil解先支持管理田绍理故隘处理版务受更管理问理asea运行维护管理laaS运维PaaS运维资源修理费源硒I网用平台调试应用平台支付各包理备份管理应用平2配1应用平台财至源差合/资源池化/资源虚拟化应用平台安亲应用平台菸整用户注册商业分析股务需求分