《分布式集群监控系统方案.docx》由会员分享,可在线阅读,更多相关《分布式集群监控系统方案.docx(8页珍藏版)》请在第一文库网上搜索。
1、分布式集群监控系统方案一、背景随着全流程招投标以及网上采购商城得的不断发展,经历本次新冠肺炎的疫情防控,必将进一步促进采购工作全流程电子化进程。与此同时采购相关的信息化平台,对于高可用性的需求必将增加。同时大量信息化系统都在向着集群化和分布式的方向发展。为了应对上述集群化的日常运行维护工作,分布式集群监控系统应运而生。二、现状电子招投标平台和网上商城平台随着业务不断发展,对整个平台的高可用性提出了新的要求。招投标平台和网上商城平台进行高可用性改造后,对集群系统的维护工作量急剧增加。目前没有统一的监控系统对集群中各服务器运行状态、系统状态以及数据库状态进行统一的可视化的监控,每次节点发生问题,需
2、要通过大量的文本化的日志进行分析,造成集群节点恢复时间较长。三、建设目标建立一套集群各节点实时信息拉取机制,显示各应用系统日志信息的内容。建立统一日志收集、记录和分析平台,收集集群中各节点的相关日志数据建立可视化多维度的日志展示平台,对各类日志实现时序的多维度展示。建立报警机制,利用多种报警手段及时对集群中各节点运行状态进行报警。四、总体设计1 .总体结构图监控系统拉利Druid集群线上实时日志量是巨大的,当数据量增长到10亿至百亿级别,传统的关系型数据库基本被排除在可选的集数架构之外了,同时基于日志的时间序列特点,选择Druid作为实时分析数据库。Druid嵌入到目前各个应用平台的系统,同时
3、利用Prometheus抓取集群中各Druid中的各类日志数据。Grafana展示平台可以通过查询各类日志监控和分析数据利用图形化的展示方式进行多维护的展示,同时规则分析的报警数据通过Prometheus可以推送到相关的报警平台。整个平台分为以下几个阶段:数据采集:服务中安装exproter进行实时数据采集,上报至指定集群中。实时处理:日志监控90%指标是由实时计算产生的,相关报警数据处理依赖大数据实时分析平台进行解析,过滤,处理,聚合之后写入分布式存储当中。存储:Druid集群在整个会员监控中是集数据存储、分析的数据中心,所有的实时计算结果数据、阈值数据、其他时间序列的数据都要汇总到Drui
4、d存储当中。计算:计算部分主要处理的是来自Druid的数据信息,数据来源为Druid及Mysql集群中,用于每天的日报、周报,用来进行长时间跨度的分析,智能化指标数据训练。定集群中。实时处理:日志监控90%指标是由实时计算产生的,相关报警数据处理依赖大数据实时分析平台进行解析,过滤,处理,聚合之后写入分布式存储当中。存储:Druid集群在整个会员监控中是集数据存储、分析的数据中心,所有的实时计算结果数据、阈值数据、其他时间序列的数据都要汇总到Druid存储当中。计算:计算部分主要处理的是来自Druid的数据信息,数据来源为Druid及Mysql集群中,用于每天的日报、周报,用来进行长时间跨度的
5、分析,智能化指标数据训练。定集群中。实时处理:日志监控90%指标是由实时计算产生的,相关报警数据处理依赖大数据实时分析平台进行解析,过滤,处理,聚合之后写入分布式存储当中。存储:Druid集群在整个会员监控中是集数据存储、分析的数据中心,所有的实时计算结果数据、阈值数据、其他时间序列的数据都要汇总到Druid存储当中。计算:计算部分主要处理的是来自Druid的数据信息,数据来源为Druid及Mysql集群中,用于每天的日报、周报,用来进行长时间跨度的分析,智能化指标数据训练。定集群中。实时处理:日志监控90%指标是由实时计算产生的,相关报警数据处理依赖大数据实时分析平台进行解析,过滤,处理,聚合之后写入分布式存储当中。存储:Druid集群在整个会员监控中是集数据存储、分析的数据中心,所有的实时计算结果数据、阈值数据、其他时间序列的数据都要汇总到Druid存储当中。计算:计算部分主要处理的是来自Druid的数据信息,数据来源为Druid及Mysql集群中,用于每天的日报、周报,用来进行长时间跨度的分析,智能化指标数据训练。2.监控系统模块图