《(案例)MaxGauge 助力证券行业数据库智能运维管理.docx》由会员分享,可在线阅读,更多相关《(案例)MaxGauge 助力证券行业数据库智能运维管理.docx(4页珍藏版)》请在第一文库网上搜索。
1、一、当前智能运维现状智能运维(AIOPS)是将人工智能应用于运维领域,基于机器学习的强大能 力,学习海量运维数据的规则,挖掘数据的内在价值,为运维提供更可靠的决策 依据。智能运维的场景包括但不限于:故障发现,故障定位,故障分析,故障恢复, 事件关联分析,日志检测,故障预测,容量预测,智能交互,专家系统等等。智能运维是当前炙手可热的话题。随着技术的成熟,落地AlOPS项目案例 也越来越多,各大银行都发文阐述支持AIOps方向,在银行运维各个环节全面 开花。数据库智能运维平台是其中的一个细分项目。智能运维能在当前迅速发展和落地,与当前技术发展背景息息相关。一方面 是大数据技术的成熟应用,一方面是人
2、工智能算法的蓬勃发展。最后切合运维中 需要解决和提高的各类场景,智能运维是传统运维强有力的补充和升华。二、为什么要做智能运维人工智能技术发展到今天,在计算机视觉、自然语言处理、智能机器人、专 家系统、智能推荐等领域得到了普遍应用。然而在运维领域,人工智能还属于开 发实践阶段。人工智能核心是通过运用机器学习的技术来实现分析和决策。机器学习技术,包含深度学习,强化学习等方向,最核心能力是回归和分类。 回归能力其实也就是预测能力,例如判断房价。分类能力也就是决策能力,例如 识别图像种类。几乎所有的人工智能应用场景都是基于这两种能力。就像在计算 机世界只有。和1 一样。在人工智能领域,就是回归和分类。
3、系统运维其实也就是在运维中判断和决策。因此人工智能技术非常适合运维 场景。智能运维,就是将机器学习的能力利用起来,实现更好的自动化运维,甚 至是最终的无人运维。三、证券领域探索如何应对金融市场的快速变化,建立符合市场需求的新一代信息系统是证券 一直在追求的目标。为了能够实现效率和敏捷,新一代信息系统应用组件往往采取分布式部署的 方式,使得应用程序的环境非常复杂。在这种复杂的IT架构当中,核心的数据 库管理成了重中之重。证券急需从手动为主的被动式数据库管理方式,转换为以 专业可视化数据库管理软件为基础的智能运维管理。证券在提高IT系统性能及数据库性能管理方面一直先行先试,本篇重点介 绍证券如何通
4、过MaxGauge性能优化管理软件实现在数据库智能运维与分析方 面的一些经验。众多数据库性能管理软件中,我们选择了 MaxGauge作为数据库性能管理 解决方案。这是由于MaxGauge是已经在金融市场上经过验证的,轻量级、专 业的秒级别性能管理解决方案。通过MaxGauge我们实现了以下管理目标。1 .可视化管理。之前为了确认数据库的运行情况,需要手动连接数据库运 行SQL来获取各种信息。除了耗费时间以外,可视化程度不高,也无法做到实 时确认数据库状态。而通过MaxGauge的秒级别统一监控画面,可以对所有实 例的运行情况做到秒级别实时监控,减少了大量的日常检查工作。2 .快速定位问题。在导
5、入MaxGauge之前,由于管理的数据库很多,只 有当问题发生时才会连接数据库进行分析,由于手动获取各种数据库信息,所以 需要耗费大量时间来排除故障。而通过MaxGauge可以设定核心性能指标的临 界值,当数据库产生影响之前,发现问题点,并且通过简单双击,就能确定产生 问题的各种信息,做到快速定位问题,解决问题。3 .障碍分析。之前数据库发生障碍,通过Failover等紧急处理方式,恢复 业务以后,由于没有问题时间点的数据库运行记录,很难分析具体的问题原因。 AWR等工具由于时效性差,无法提供问题当时的原因。MaxGauge的历史记录 分析功能,可以把每秒的数据库运行情况及性能统计信息保留起来
6、,可以快速回 溯问题发生当时数据库正常处理的应用程序、性能指标、等待事件、SQL等信 息,协助DBA得出具体问题原因,以防止相同问题再次发生。4 .容量管理。容量管理是数据库管理中非常重要的工作,可以根据各种资 源的使用趋势,确认当前及未来的业务运营情况下,资源是否满足需求的积极应 对方案。之前这些工作也消耗大量工作时间。通过MaxGauge自动收集保存所 有性能数据,并且完成趋势报告书,这就大大减少了手动统计工作。5 . MaxGauge与智能运维平台的无缝融合。证券使用智能运维平台设置了数 据库管理所需要的目标KPI及KPI分析方法,再通过MaxGauge实现了对数 据库数千种指标进行实时
7、采集监控,关键的数据库指标如IoCk waitings logic read logfile sync logfile parallel write active session 等将会直接通过数据总线 到达智能运维平台。借助证券智能运维平台的单指标异常检测功能实现对这些核 心指标的实时异常检测,从而解决了传统的只能通过固定阈值来进行监控的弊 端。同时,MaxGauge采集到的数据库指标与证券APM NPM基础监控、日 志采集平台采集到的业务数据、运行数据、网络数据、基础性能数据、日志共同 实现了业务的全链路监控。在故障发生的时候,首先通过单指标异常实时监控发 现问题,然后通过多指标异常的离群
8、算法、聚类算法、排序算法给出最有可能的 故障模块或者KPL最后通过日志模版提取与检测算法对相关的日志进行异常 日志定位分析,最终帮助运维人员快速定位问题找到故障发生原因,进而快速恢 复业务,提升RTO水平。数据库的性能容量分析也是日常重要的工作之一,证券目前正在探索基于 MaxGauge收集到的KPI进行智能趋势分析,对KPI指标进行的安全区间判 断,达到预测分析、智能告警,进一步提升数据库的容量精细化管理。当前企业的竞争力中信息系统的重要性越发明显的情况下,信息系统的性能 问题不仅仅是系统管理人员的问题,而是影响一个企业兴衰的关键问题。证券将 会持续在IT性能智能管理的路上做到深耕细作。附简
9、介资料:MaXGaUge作为数据库性能管理软件解决方案,提供实时监控、运行信息收 集、精密诊断及分析、SQL优化等多种功能,从而有效管理数据库系统的可用 性及性能。通过积极监控快速发现问题,有效分析应用程序的瓶颈现象,保存多 种性能数据,最终提供对投资效果的准确分析资料。用最小负荷收集全部性能数据进行监控和保存;以Direct Memory Access方 式收集所有性能数据;以1秒单位保存可收集的所有运行记录数据。直观、简单的用户界面;通过简单的TOP-DOWN连接方式进行数据库最优 化主要功能网络控制台(Web Dashboard)实时监控器(Real-time Monitor)性能分析器
10、(PerfOrmanCe Analyzer)用MaxGauge最大限度提高数据库性能网络控制台:利用2D及3D控制台(DaShboard)整合管理数十台Instance 实时监控器:对数据库性能管理最优化的监控Pattern同时进行资源PEAK区间监控和实时诊断提供多种性能指标的TREND对等待事件情况进行集中监控对SQL执行时间进行实时诊断性能分析器:提出5种数据库分析方法TOP-DOWN方式的精密性能分析功能问题区间一目了然的数据可视化方法从多个观点进行比较分析的Power Comparison趋势和修改记录一目了然的SQL响应时间分析易于计算数据库容量的使用率趋势MaxGauge已适用于
11、全世界金融、制造、公共机构、信息通信、医疗机构等 多种领域的9000多个OraCIe数据库中。MaxGauge是EXEM开发的数据库性能管理解决方案。MaxGauge建立针对数据库应用程序的有效的性能监控及性能问题对应战 略,建立可预测未来的一系列持续的性能管理体系。目前提供ORACLE,MYSQL,SQL SERVER,DB2等数据库的性能管理。MaxGauge作为数据库性能管理软件,与System Management System 或 Network Management System等传统的系统管理解决方案不同,可以对数据库系 统的现状快速诊断的方法是确认主要性能指标的趋势。即,为了监
12、控DBMS性 能需要监控系统的CPU使用率()、数据库中发生的I/O量、SQL执行次数、当 前活动会话数及等待事件的等待时间等主要性能指标的趋势。因此,如果引入 MaxGauge,则可以通过更为智能的方法实现数据库性能的稳定化,最终有效节 减总体花费成本(TOtal Cost Ownership)o一、产品优势1 .提供1秒为单位的实时性能数据的采集及历史数据分析功能。运用了 MEMORY Direct Access方式收集了数据,无需连接数据库查询系统视图。2 .只占用小于单颗CPU 2 %,内存IOOM的系统资源。并且可以通过内部参 数设置,当资源占用超过阀值就重新启动MaXGaUge进程
13、。3 .所有性能管理操作都通过图形化管理界面完成。并且管理画面可以用户自 定义。4 .提供TOP-DOWn的分析方式,灵活关联相关实例、会话、SQL、用户、等 待事件关系,迅速定位性能问题原因。5 .提供ORACLE提供的所有性能指标(STAT,EVENT), OS主要性能指标 (CPU,MEMORY)的秒级别趋势。并且提供所有性能数据相关的SQL语句进行 TOP排序。6 .提供专门的RAC VIEW,有效管理RAC相关环境资源竞争、节点之间的 请求及通讯开销。7 .提供ASM使用率,表空间使用率(包含临时表空间& Aut。EXtend计算), 文件系统使用率的监控。8 .监控DG状态及相关参
14、数设置。9 .收集的性能数据保存在额外的数据库(可支持POStgreSQL和OraCIe)中, 可以根据硬盘情况设定保存周期,以便于提供长期趋势分析。10 .提供秒级别的历史记录回退功能,可以查看数据库任意时刻的运行信息 及资源使用信息。,提供黄:星期、月等任意周期的性能报告。EXCEL格式的报告书。12 .提供报警数据的SMS,邮件发送。二、软件架构1 .提供BS三号结构,所有管理操作界面均为图形化。2 .MaxGauge采集的历史数据单独存放在独立的MaxGauge Server当中。提 供ORACLE,postgresql等数据库为历史性能存放数据库。支持数据转储,数 据抽取,数据备份和
15、恢复等功能。3 .MaxGauge代理安装用户无需使用root管理者用户,而需要新建的操作系 统用户(建议使用MaxGauge)o用户的GROUP需要与ORACLE安装用户所属 GROUP 一致。三、安全性能LMaxGauge是开发超过16年的稳定产品,目前用于全球29个国家超过600 家企业使用MaXGaUgeW理核心数据库。安全性稳定性充分得到保障。4 .MaxGauge操作画面响应时间小于1.5秒,历史数据查询时间小于5秒。5 .提供不同用户及不同权限。可以控制监控不同数据库,KILL,TRACE等权 限。6 .可维护性:MaXGaUge提供良好的可维护性,启停简单迅速,自身故障分 析LC)G简单易用。7 .可维护性:MaXGaUge安装部署非常简单。