某银行数据库一键巡检体系.docx

上传人:lao****ou 文档编号:70258 上传时间:2023-01-27 格式:DOCX 页数:6 大小:79.75KB
下载 相关 举报
某银行数据库一键巡检体系.docx_第1页
第1页 / 共6页
某银行数据库一键巡检体系.docx_第2页
第2页 / 共6页
某银行数据库一键巡检体系.docx_第3页
第3页 / 共6页
某银行数据库一键巡检体系.docx_第4页
第4页 / 共6页
某银行数据库一键巡检体系.docx_第5页
第5页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《某银行数据库一键巡检体系.docx》由会员分享,可在线阅读,更多相关《某银行数据库一键巡检体系.docx(6页珍藏版)》请在第一文库网上搜索。

1、某银行数据库一键巡检体系1 .背景与挑战随着我行业务数字化、互联网化的不断发展以及分布式技术的全面落地,行内数据库体量迅速攀升,数据库的运维难度陡然剧增,运维成本不断增大,现有的运维体系难以维系,对数据库运维巡检工作提出了巨大的挑战。2 .应对方案互联网的发展、信息安全性提高等因素导致的数据库体量膨胀,不仅是数据库运维工作的挑战,更是运维手段变革的机遇。庞大的数据库数量导致运维人员分身乏术,人力成本的上升也导致无限扩大运维团队的不现实性,一个全面智能、高效快捷的运维工具成了应对目前挑战的最优解。立足于生产实际情况,结合现有的DBPaaS数据库统一管理平台运维平台的巡检工具被提上了研究日程。一个

2、真正满足运维巡检需求的工具,应该具备以下的特性:扩展性:完美支持DB2、Oracle、MySQL等传统商用数据库,还支持横向拓展,在未来能够简单、快速地支持更多的开源、国产数据库,不需要在特定数据库查询工具间频繁切换。兼容性:工具需要兼容支持数据库的各个主流版本,在数据库技术不断发展演进过程中,数据库版本迭代迅速,缺陷层出不穷,且各版本之间差异明显,新的工具需要能够分辨数据库版本,执行不同命令进行巡检。全面性:对数据库进行全面、彻底的检查,在数据库核心关键检查指标的基础上,对不同数据库的特殊架构和特性,进行针对性巡检。易用性:工具的目标是将运维人员从繁重、重复的运维巡检工作中解放出来,不是让运

3、维人员重新投入其他的重复工作中,易用性是必然的要求。在运维难度不断增加、人力成本不断上升的今天,一个巡检结果准确、巡检指标全面、巡检操作智能的巡检工具是必然的运维方向。立足于我行多年运维经验基础之上,充分研讨和精细雕琢之后,决定完成自动化巡检体系建设。自动化巡检体系建设主要分为自动化巡检报告和一键巡检两个重要组成部分,并与DBPaaS数据库统一管理平台有机结合,致力于将运维人员的工作回归运维本质,向运维智能化、自动化方向迈进。3 .一键巡检智能巡检报表体系在批量巡检、数据整理方面优势突出,但在单库实时性能检测的支持上不够完善上略有不足。为了弥补巡检体系的不足,提升整个运维体系的完整性,我行从D

4、BA实际运维侧重点实际角度出发,总结出一批能标识数据库性能、容量和可用性方面的核心关键,并辅以数据可视化手段,设计了一键巡检系统,进一步提高运维效率、节省运维时间。关键指标一键巡检立足于数据库实时情况,对关键指标进行系统分类,便于针对性运维。在一键巡检功能中将关键指标分为可用性状态、数据库服务能力、容量、性能四大模块:可用性状态:围绕数据库最核心指标进行巡检,若状态不正常说明出现严重问题,需要紧急维护。指标名称作用数据库状态 最核心指标,数据库是否可以正常连接实例状态实例为数据库提供了运行时环境,状态异常会导致数据库无法访问表空间状态 明确是否存在异常的表空间表状态明确库中是否存在异常表DB2

5、许可认证最近备份状态明确商业数据库LICENSE认证是否过期,需要及时更新明确数据库是否备份成功,防止出现数据库宕机之后数据库无法恢复数据库服务能力:决定数据库响应能力的核心指标,并根据历史数据,采用科学方式计算出指标基线参考值,辅助运维人员合理判断数据库情况。指标名称作用TPS这些指标显示了当前数据库繁忙程度和相应时间,过高将导致数据库出现执行SQL慢等情况,需时刻关注RSPTQPSRQPS总连接数显示当前数据库连接数量,展示了数据库可能承受的最大压力活动连接数活动连接数是决定当前数据库压力的核心指标活动连接率该指标显示了数据库中有效连接的数量,分析是否存在大量无效连接过多占用数据库资源容量

6、:包含大表、表分区等可能影响导致数据库容量飙升的指标,需要经常关注,防止数据库容量异常变化。指标名称作用连接数/配置上线连接数+上限,发现连接数是否到达警戒值实例内存使用率/数据库内存内存是数据库运行的关键指标,不足会导致数据库无法使用,需根据实际情况调整日志空间使用率数据库操作都需要日志存储,方便数据库维护操作,日志使用空间过高需要及时扩充文件系统使用率大主机文件系统剩余空间不足将导致数据库无法操作DMS表空间使用率大DMS表空间需要DBA手动维护,表空间满会导致数据库无法操作,需要关注使用率并及时扩充表空间大小表分区接近限制值分区表是分散存储数据、提高查询效率的方式,但需要关注即将达到限制

7、的分区表,防止无法使用大表大表是导致容量变大的核心原因之一,大表数量过多需要考虑清理性能:锁等数据库正在执行的消耗性能操作,评估数据库当前运行状况。指标名称 作用CPU、内存主机是数据库的依托,主机的性能是影响数据库性能的重要因素Bufferpool缓存是提高SQL执行效率的有效保障,命中率过低需要重点关注有效读比例有效读比例反应了数据查询效率,大量无效的查询消耗数据库性能造成锁信息死锁等问题需要快速响应,很有可能导致表锁,最终影响业务SQL执行执行时间长 执行时间长的SQL占用数据库大量资源,SQL数量如果过多会导致数据库整体性能下降事务大事务和长事务过多,都是异常的现象,需要及早处理表相关

8、表重组等耗时操作需要密切关注数据可视化关键指标的梳理是一键巡检的第一步,作为一个实时巡检工具,数据可视化展示也是重点之一。DBPaaS平台结合我行多年运维经验整理出一套准确、合理的指标评判标准,为不同指标设定合理的阈值范围,针对不同指标的不同特性,采用恰当合适的数据刻画方式、科学合理的页面布局,清晰明确的标记出数据库的潜在风险和性能缺陷,方便运维人员迅速感知出问题所在。一键巡检界面以红、黄、绿三种颜色划分各个数据库巡检指标评估情况,运维人员可以据此判断当前指标数据是否合理,辅助完成分析工作。I WBMMIb I tv WMM* a*MNSII关联下钻分析依赖DBPaaS平台强大的数据存储能力和

9、丰富详尽的监控指标项,一键检查页面中罗列的数据库各项核心巡检项,均与DBPaaS平台中相关指标进行深度关联,支持通过点击下探连接查看关联数据明细,方便运维人员对数据库异常项和问题点进行根因分析和诱因定位。一键巡检样例图中可以看出数据库最近没有数据库备份,但不知具体备份情况,可以点击进入下图所示的详情页面,可看到最近的备份情况,明确备份失败还是未按时备份。一键处理巡检是发现问题的手段,处理问题是运维的核心。一键巡检功能还提供了一键处理功能,在界面图形化处理,维护数据库平稳、高效的运行。一键巡检参考运维的场景化需要,将处理分为连接处理场景、事务处理场景等场景,并在将来不断丰富运维场景,做到一键式运维,脱离反复的巡检工作。二三三=三1三三一后1=-9,七 Utt 9 “ Mlaa&yMxv一 2AF M* XMMtl . ,erwwm mb一MB 一 ,一“ MMMHA“ 1,UAHM,一Mt.Mie-uOMMHtrQ MrMMM 3M 4M44t4.小结一键巡检在投入使用后,得到运维人员的一致好评,在实时运维工作中发挥了巨大作用,基本告别脚本运维的情况。和智能巡检体系有机结合,相互补充,形成完整的巡检运维体系。DBPaaS管理平台中对于单库的内容过多、过细,导致巡检困难,和一键巡检相关联,直观的体现了数据库整体状况,简化了运维流程,降低了运维难度。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服