数据中心机房动力环境监控系统设计探讨.docx

上传人:lao****ou 文档编号:288931 上传时间:2023-07-21 格式:DOCX 页数:18 大小:108.37KB
下载 相关 举报
数据中心机房动力环境监控系统设计探讨.docx_第1页
第1页 / 共18页
数据中心机房动力环境监控系统设计探讨.docx_第2页
第2页 / 共18页
数据中心机房动力环境监控系统设计探讨.docx_第3页
第3页 / 共18页
数据中心机房动力环境监控系统设计探讨.docx_第4页
第4页 / 共18页
数据中心机房动力环境监控系统设计探讨.docx_第5页
第5页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据中心机房动力环境监控系统设计探讨.docx》由会员分享,可在线阅读,更多相关《数据中心机房动力环境监控系统设计探讨.docx(18页珍藏版)》请在第一文库网上搜索。

1、数据中心机房动力环境监控系统设计探讨张双安科瑞电气股份有限公司上海嘉定201801摘要:结合银行数据中心建设项目,设计银行数据中心机房动力环境监控系统,分析银行数据中心机房监控对象、搭建系统监控架构,给出监控实现方法,*后针对运行一段时间出现的问题,提出优化措施和建议,对同类工程建设具有一定借鉴意义。关键词:数据中心;动环西空;系统架构;网络拓扑。引言银行数据中心机房的供配电和精密空调等基础设施多,而设备维护人力资源少,因此增加了基础设施运维人员工作强度和难度。为及时发现设备故障并处理,本文设计了动力环境监控系统,并针对运行中出现的主要问题给出优化措施。1系统监控对象银行数据中心机房动力环境监

2、控系统(以下简称为动环监控系统)的监控对象可分为三大类:第一是对设备动力系统实时工作状态进行监控,如供配电系统开关状态、UPS和柴油发电机等设备的运转参数和状态等;第二是对机房内运行环境进行监测与控制,如温度、湿度、漏水、氢气浓度及消防等;第三是对人员设备进出进行监控,如门禁、摄像头、防入侵等安全类设备。而机柜内服务器、交换机、加密机等安全或网络类硬件设备运行状态并未纳入,不在本文探讨范围。2系统架构设计2.1设计原则银行机房动环监控系统设计应遵循集中化、一体化、智能化的设计模式,采用高标准的监控系统设计原则,实现主动、高效、流程化的监控管理。(1)稳定性。动环监控系统作为机房基础设施管家,要

3、求24h不间断提供服务,这不仅依赖动环监控设备供电的稳定性,还依靠网络通信的可靠性。(2)安全性。动环监控系统信号采集回路应具备良好的保护机制,不会因采集回路故障而造成被监控基础设备误动作或故障,且系统应具备自检功能,在基础设施故障时能及时通过电话或短信等方式告知运维人员设备故障部位、故障性质等。(3)开放性。动环监控系统应符合开放式设计标准,预留多种对外接和兼容MoDBUS-TCP.OPCxOD-BCsBACNET等标准通信协议,以实现与第三方厂商设备数据的传输与交换。(4)可扩展性。动环监控系统应可扩容及易维护,以适应数据中心机房的扩容、监控设备增加等变动情形。2.2系统架构动环监控系统采

4、用计算机网络、现代通信技术和控制技术,对机房动力设备及环境等进行实时监控,实现无人值守机房的现代化管理。硬件上采用三层架构:底层为现场设备层,由被监控设备、工/。采集模块等构成;中间层为数据采集处理层,由各串口服务器、动环服务器、交换机等构成;顶层为数据应用层z由监控平台或客户端等终端构成。软件上采用B/S结构,在机房中通过安装各种传感器及数据采集设备进行底层数据采集,将所有子系统集成在统一的用户界面下,对各个子系统进行统一监视、控制和协调,从而构成统一的协同工作的整体。系统架构设计如图1所示。图1动环监控系统架构设计3系统实现3.1 工程概况数据中心主机房设置在6F,按功能细分为服务器机房一

5、、二、三,网络机房,配电间A、B;配电间重要断路器或开关、电量仪、UPS及防雷,主机房内新风机、精密空调及漏水检测、机柜PDU、温湿度、防入侵(红外线检测)需纳入动环监控系统。UPS蓄电池室设置在-2F,柴油发电机间设置在-1F,三电源切换室设置在1F,运维室设置在7F,消防气瓶间设置在8Fo动环监控系统的监控对象见表1。表1监控对象3.2 硬件构成动环监控系统由2台服务器(双机热备)、2台客户端PC机、监控大屏、核心交换机(A、B网)、视频汇聚交换机、门禁接入交换机、采集箱及串口服务器等构成。3.2.1 数据采集层核心设备采集箱负责开关量、温湿度等原始数据的采集,是整个监控系统的核心,采用深

6、圳计通机架式,大小为2U,可安装在机柜内,箱内采集模块通过端子排与被监控设备相连。串口服务器采用计通OAo-9OOOE嵌入式智能管理单元,该设备集数据采集、解析、存储告警于一体,具备正确故障定位能力,可满足不同厂家设备数据信号的接入与翻译。3.2.2 现场设备层现场设备层的设备分为需接协议转换器设备、需提供通信协议设备、模拟量直集模块和开关量直集模块四类。(1)需接协议转换器(串口服务器)的设备包括精密空调、漏水绳、机柜PDU、电量仪、UPS电源、蓄电池、柴油发电机。这些设备需相应厂家提供通信接口及其开放的通信协议,以便对各设备运行参数或状态进行监测。(2)需提供通信协议的设备包括视频监控和门

7、禁子系统。这些设备需相应的厂家提供通信协议,由动环监控系统进行集成和管理,能实现在动环监控端点击任意摄像头调出相应摄像头的实时监控画面和实现对任意门的开关控制。(3)模拟量直集模块。温湿度监测:通过在机房内的重要区域、冷热通道和机柜内部安装温湿度传感器,实时采集温湿度的变化情况和热力分布情况。氢气监测:通过在电池间安装氢气采集模块,可实时检测PPM值是否超标,及时发现氢气泄漏的电池隐患;当氢气PPM达到设定的阈值时,系统发出报警。(4)开关量直集模块。重要开关监测:通过监测配电柜内重要断路器的辅助触点状态,判断开关的通断状态;当监测的开关状态与设定默认状态不一致时,监控主系统发出报警。防雷监测

8、:通过监测防雷器的遥信触点,实时监测防雷器状态;当监测的防雷器状态与设定默认状态不一致时,监控主系统发出报警。新风排烟监控:通过在新风和排烟管道中安装压差开关检测压差信号,监测机房内新风机和排烟机的运行状态,可远程控制新风机的启停。防入侵监测:通过在机房内安装红外探头以监测机房内人员移动状态;当红外探测器的状态异常时,系统发出报警。消防监测:通过采集消防控制主机报警输出点的信号,实时监测机房内各分区的消防状态;一旦发生报警,系统就自动切换到相应的监控界面,火警状态图标变红且闪烁显示,同时产生报警事件并记录存储。3.2.3供电与组网动环监控系统硬件设备的供电需双路UPS电源,以确保供电可靠性,满

9、足24h不间断提供服务的要求;而且重要的硬件设备要求主从配置,如动环服务器具备双机热备功能,利用双监控系统双数据库模式,保证系统的不间断运行。动环监控系统硬件设备的组网要求A、B双网运行设备逐级汇接模式,网络设备由POE交换机、接入交换机、汇聚交换机、核心交换机组成。PoE交换机负责视频摄像机的供电和数据传输;接入交换机使用二层有V1AN功能的交换机,负责采集单元中数据收敛;汇聚交换机使用三层交换机,用于汇聚POE交换机数据,避免二层网络过大导致环路,也减轻了核心交换机的数据负担。动环监控系统的网络拓扑结构如图2所示图2网络拓扑结构图3.3软件平台动力环境集中监控平台软件采用B/S结构,通过在

10、机房中安装各种传感器及数据采集设备进行底层数据采集,外厂家设备需提供通信接口及其开放的通信协议,进行数据翻译处理,通过机房监控平台集中监控,全中文、图形化;界面结构层次清晰,实时反映数据状态。集中监控平台需要能运彳亍于中文Windows操作系统。动力环境集中监控平台软件采用模块化设计,可划分为采集层、处理层、管理层及展示层,如图3所示。其中,个人工作平台能提供动环监控主界面、告警事件列表、待办事项、告警等级统计、PUE实时曲线、基础设施分类饼状图等可自由选择的个性化定制界面。报表管理可根据机房管理原有报表格式生成详细的数据记录报表和数据分析报表,存储格式为EXCeI或PDF;数据存储时间需长于

11、1年,且具有防篡改功能。软件交互界面中,动环监控模块可直观看到各个机房实时运行状态,设置机房名称、设备图标等超链接可直达各子界面,通过温湿度监测、门禁、视频监控、温度场、漏水监测、红外监测、消防监测等按钮可直达各分画面,并提供基于电子地图、实时曲线、饼状图、折线图、直方图等多形式数据展现方式,便于运维人员分析设备历史运行趋势,以判断设备状况。展示层(PC客户端3D可视端移动客户端(嬴卜人工作平W(消息中心管理层y-容量管理能量管理处理层(集中数据处理)(集中事件处理)(集中联动处理采集层(模拟量直采(数字量直采视频与门禁)(各厂家数据图3动力环境集中监控平台软件架构图系统告警采取短信、电话、现

12、场语音三种报警结合的方式,报警等级分为紧急、重要、一般三个层次,不同级别的报警采用不同报警方式实现报警信息的发送。无论系统处于任何画面,都可自动提示告警,显示告警信息。当一个报警状态解除时,系统可自动发送相应的恢复短信,以便机房管理人员随时掌握相关动态。4系统运行中的问题及优化措施4.1 常见问题动环监控系统运行以来,出现过监控平台数据不刷新,监控平台电脑假死,采集数据不准确,系统告警漏报、误报、频发(告警信号抖动)及延迟报警问题。(1)监控平台数据不刷新。这种情况在实际运维工作中*常见,整个监控平台软件数据不刷新或系统中某设备数据不刷新,导致运维人员无法收到告警信息。(2)采集数据不准确。这

13、种情况主要体现在监控画面显示的数据与现场设备实际运行数据不符,若画面显示的数据超过告警的阈值就有可能造成系统误告警或不告警,影响设备的运行安全。如智能仪表部分测点值与系统显示值不一致或单位不同,将导致该设备失去监控。在冷热通道温度检测过程中,监控软件显示的数值超过告警上限阈值引发告警,而运维人员现场检杳后并未超限,造成人力资源的浪费。(3)实时告警问题。动环监控系统告警漏报、误报、频发、延迟报警及告警信号抖动等问题是困扰数据中心运维工作人员的严重问题。数据中心运维值班人员724h应急值班,告警信息误报、频发将给人员造成很严重的身体伤害;而告警信息的漏报与延迟将导致设备出现故障时未能及时通知从而

14、导致更严重的机房事故。告警漏报:告警漏报主要原因是告警级别设置过低或设备通信中断或设备信息采集故障等导致重要告警信息缺失,未能及时上报运维人员,从而错失重要告警信息,将导致严重后果。告警误报:告警误报是衡量动环监控系统可用性的重要指标,采集装置受到电磁干扰或周围环境改变、协议解析有误、采集装置故障、仪表故障、板卡端口故障等均会引起误报,如精密空调四周部署的漏水绳因灰尘或沙土等导致电阻增大从而引起误报。告警频发:告警频发类似于信息轰炸,可分为两种情况:一是同一告警信息频繁多次报送给运维人员,原因是当某一测点触发告警时,采集值在告警阈值附近来回波动;二是同一事件触发机房多个动力设备同时告警,如机房

15、停电或闪停后恢复,各相应重要开关、电量仪、UPS、机柜PDU等多设备引起的电话短信轰炸。告警延迟:告警信息是否及时上报给运维人员是考验监控系统是否合格的重要指标之-,而上报时间应设置为用户可选项,如电力闪断立即恢复的情形,可设置一定延时;而重要信息应能在15s内完成上报。4.2 优化措施(1)监控平台数据不刷新问题的解决。运维人员需熟知动环监控系统架构和网络拓扑,从单点设备故障到网络故障进行排除,对重要设备必要时可优化系统结构或网络拓扑,对采集设备或装置进行冗余备份,或对重要监控对象通信采用A、B双网通信。(2)采集数据准确性问题的解决。检查智能仪表装置或第三方设备的通信协议是否准确,与原厂家

16、技术支持核实设备协议文本正确性,如更换智能仪表未核对通信协议,将导致数据不准确或无法采集。检查通信故障,首先检查物理连接是否存在问题,然后对通信配置进行检查,重点检查波特率、校验位、串口的设置等是否存在问题。检查采集装置或采集箱等设备、温湿度探测器等硬件自身是否存在故障,排除设备硬件故障导致数据采集不准确的问题。(3)实时告警问题的优化。首先严格控制智能设备串接数量,避免串接设备数量过多引起数据上传缓慢,进而导致告警延迟。合理配置FSU扫描时间,通过调整动环设备扫描周期来缩短采集装置对各个测点的问询时间,以提高采集速度。其次合理选择设备测点,对重要测点进行合理选择和优化,避免扫描过多的测点造成采集器负担过重,进而影响采集

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 应用文档 > 汇报材料

copyright@ 2008-2022 001doc.com网站版权所有   

经营许可证编号:宁ICP备2022001085号

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



客服