《酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议.docx》由会员分享,可在线阅读,更多相关《酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议.docx(22页珍藏版)》请在第一文库网上搜索。
1、酒钢数据中心智能运维管理系统平台建设零固项目采购技术协议甲方:酒泉钢铁(集团)有限责任公司信息自动化分公司代表(签字盖章):乙方:XXX代表(签字盖章):2023年月日一、总体要求酒泉钢铁(集团)有限责任公司信息自动化分公司(以下称甲方)与XXX(以下称乙方)就酒钢数据中心智能运维管理系统平台建设零固项目(以下称运维监控平台),经双方技术交流、现场勘查及协商,达成如下技术协议:本技术协议作为甲方服务采购合同的附件,与采购合同同时生效,具有同等法律效力。合同执行期间双方再协商形成的补充协议和追加条款也具有同等法律效力。1.1 本技术协议所提出的是最低标准的技术要求,并未对一切技术细节做出规定,也
2、未充分引述有关标准和规范的条文,乙方应保证提供符合有关标准和技术文件的优质产品。1.2 乙方提供服务包含的设备和软件必须为最新的正版产品,具有国内同行业近几年内的先进制造水平,采用先进工艺、合格材料、成熟的技术或专利技术。1.3 乙方没有以书面形式对本协议的条文提出异议,则意味着乙方提供的产品完全符合本协议书的要求。1.4 乙方提供服务包含的设备和软件的制造,都应按照国内外通用的现行标准和相应的技术规范执行,而这些标准和技术规范应为合同签字日为止最新公布发文的标准和技术规范。1.5 本协议所使用的标准如遇与供方所执行的标准不一致时,按较高标准执行。1.6 乙方在服务过程中,发生侵犯专利的行为时
3、其侵权责任与甲方无关。二、建设内容为满足酒钢集团数据中心机房及指挥中心机房运维监控应用管理技术需求,建设运维监控平台,至少满足250台服务器、10台存储、10台光纤交换机、600套操作系统、146套数据库、80套中间件、4套云平台、100套容器及重点应用系统的智能监控,本次完成对数据中心机房及指挥中心机房现有信息自动化分公司维护范围内各类软硬件系统的智能监控及平台各功能的实现。平台功能包括监控管理、告警管理、流程管理、资源管理、自动化巡检、知识库管理、系统用户权限管理、报表管理、大屏展示、APP等功能。三、运维监控平台功能要求3.1 基础监控管理功能运维监控平台要求具备监控机房、网络、计算、存
4、储、虚拟化、容器、云资源、操作系统、数据库、中间件等所有IT基础架构的功能,持续优化应用可用性,实现资源的统一管理。1. 1.1服务器监控要求运维监控平台要求可对各个品牌小型机、各种架构服务器硬件状态、硬件性能数据进行监控,并具备自动巡检功能。通过带外管理端口直接对服务器硬件的监控,服务器监控要求不在每台服务器上安装代理软件或服务器厂家的管理软件,实现与操作系统的无关性。能对IBM、HP、DE11、华为、联想、浪潮等各品牌的机架服务器的硬件状态进行监测。运维监控平台要求支持通过IPM1SNMP和RESTfU1协议带外方式对主流厂商服务器进行硬件层面的精细化管理,包括服务器序列号、硬件型号、产品
5、ID、风扇状态/风速、温度、电源功率/状态/模式、处理器状态/缓存/速度、内存大小/状态/频率、网卡状态相关信息的监控。同时支持服务器硬件系统事件的采集,包括硬件错误事件,并支持将服务器系统事件转换为运维平台的告警信息。监控内容包括但不限于:团物理机信息,包括电源数量,额定功率,实时功率。风扇数量,状态,转数。传感器数量,传感器状态,读数。团BMC模块信息,包括槽位号,管理网口IP,子网掩码,默认网关。团刀片机信息,包括CPU数量配置,内存数量配置,磁盘数量配置,光纤卡数量配置。团支持对物理机的监控数据进行实时监控展示。团支持对物理机的状态和性能数据进行告警。团支持对物理机的耗电进行统计分析。
6、3. 1.2存储监控要求运维监控平台要求支持对主流存储厂商的存储设备进行监控,可通过SMI-S协议、SNMP协议或者RESTfU1协议,支持对IBM、HP、DE11、EMC、H3CHitachiNetApp、华为、浪潮等各品牌的磁盘阵列、磁带库等存储设备的硬件状态、存储控制器、磁盘IO等性能数据进行监测。监测范围包括:存储池、存储卷、1UN、端口、电源、风扇、控制器、存储容量、存储性能、告警日志等。监控内容包括但不限于:日支持展示纳管存储设备数量,总存储,总分配存储,总带宽和峰值,光纤端口输入输出当前值和峰值,SAS端口输入输出当前值和峰值,耗电量统计。团支持采集和展示存储设备的资源名称、IP
7、、厂商、型号、所在机房、总存储容量、己分配存储容量、槽位数、电源数、风扇数等。团支持采集和展示存储设备的CPU、光纤端口、SAS端口、电源功率功耗、读写缓存、读写速度、卷读写速度、磁盘读写速率等。团支持采集和展示存储设备的卷信息,包括卷名称、状态、池、唯一标识、主机映射、容量等。团支持采集和展示存储设备的主机卷信息,包括卷名称、状态、池、唯一标识、容量等。团支持采集和展示存储设备的电源数量,额定功率,实时功率。风扇数量,状态。传感器数量,传感器状态。团支持采集和展示存储设备的驱动器槽位信息,包括槽位号、端口1状态、端口2状态、当前驱动、驱动器ID等。目支持采集和展示存储设备的光纤端口信息,包括
8、端口ID、类型、端口速率、节点名称、端口WWPN标识、节点端口、状态、依附于、适配器位置、适配器端口ID等。团支持采集和展示存储设备的SAS端口信息,包括端口ID、端口速率、节点名称、端口WWPN标识、状态、SWitChWWPN标识、依附于、类型、适配器位置、适配器端口ID等。团支持对存储设备的光纤端口、SAS端口的出入速率、设备耗电进行统计分析。团支持对存储设备的状态和性能数据进行告警。回光纤交换机参照网络交换机进行数据采集,支持对状态和性能数据进行告警。4. 1.3虚拟化监控要求运维监控平台要求支持对虚拟化设备的监控管理,包括VMware.HyperV.H3C、华为等主流虚拟化厂商。可对虚
9、拟化软件管理的数据中心、集群、宿主机、虚拟机、虚拟交换机等各个部件的状态进行监控,也可对各部件的CPU、内存、磁盘等资源使用,以及接口流量、磁盘I/O等性能数据监控。5. 1.4操作系统监控要求运维监控平台要求支持对多种主机操作系统的管理,提供应用主机整体负载情况的监测,包括CPU负载,内存与虚拟内存利用率,主机网络会话数量、源与目的及流量信息,各个物理网络接口流量信息,设备连续运行时间等;支持应用主机各文件系统的磁盘空间大小、利用率、剩余空间,磁盘增长率的管理;提供应用主机上关键进程的运行状况及其对CPU和内存占用情况的管理等。主机监控的进程down可主动发送告警通知监控人员。运维监控平台要
10、求具备监控操作系统进程状态的功能,包括监控操作系统进程的新建态、终止态,运行态,就绪态,阻塞态等变化,同时记录进程的启停时间,具备编辑进程组的功能,可以新增、删除一个进程组,可以将多个进程添加到进程组中,每个进程在进程管理中维护,可以配置进程组中多个进程的执行间隔,对于进程组,可以配置批量启停脚本,也可以使用每个进程的启停脚本。提供进程组列表展示的功能,可以按照所属系统集中展示系统中管理的进程组,同时显示进程组属性信息修改时间、启停时间、当前状态。可按照进程组名称、所属系统、运行主机、进程关键字对任务进行查询。运维监控平台要求具备常见操作系统的监控管理,包括WindoWs、AIX.IBMAS4
11、00/iSeries、FreeBSDOpenBSD1inuxMacOS等,同时支持对国产操作系统如麒麟、统信等的监管。监控内容包括但不限于:团操作系统主机CPU性能(5分钟、小时、日、周)团操作系统主机内存性能(5分钟、小时、日、周)回操作系统主机磁盘性能(日、周)团操作系统主机接口流量性能(5分钟、小时、日、周)团操作系统主机文件系统管理(5分钟、小时、日、周)目操作系统主机CPU峰值分析(小时/日)团操作系统主机I/O性能统计(小时/日)团操作系统主机可用性:1-(DOWN机时长)(24*60)。团操作系统主机CPU时间空闲百分比:CPU空闲时间量占CPU时间总量的百分比的值。团操作系统主
12、机CPU时间系统百分比:CPU在系统相关任务上所用的时间量并报告它所占CPU时间总量的百分比值。团操作系统主机CPU时间用户百分比:用户任务所占用CPU时间量占CPU时间总量的百分比。向操作系统主机CPU时间等待百分比:CPU等待I/O等待所占用CPU时间量占CPU时间总量的百分比。团操作系统主机CPU使用率:1CPU空闲时间量占CPU时间总量的百分比的值。团操作系统主机CPU运行队列中进程个数。回操作系统主机平均CPU利用率:基于用户需采集的关键主机的“CPU利用率”指标,I-(CPU空闲时间量占CPU时间总量的比值),取该指标在1小时之内所有采样值的平均值。团操作系统主机最大CPU利用率:
13、基于用户需采集的关键主机的“CPU利用率”指标,取该指标在1小时之内所有采样值的最大值。团操作系统主机内存的使用率:主机内存的使用量与内存总量的比值。回操作系统主机内存交换请求数:Pagerequest(包括pagein&out)操作的数量。向操作系统主机内存交换页换进率。团操作系统主机内存交换页换出率。团操作系统主机等待页操作的进程数量。回操作系统主机系统内存使用率:系统内存占所有物理内存的百分比。团操作系统主机用户内存使用率:用户内存占所有物理内存的百分比。目操作系统主机平均内存利用率:基于用户需采集的关键主机的”内存利用率”指标,主机内存的使用量与内存总量的比值,取该指标在1小时之类所有
14、采样值的平均值。团操作系统主机最大内存利用率:基于用户需采集的关键主机的”内存利用率”指标,取该指标在1小时之内所有采样值的最大值。团操作系统文件系统数据缓冲命中率:文件系统数据缓冲命中率。回操作系统主机磁盘物理IO操作速率:磁盘物理IO操作速率(秒)。团操作系统主机平均磁盘请求数量:单位时间内平均磁盘请求数量。团操作系统主机磁盘忙的百分比:磁盘读写的时间占用总时间的百分比。向操作系统主机每秒磁盘读请求:每秒磁盘读请求字节数。团操作系统主机每秒磁盘写请求:每秒磁盘写请求字节数。团操作系统主机磁盘访问平均等待时间:磁盘访问平均等待时间(毫秒)。团操作系统主机等待I/O进程线程数:等待系统I/O(
15、disk、inode、cache.CDFS等)的进程和线程数。团操作系统文件系统使用比率:文件系统已使用的空间与总空间的比值。团操作系统交换区使用百分比:交换区使用百分比。回操作系统逻辑卷(裸设备)文件系统使用率:各逻辑卷上文件系统的使用率。团操作系统告警日志。3.1.5数据库监控要求运维监控平台要求支持对各种数据库的管理,提供各种数据库可用性和性能的整体监控,包括数据库连接信息、数据库明细、表空间,数据库大小、缓存性能、内存、读、写、I/O状态、SQ1统计、锁、告警日志等等。支持的数据库包括:Orac1e(8i9iIOgZI1g及以上,RAC).MySQ1(5.0及以上)、SQ1Server(2000SP4/2005/2008/2012及以上)、IBMDB2(10.x以上)、PoStgreSQ1(9.3.1及以上)、达梦数据库、金仓数据库、南大通用数据库、Redis、MongoDB.MemCachedcache、Informix、SAPHANASybaSe等O监控内容包括但不限于:团提供对所支持数据库数据的采集。团提供对所支持数据库的状态和性能告警,如缓存命中率,表空间利用率,查询的速率、数据库状态等。团支持对所支持数据库的运行情况、服务提供情况、性能情况进行实时监控。主要包括数据库实例基本信息、连接信息、Sga/Pga区配置、锁、缓冲区命中率