T/CECS761-2020 数据中心运行维护与管理标准及条文说明.pdf

T/CECS761-2020 数据中心运行维护与管理标准及条文说明.pdf
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:17.7 M
标准类别:建筑工业标准
资源ID:243669
下载资源

标准规范下载简介

T/CECS761-2020 数据中心运行维护与管理标准及条文说明.pdf

5.6.17数据中心应对新入职的人员进行安全培训;对运行维护 人员应每2年进行不少于1次的安全培训与考核以及保密教育与 考核。

足安全运行、过程管理和可持续改进的要求。运行维护人员宜参 加数据中心建设期间的质量管理

5.7.2数据中心应制定运行维护的质量管理目标及质量保障计

制度JJF 1995-2022 电子式互感器校验仪校准规范.pdf,监督和检查运行维护服务工作的质量,制定量化考核管理 指标,改进和完善运行维护的服务质量和效率

制,质量管理应贯穿运行维护全生命周期,并应通过测试、验 证、定期巡检、预防性维护、演练等方式对运行维护的质量进行 控制和提升

5.7.5运行维护部门应在数据中心工程竣工验收前组

,完成技术文档的检查和接收。测试验证的内容应包括单 系统测试验证、系统联调测试验证、带载测试验证和故障 证。测试验证可由第三方检测评估机构完成

运行维护部门在投产接管时应明确工作范围、界面划分

5.7.7A级数据中心应安排24h运行维护值班,每日每个班次 现场巡检次数不应少于1次。消防和安全防范系统应24h保持正 常工作状态,不得随意中断。

5.7.8 数据中心应按照日、月、季、年的时间要求

间、服务质量和服务人员的能力进行评估

6.0.4应急管理机构的工作人员应包括管理、运行维护、后勤、

6.0.5数据中心应建立应急人员保障机制,确保应急

审核和批准。应制定应急预案的管理和使用制度,指定和明确应 急预案的存放位置和保管人。 6.0.12应急演练应包括应急预案的培训、制定应急演练计划 实施应急演练、记录演练过程、评估演练效果。 5.0.13演练形式应分为桌面演练、模拟演练、实战演练。每年 的桌面演练和模拟演练应覆盖所有的应急预案,对基础设施重要 系统的实战应急演练每年不应少于1次,实战演练宜每3年覆盖 所有应急预案的场景

7.0.1数据中心应建立运行和维护的成本与能效管理系统,开 宜建立电子化管理平台。运行和维护的成本与能效管理应贯穿数 据中心运行和维护的全生命周期

.2容量管理应统计已用容量,开计算可用容量与已用 差,包括电力容量、制冷容量、空间容量,宜包括网络端 宽及电子信息设备的处理能力。

包括资产分类方法和资产档案,操作流程应包括采购、入库、领 用、维修、调拨、折旧和报废。管理的资产应有唯一标识,宜采 用电子标签

7.0.4数据中心应建立资产定期盘点制度,每年宜盘点2次,

7.0.5运行和维护的成本管理应记录数据中心运行和

发生的各类费用。运行和维护的成本宜包括建筑物和设备的折旧 或租金、能源费用、网络通信费用、维修和耗材费用、改造费 用、管理费用、保险费用、税费和财务费用等。

7.0.7能效管理系统应包括能耗的采集、分析、评估

管理对象应包括所有能耗设备。能效管理应覆盖数据中 中涉及的所有能源

能利用效率和水利用效率,能耗采集应采用自动化监控 测点应满足能效采集和计量的要求,计算时间应以1年

周期。 7.0.9能效管理系统应对采集和计量的能耗数据进行统计和分 析,形成能耗分析和评价报告。能源使用效率可自行评估,也可 由第三方机构进行评估。数据中心应每年召开1次能效状况分析 会,落实能效改进和优化措施。

1为便于在执行本标准条文时区别对待,对要求严格程度 不同的用词说明如下: 1)表示很严格,非这样做不可的: 正面词采用“必须”,反面词采用“严禁”; 2)表示严格,在正常情况下均应这样做的: 正面词采用“应”,反面词采用“不应”或“不得”; 3)表示允许稍有选择,在条件许可时首先应这样做的: 正面词采用“宜”,反面词采用“不宜”; 4)表示有选择,在一定条件下可以这样做的,采用 “可”。 2条文中指明应按其他有关标准执行的写法为:“应符 合………·的规定”或“应按………执行”。

《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

《数据中心设计规范》GB50174 《数据中心基础设施运行维护标准》GB/T51314

中国工程建设标准化协会标准

中国工程建设标准化协会标准

数据中心运行维护与管理标准

故障包括基础设施和IT设备故障;软件故障包括操作系统、应 用和开发类产品故障;服务请求包括业务操作、咨询和其他服务 请求。

4.0.1经营模式是指数据中心定位是自用、外包还是部分外包 方式;管理模式是指集中式管理还是分散式管理;业务模式是指 数据中心是用于生产、灾备还是研发测试。数据中心组织架构宜 包括:基础设施运维部、电子信息系统运维部、监控中心、安全 管理部、客户服务部、行政管理等部门,也可以根据各自的运行 要求设置符合数据中心运行要求的部门。 4.0.2数据中心运行、维护和管理岗位包括下列职位,并承担 相应的职责: 1电子信息系统运行岗位:监控服务器和网络等业务设备 和系统的运行状态,并进行现场操作; 2电子信息系统运维岗位:承担服务器和网络等业务设备 和系统的运行维护工作; 3基础设施运行岗位:监控基础设施的运行状态,并进行 现场操作; 4基础设施运维岗位:承担数据中心基础设施运行维护 工作; 5安全与质量控制岗位:承担数据中心安全检查和质量控 制工作; 6综合管理岗位:承担数据中心人力资源、行政和后勤等 日常工作;

包运行维护、部分外包运行维护模式: 1自主运行维护模式:所有运行维护团队和人员均为

中心自有人员,日常运行维护自主实施; 2全外包运行维护模式:由外包服务商提供全部运行维护 服务团队和人员,承担数据中心的运行维护,数据中心只保留少 量运维管理人员对外包服务商进行服务监管; 3部分外包运行维护模式:将部分运行维护岗位外包,或 将部分设施或系统的运行维护进行外包。 4.0.5对于人员资格的确认,可以采用多种方式,包括相关机

培训,可以采用内部培训,也可以采用外部培训的方式。运行维 护人员在新设施和设备投产前或在变更岗位前,应参加相应的岗 前培训。

4.0.10人员绩效考核包括安全运行状况、岗位纪律、

5.1.1工作计划宜按照年、季、月度制定,一般包括业务发展

5.1.1工作计划宜按照年、季、月度制定,一般包括业务发展 计划,员工业务技能培训计划,产品投产、变更、巡检、预防性 维护、系统升级改造计划等。工作计划和任务书应在审核和批准 后执行。

5.1.2计划与任务管理是一个编制计划、执行计划、检

5.1.4通过对服务请求的分类,规范服务

服务请求的处理次序,调度相应的资源,加快服务处理的时效和 提升服务质量,同时有助于对各类服务请求进行统计、分析和 管理。

5.3.4当发生下列2类留置问题时,可关闭此问题

1发生的某个问题在规定的时间内虽未查明原因,但该问 题再未发生。 2问题虽已查明原因,但无法解决,或解决问题的成本大 于问题对运行造成的影响,权衡利后可接受该问题

5.4.1紧急变更是解决突发的运行故障、排除重

5.4.1紧急变更是解决突发的运行故障、排除重大生产隐患或 因紧急原因无法提前安排而需紧急实施的生产变更;例行变更是 常规的已知定期维护,且技术成熟、对运行无影响或影响可控的 变更;标准变更在变更实施时会影响生产运行,部分变更请求需 要用户的配合,变更需要根据数据中心实际的运行状态进行排 期,选择合理的时间实施的变更,降低变更的风险和对运行的 影响。

5.4.2紧急变更需要设立授权机制,工作时间应

方式,事后补办审批手续;例行变更可采用定期预批准的方式, 集中审核、审批;标准变更可采用一请求、一批准的方式,也可 定期或不定期召开变更审批会,审批多个变更请求

5.5.2外部文件是指来自政府、行业或上级主管部门下发的文 件,包括各类决定、通知、标准等;内部文件是指数据中心内部 为运行维护管理发布的各类文件。工作文件是数据中心为各部门 运行维护管理建立的实施细则,包括各种规章制度、机构设置 人员任用、岗位职责、工作程序等。技术文件包括国家标准、行 业标准、设备资料、产品图纸、生产流程、过程控制文件等

业标准、设备资料、产品图纸、生产流程、过程控制文件等, 5.5.3一级文件为整体策略的纲领性文件,反映数据中心的基 本管理策略、规章、方针,为所有下级文件的编写指南。 二级文件为程序文件,为开展某项具体运行维护活动所规定 的途径或方法,是针对某项具体运行维护活动的专门规定,是该 项活动的操作指引。程序文件的内容一般包括制定本程序的目 的、本程序适用的工作范围和发放范围、本程序的主要责任者的 职责和权限,以及规定配合团队的职责和权限职责、程序内容和 要求的描述。 三级文件为作业指导书或操作手册,描述特定运行维护活动 的具体操作步骤和方法,用于指导日常操作。三级文件应包括标 准操作流程、维护操作流程和应急操作流程的内容。作业指导书 的内容包括使用对象、相关职责、需要的资源和要求、操作步骤 及需要的记录等。 四级文件是上面几级文件执行后产生的记录。记录作为运行 维护活动持续进行的证据,应防止未经授权的修改并规定记录的 保存期,

5.5.5文件的密级可规定为“公开”“内部使用”

的完好性;对电子文件应通过阅读设备验证文件的完好性,必要 时需要进行修复、备份和转录,

对过期的文件做回收和废止处理。纸质文件废止时应有 只,并统一回收保存,如果需要销毁,应用碎纸机进行销 文件座止时应在由子文件上打上废止标然

5.5.9对过期的文件做回收和废止处理。纸质文件

废止标识,并统一回收保存,如果需要销毁,应用碎纸机进行销 毁:电子文件废止时应在电子文件上打上废止标签。

安全访问的权限、出人控制和安全管理制度等。

5.6.3数据中心安全防范系统包括视频安防监控、入侵报警、

出入口控制、电子巡查等,各系统之间应具备联动控制功能。对 设置安检机和手持金属扫描仪的数据中心,应增加对进出人员和 物品的检查。

5.6.5人身应急保护器材包括空气呼吸器或氧气呼

人员的防爆、防袭击器材等;消防系统包括火灾探测、报警、火 火、疏散通道、疏散指示灯、门禁与消防的联动、应急照明等。

5.6.8访问权限包括进出不同安全区域的门禁权限和访问相关

系统操作的权限。有效身份识别方式包括门禁卡、指纹、掌纹、 人脸识别、身份证、临时通行证等。对未授权但有需要进人安全 区域的人员需要提出申请并通过审批,审批通过后由门卫核对放 行,进入前在门卫处登记备案,注明日期、时间和进入原因,进 人数据中心需要由内部本区域访问权限的人员全程陪同。

5.6.11物品可按危险品、机电设备、安防设备、IT设

品,如油料、燃气、氧气、乙炔等;机电设备包括配电设备、蓄 电池、空调设备、电梯、送排风设备、给水排水设备;安防设备 包括门禁、摄像、监控、消防等设备;IT设备包括服务器、存 诸、网络设备等:耗材和备件包括过滤器、润滑油、除菌药、制 冷剂、皮带、磁盘、板卡等;操作和维修设备包括仪器仪表、电 脑、工具、材料等。危险品申请表应包括危险品的种类、数量、 用途、使用部门、使用区域等

5.6.13有风险的操作包括电力系统倒闸、双路电源切换、发电

5.6.17对新入职人员的培训包括安全教育、制度

岗位技能培训、安全操作、应急处置等内容,对运行维护人员的 培训包括宣讲安全威胁、行业安全事故、运行维护管理最佳实 践、施工安全、相关制度或标准、急救知识等。

5.7.1运行维护质量管理体系应体现在数据中心运行的全过程

中,不断优化和改进数据中心各系统的运行维护质量,确保各系 统安全稳定地运行,并通过流程优化,提升运行维护服务效率和 用户满意度。运行维护人员参加设计、施工等建设期间的质量管 理,有利于数据中心投产后的运行维护

5.7.2数据中心应根据服务内容制定运行维护的质量管

管理目标应包括系统稳定运行的可用性、服务响应和解决时效 应急保障的能力、服务等级协议、运行成本控制、能效等指标 保障能力包括供配电、通信、空调、消防、安防等系统的能力和 服务质量;对自用数据中心还应满足网络、IT设备和运行系统 的保障能力和服务质量。质量保障计划是保证质量管理目标实现 的重要手段,应围绕质量管理目标制定保障计划。保障计划包括 数据中心的组织架构、职责、管理权限、工作制度、流程和质量 指标等。

..质量官 任力 工单、巡检、维护保养、故障处理、变更等工作的过程记录,审 核和审批记录等,所有记录应可追溯。制定可量化、可考核的运 行维护质量管理指标可以提升运行维护的效率及衡量服务质量的 水平。管理层应定期召开运行维护质量分析会,找出存在的主要 问题并提出改进建议,组织实施改进,并对改进后的质量进行验 证,对改进的结果进行总结,形成报告,修改和完善相应的文件 和技术手册,落实改进和优化的措施

风险控制。在线维护的质量管理包括现场巡检、远程监控、参数 调整、切换操作、故障演习等,提前发现系统潜在问题和不足 实施必要的运行模式和参数调整,确保系统持续运行在一个可 靠、稳定和良好的工作状态。离线维护的质量管理包括提前对设 备进行预防性维护和保养,以及对运行中发现的问题及时解决, 确保系统中的所有设备保持良好状态。风险控制的质量管理是通 过主动查找、提前预防、过程控制、应急预案、应急演习等全过 程控制,提前规避和控制可能出现的问题和风险,杜绝运营事故 的发生。

5.7.5单机或单系统测试验证包括高低压配电、空调、弱电、

5.7.5单机或单系统测试验证包

消防等设备或系统的开机和单机运行;系统联调测试验证包括高 低压配电、发电机、UPS、消防、空调、动力环境监控、智能化 等系统的联合运行;带载测试验证是通过加载模拟负载,测试验 证系统在不同负载条件下的性能和持续正常运行的能力;故障模 拟验证是通过模拟配电、UPS、空调、消防等系统可能出现的故 障场景,验证系统的几余或容错能力。 技术文档包括规划和设计资料、施工工图、设备清单和采 购合同、设备出厂技术说明书、操作手册、维护手册、各系统设 计说明、验收测试文档、报审资料、质保期各厂商联络方式和技 术支持人员的信息等。

的分工及数据中心各部门之间的分工。与外部的分工界面包括供 电、供水、消防、安防、网络运营商等的分工界面和职责,内部 分工界面包括供电、供水、空调、消防、安防、监控、网络等各 部门的维护界面和相应的职责。

运行状况及性能做健康性检查和评估。通过自动监控系统和现场 巡视、预防性维护,主动查找、发现和解决设备和系统的故障和 隐患。健康检查、维护保养以及评估工作可由数据中心自行完 成,也可请第三方机构实施 1日巡检主要由基础设施监控和操作人员在线检查并记录 基础设施的运行数据,包括运行环境、设备外观、指示灯、运行 状态、电压、电流、水压、漏水、温湿度、消防钢瓶气压等; 2月度检查主要由基础设施运维工程师在线检查和记录设 备的运行参数、容量、设定值、日志、历史记录,形成月度的检 查分析报告,对处于冷备的设备(如发电机、空调等)可进行离 线检查,也可与设备厂商技术人员联合检查; 3季度检查包含月度检查的内容,增加电池充放电性能检 查等内容; 4年度健康检查与预防性维护主要由设备或系统厂商的技 术人员实施,数据中心运维工程师配合做好检查计划、准备耗材 和备品备件,以离线方式检查设备的性能是否达到要求,部件是 否需要维护或更换,做好检查和维护保养记录,出具年度检查和 维护保养的报告; 5自用数据中心还应包括网络、IT设备和运行系统的健康 检杏

寸间保持均衡;故障切换与恢复操作是将线上运行的设备 下维护,维护完成之后再转为线上运行;系统运行参数和

模式调优操作是对不同负载、不同季节进行系统运行参数和运行 模式的调整,保持系统运行在安全、节能、高效的工作状态。系 统运行参数和运行模式调优应贯穿数据中心运行生命周期的全 过程。

5.7.11在数据中心改建和扩建期间,应确保正在运行的设备和

5.7.11在数据中心改建和扩建期间,应确保正在运行

5.7.11在数据中心改建和

括:负责应急处置人员通信联络保障、交通和食宿安排,负责应 急处置场所的安保,建立与公安和消防的应急联动机制,负责数 据中心外部的供电、供水、供油、供气、供暖、通信等事宜的沟 通与协调。

以恢复到的时间点。这2个目标应体现在服务水平协议或服务质 量的考核指标中。

定;应急预案存放应按照就近的原则,宜在监控中心、设备安装 地存放,便于应急预案处置时迅速阅读。应加强应急预案版本管 理、分发和回收。定期对各类应急预案进行清理、归档和修订 在每次修订后所有拷贝统一更新,除满足日常使用外,应保留 套存档以备查阅和复制,原分发的旧版本应收回和销毁。

6.0.12数据中心需要定期组织应急预案的教育和培训

关人员熟知预案,培训后应保留培训的记录。通过演练验证应急 预案的可行性,促进相关人员掌握应急预案中所规定的职责和程 序,检验指挥决策和协同配合能力,提高指挥、运维和保障人员 应急处置的能力。应全面记录演练过程,形成演练报告,提出改 进意见。演练完成后,需要对演练的组织、过程、效果进行评 古,演练的评估包括:应急预案的有效性和可用性;演练结果与 演练目标的差距;演练过程中发现的问题;演练工作的组织;参 演人员的应急能力;应急资源的协调和保障能力;形成应急演练 的总结报告

6.0.13桌面演练是组织相关人员,以会议形式模

景,集中讨论应急响应和恢复流程中的管理与指挥协调,验证应 急预案是否满足要求;模拟演练是模拟应急场景,利用备份系统 买施应急预案模拟操作,模拟演练不应影响系统的正常运行;实 战演练是模拟真实场景,对正在运行系统制造故障,按照应急预 案完成系统切换或业务恢复,在演练完成后需进行系统的回切和

恢复。基础设施重要系统主要是指影响数据中心运行的供电、柴 油发电机、UPS、空调系统等,如双路市电切换、柴油发电机带 IT负载、UPS电池带载、空调系统切换等。 6.0.14评估的主要内容是风险识别和分析及控制措施的有效 性、应急预案的完备性、应急演练的全面性和及时性,及时发现 新的风险,改进风险控制措施,完善应急预案,形成风险防范措 施的持续改进

7.0.1运维成本和能效管理系统一般包括容量管理、资产管理、 成本管理和能效管理。建立电子化管理平台和采集工具,记录空 间、电力和冷源的使用状态,设置容量的预警阈值,实现智能化 的运行容量、使用率、剩余容量监测和统计分析。 7.0.2数据中心通过容量管理实现对数据中心运行容量的预测 科学精准地规划数据中心的扩容和发展。电力容量应计量和计算 用电负荷率,包括变压器、动力设备、照明、UPS、列头柜和每 个机柜的电力容量使用情况。制冷容量可计量总制冷量和耗冷 量。空间容量应可测量和计算总空间容量、区域空间容量、机柜 空间容量。

7.0.1运维成本和能效管理系统一般包括容量管理、资产管理、 成本管理和能效管理。建立电子化管理平台和采集工具,记录空 间、电力和冷源的使用状态,设置容量的预警阈值,实现智能化 的运行容量、使用率、剩余容量监测和统计分析。 7.0.2数据中心通过容量管理实现对数据中心运行容量的预测

学精准地规划数据中心的扩容和发展。电力容量应计量和 电负荷率,包括变压器、动力设备、照明、UPS、列头柜 机柜的电力容量使用情况。制冷容量可计量总制冷量和 、空间容量应可测量和计算总空间容量、区域空间容量、 间容量。

号分为四级,也可以按照自身运营的特点制定资产管理的分类方 法。资产档案包括下列信息: 1基本信息:资产名称、资产的识别码、制造商和技术参 数等; 2采购信息:采购合同、采购时间和入库时间等; 3使用信息:出库时间GB50336-2018 建筑中水设计标准,资产的管理人、使用人和维护人 资产用于什么系统和物理位置,资产的关联属性等; 4维护信息:维护保养的记录、维修的记录、维保到期时 间、外包维护商的信息等; 5资产状态:在库、在线运行、借用或调拨、报废等; 6报废信息:折旧年限、预期寿命、报废申请和核批、报 发时间、报废的处置结果等。

数据中心运维成本包括下列

冷热源等;能源的来源应包括:公共电网、自备电源、 气管网、市政自来水管网、自备水井、地表水、可再生能

冷热电三联供系统、外部供冷和供热。 7.0.8电能利用效率(PUE)是表征数据中心电能利用效率的 参数,其数值为数据中心内所有用电设备消耗的总电能与所有电 子信息设备消耗的总电能之比。水利用效率(WUE)是表征数 居中心水利用效率的参数,其数值为数据中心内所有用水设备消 耗的总水量与所有电子信息设备消耗的总电能之比。数据中心应 建立电子化能效管理平台,采用自动化的监控系统和智能仪器仪 表实时采集相关系统、设备的能耗。 7.0.9数据中心能效管理对采集和计量的能耗数据实施统计和 分析,可实现对区域、系统、设备的能耗的分析,可实现实时、 日、月、李、年的能效数据的统计,并生成设备、系统、区域和 时间段的能耗分析报告,根据能耗分析报告实施能效评价。数据 中心需要建立能效优化的管理机制,定期召开能效状况的分析 会,找出存在的主要问题并提出改进建议,解决和落实能效改进 和优化的措施

7.0.8电能利用效率(PUE)是表征数据中心电能利用效率的 参数SY/T 6915.1-2012 石油天然气工业 井下工具 第1部分:偏心工作筒,其数值为数据中心内所有用电设备消耗的总电能与所有电 子信息设备消耗的总电能之比。水利用效率(WUE)是表征数 据中心水利用效率的参数,其数值为数据中心内所有用水设备消 耗的总水量与所有电子信息设备消耗的总电能之比。数据中心应 建立电子化能效管理平台,采用自动化的监控系统和智能仪器仪 表实时米集相关系统、设备的能耗。

分析,可实现对区域、系统、设备的能耗的分析,可实现实时、 日、月、李、年的能效数据的统计,并生成设备、系统、区域和 时间段的能耗分析报告,根据能耗分析报告实施能效评价。数据 中心需要建立能效优化的管理机制,定期召开能效状况的分析 会,找出存在的主要问题并提出改进建议,解决和落实能效改进 和优化的措施,

©版权声明
相关文章