• 查询稿件
  • 获取最新论文
  • 知晓行业信息
官方微信 欢迎关注

铁路数据中心基础设施管理系统的研究

何欣玲, 刘宇, 赵天, 黄思炜

何欣玲, 刘宇, 赵天, 黄思炜. 铁路数据中心基础设施管理系统的研究[J]. 铁路计算机应用, 2020, 29(10): 21-25.
引用本文: 何欣玲, 刘宇, 赵天, 黄思炜. 铁路数据中心基础设施管理系统的研究[J]. 铁路计算机应用, 2020, 29(10): 21-25.
HE Xinling, LIU Yu, ZHAO Tian, HUANG Siwei. Infrastructure management system of railway datacenter[J]. Railway Computer Application, 2020, 29(10): 21-25.
Citation: HE Xinling, LIU Yu, ZHAO Tian, HUANG Siwei. Infrastructure management system of railway datacenter[J]. Railway Computer Application, 2020, 29(10): 21-25.

铁路数据中心基础设施管理系统的研究

基金项目: 国家铁路集团有限公司科技研究开发计划系统性重大项目(P2018S001)
详细信息
    作者简介:

    何欣玲,助理工程师

    刘 宇,高级工程师

  • 中图分类号: U29 : T39

Infrastructure management system of railway datacenter

  • 摘要: 针对传统数据中心场地基础设施的监控管理系统各自独立、场地和信息化基础设施分开管理、监控系统管理工具离散化等问题,通过采用分布式数据采集、多层汇聚、实时计算、大数据分析等技术,完成数据中心基础设施管理系统设计,实现数据中心基础设施监控、管理一体化和智能化,实时掌握数据中心运行状态,及时发现基础设施运行问题,提高数据中心可用性和满足服务等级的能力。
    Abstract: Aiming at the problems of independent monitoring and management system for traditional data center site infrastructure, separate management of site and information based infrastructure, and discretization of monitoring system management tools, this article used distributed data acquisition, multi-layer aggregation, real-time computing, big data analysis and other technologies to implement the design of the data center infrastructure management system, realize the integration and intellectualization of data center infrastructure monitoring, management, real-time grasp of data center operation status, timely discover infrastructure operation problems, and improve the availability of data center and the ability to meet the service level.
  • 中国铁路主数据中心是中国国家铁路集团(简称:国铁集团)最高等级的数据处理中心,承载着中国铁路集中应用系统部署及数据资源存储,承担着确保铁路核心业务安全稳定运行的重要使命[1]。为保证数据中心内信息化设施的正常运转,避免出现故障对数据传输、存储及系统运行的可靠性构成威胁,有效地支撑在数据中心上的业务系统运行,需要数据中心基础设施(供配电、UPS、空调、消防、环境和安保等)时刻为计算机系统提供正常的运行环境[2]。因此,如何对数据中心的动力环境、能耗、热场、容量及硬件设备运行状况等进行实时智能监控和一体化管理成为一个重要课题。

    (1)中国铁路主数据中心承载了12306网站、客票系统、调度系统等众多应用,服务器装机数千台,各类系统和资源众多,设备数量复杂庞大;(2)铁路数据中心基础设施管理存在诸多问题,如场地基础设施监控管理系统由多个相互独立的物理子系统组成,彼此缺乏互联互通;(3)场地基础设施监控不到位,未部署UPS蓄电池监控设备;(4)信息化基础设施管理虽然比较成熟,但在监控管理与场地基础设施不能互动;(5)管理工具由于专业和岗位的不同导致工具离散化,造成不同系统之间的数据难关联、共享。

    鉴于此,本文采用模块化的分层架构,各模块之间建立松耦合的关系,设计了适应中国铁路主数据中心需求的基础设施管理系统平台[3-5],实现信息共享、资源关联、统筹调度和可视化展示,提升了数据中心的服务能力。

    数据中心基础设施管理(DCIM,Data Center Infrastructure Management)是指通过监控数据中心基础设施状态、配置、参数等运行信息,并对监测数据进行计算分析,实时掌握基础设施的运行情况,有效地管理数据中心基础设施、资源和能效[6]

    数据中心分层架构,如图1所示。DCIM的范畴就在于管理场地基础设施和信息化基础设施(硬件层)这两个层面的协同,通过采用统一管理平台对数据中心基础设施进行监控和管理保证数据中心有效性、可用性。

    图  1  数据中心分层架构

    按照DCIM系统的数据收集、处理及服务的不同需求,可将系统分为数据采集层、数据处理和存储层、分析计算层和功能展示层。系统架构,如图2所示;技术架构,如图3所示。

    图  2  DCIM系统架构
    图  3  DCIM系统技术架构

    数据采集层包扩采集信息点和监控单元[7],其中,数据采集信息点包括各类机房精密空调、温湿度、漏水设备、UPS、精密配电柜、电量仪、粉尘浓度、硫化氢、消防等信息,以及建筑设备监控、视频监控系统、火灾自动报警、能源管理系统等需要集成的系统。在本项目中,主要按照信息点各自所在的机房位置将数据采集层划分为不同的数据采集模块,每个机房和配电区房间作为一个独立的数据采集模块进行划分,根据信息点位的种类和多少配置相应的监控单元。

    采用RS485等串口通信协议进行传,各底层子系统数据采集工作通过Modbus、JDBC、Bacnet等协议实现,采集探针及采集组件对各协议参照协议点表对协议进行转换,转换后的数据统一放入Kafka消息队列。

    数据采集层是系统的数据入口,通过全面的南向接口管理体系,与现场基础设施实时通信,并将接收到的数据转化为规定的格式,上送到数据传输层。

    系统采用Hadoop组件搭建大数据平台进行数据的处理及存储,Zookeeper实现分布式协调服务,Yarn负责统一资源调度管理。

    数据存储内容是所有被监控设备的各项指标数据,通过消费Kafka获取。一部分通过存储应用处理保存到OpenTSDB中,最终转发到大数据平台,进行历史数据分析、挖掘或者展示查询等。Redis数据库中保存实时设备指标数据,对外提供数据查询接口,不同应用都可以通过对外开放的API查询各设备的详细指标参数。

    各底层子监控系统通过标准的API协议将数据传输到数据存储层,数据存储实现数据的清洗、治理、存储,为上层应用提供数据支撑。

    数据分析计算分为实时计算和离线计算。Spark streaming提供对实时数据的实时分析;MapReduce实现离线数据的分析,通过分布式计算,实现数据快速处理;Spark MLlib、Mahout为智能分析提供通用的算法及工具,可以实现数据中心数据的智能分析。

    (1)告警及复杂事件分析

    平台采用复杂事件分析处理引擎(CEP)[8],对告警信息进行过滤整合,将告警分析结果发送至上位系统进行故障派单。对于复杂告警事件,平台可对多条告警信息进行分析处理再转换为一条故障信息。

    (2)统计分析

    系统采用离线数据分析平台处理[9],只需要定义一个任务规则:时间为每天的凌晨(错峰),内容为从时序数据库中抽取日、周、月、年所需的数据,转换/加载(ETL)到数据集市(Data Mart)中,报表报告直接从数据集市中获取结果即可。

    (3)容量分析

    容量管理模块模型算法以差额分析法和比率分析法为基础[10],使用计算策略模型引擎,结合容量管理模块,综合容量参数计算容量变化情况和趋势。

    (4)能耗分析

    通过前端数据接入处理模型获取上海移动云桥、能率等IDC数据中心基础设施用电数据汇总统计出数据中心的能耗系统图[11],通过统计分析模型和计算策略模型算出各模块能耗情况。

    分析计算层作为整个的核心数据处理单元,通过预设的各类数据处理引擎和工具,对全部采集数据进行质量控制、分析、计算、统计等处理,最终生成符合需求的数据产品,并通过北向接口为业务应用提供符合要求的数据。

    系统实现的基础设施管理主要包括监控管理、资产管理、容量管理、能效管理、运维管理和数据洞察。

    功能展示层采用前后端分离的技术方案,前台通过Html,Jsp,jQuery技术进行页面渲染,后台通过Spring,Hibernate框架提供数据模型与业务实现。前后台通过Json的方式进行数据传递。通过使用Activity实现业务流程。

    基于B/S架构的Web服务及移动端服务(App、微信等),提供统一的实时数据、告警告知、报表报告及2D/3D展示交互平台。

    DCIM系统主要用于采集全部机房基础设施的状态及参数、环境参数、第三方系统数据等,进行统一汇总展示及管理。DCIM系统监控模块,如表1所示。

    表  1  DCIM系统监控模块
    监控模块监控内容实现方式
    配电柜监测监视配电柜三相电源的电压、电流、功率、频率等参数。将配电柜中自带的电量仪接入系统平台实现对进线监测。
    强电列头柜
    监测
    监测精密配电柜进线电源的三相电压、电流、电能;
    各支路的电流、电能、功率因数、开关状态等参数。
    采用总线的方式,通过RS485智能接口及通信协议将监控信号
    接入监控单元。
    UPS监测监视UPS整流器电池、负载等各部分的运行状态与参数。采用总线的方式,通过RS485信号接入到监控单元。
    蓄电池监测监测蓄电池组的总电压,单节蓄电池的电压、内阻等参数。将电力专业监控单元接入集成。
    空气质量监测监测机房内的粉尘、硫化氢等参数。采用总线的方式,通过RS485智能接口及通信协议将监控信号
    接入监控单元。
    空调监测监视空调压缩机、水宕、加热器、去湿器、滤网和湿度等
    参数和运行状态。
    采用总线的方式,通过RS485信号接入到监控单元。
    环境温湿度监测监测机房内温、湿度值。通过安装温湿度传感器实现监测。
    机柜温度监测监测机柜温度值。通过安装温度传感器实现监测。
    漏水监测监测机房漏水情况。通过敷设漏水感应绳将报警信号传给测漏控制模块。
    消防监测监测机房内的消防火警信号。安装烟感探测器,采用总线的方式,通过RS485智能接口及
    通信协议将信号接入到监控单元。
    ITMS系统集成/通过对相应系统提供的开放性数据接口协议进行专业开发定制。
    火灾自动报警系统集成/
    能源管理系统集成/
    建筑设备监控系统集成/
    高/低压配电系统集成/
    封闭冷通道系统集成/
    视频监控系统集成/采用SDK的方式与现场建设的视频监控的SDK API进行对接。
    门禁系统集成/采用API对接方式。
    下载: 导出CSV 
    | 显示表格

    DCIM系统的管理模块可实现如报警功能、数据管理功能、报表管理和日志管理等功能,详细情况,如表2所示。

    表  2  DCIM系统管理模块
    管理模块管理内容
    系统界面支持全中文3D软件界面,图形化设计,电子地图功能,支持控件插入,能够实时直观地显示设备的运行数据和运行状态。
    系统扩充监控单元硬件连接简单,配合集群管理方式,可实现系统的无限扩展。
    在线维护、动态扩容维护时系统无需停止,可动态完成调整参数调整和报警设置。
    权限管理设定管理人员(用户)对系统进行操作前需经系统验证,后根据用户分配的操作权限和管理工作范围进行操作。
    查询功能通过把各监控单元数据存储到数据库,对数据进行分类归组,在查询数据时,过滤不相关数据,以实现查询功能。
    数据管理可实现较长时间的数据存储,可查询任意时刻监测到的任意对象的历史数据。
    报警功能通过所设阈值与采集数据的对比,判定是否产生报警;能够对报警信息进行分类统计。
    报表管理监控管理系统提供了丰富的管理报表,包括日报表、月报表、年报报表等,所有报表都可以由用户自定义,满足不同监控要求。
    日志管理通过对历史运行数据按时间进行分类,从而实现日志管理功能。
    个性化管理通过赋予操作者权限的不同限制系统、监控参数的配置权限。
    Web功能系统具有Web浏览功能,通过浏览器能实现设备的监视和控制功能,浏览器界面与监控软件保持一致。
    系统接口系统采用开放性设计,能够支持多类标准协议接口并具备接口定制开发能力,满足向下集成第三方系统和
    向其他系统平台开放接口数据。
    3D可视化展示管理人员可以通过3D方式浏览设备参数、查看报警、定时巡检、处理事件等。
    下载: 导出CSV 
    | 显示表格

    数据中心基础设施管理系统是集监控和管理为一体,构建了“信息、资源、运维”的统一管理体系,通过监控和能效、资源管理等的统一构建,数据中心的运行效力和管理能力得到全面提升,也助力于数据中心的平稳、高效运行。本方案从数据中心基础设施管理需求出发,综合考虑监控、管理的对象和场景的需求以及现有监控工具的整合,构建系统模型分析算法,采用模块化的分层架构进行设计,形成数据中心基础设施智能监控和综合管理解决方案,为铁路数据中心基础设施管理提供思路。

  • 图  1   数据中心分层架构

    图  2   DCIM系统架构

    图  3   DCIM系统技术架构

    表  1   DCIM系统监控模块

    监控模块监控内容实现方式
    配电柜监测监视配电柜三相电源的电压、电流、功率、频率等参数。将配电柜中自带的电量仪接入系统平台实现对进线监测。
    强电列头柜
    监测
    监测精密配电柜进线电源的三相电压、电流、电能;
    各支路的电流、电能、功率因数、开关状态等参数。
    采用总线的方式,通过RS485智能接口及通信协议将监控信号
    接入监控单元。
    UPS监测监视UPS整流器电池、负载等各部分的运行状态与参数。采用总线的方式,通过RS485信号接入到监控单元。
    蓄电池监测监测蓄电池组的总电压,单节蓄电池的电压、内阻等参数。将电力专业监控单元接入集成。
    空气质量监测监测机房内的粉尘、硫化氢等参数。采用总线的方式,通过RS485智能接口及通信协议将监控信号
    接入监控单元。
    空调监测监视空调压缩机、水宕、加热器、去湿器、滤网和湿度等
    参数和运行状态。
    采用总线的方式,通过RS485信号接入到监控单元。
    环境温湿度监测监测机房内温、湿度值。通过安装温湿度传感器实现监测。
    机柜温度监测监测机柜温度值。通过安装温度传感器实现监测。
    漏水监测监测机房漏水情况。通过敷设漏水感应绳将报警信号传给测漏控制模块。
    消防监测监测机房内的消防火警信号。安装烟感探测器,采用总线的方式,通过RS485智能接口及
    通信协议将信号接入到监控单元。
    ITMS系统集成/通过对相应系统提供的开放性数据接口协议进行专业开发定制。
    火灾自动报警系统集成/
    能源管理系统集成/
    建筑设备监控系统集成/
    高/低压配电系统集成/
    封闭冷通道系统集成/
    视频监控系统集成/采用SDK的方式与现场建设的视频监控的SDK API进行对接。
    门禁系统集成/采用API对接方式。
    下载: 导出CSV

    表  2   DCIM系统管理模块

    管理模块管理内容
    系统界面支持全中文3D软件界面,图形化设计,电子地图功能,支持控件插入,能够实时直观地显示设备的运行数据和运行状态。
    系统扩充监控单元硬件连接简单,配合集群管理方式,可实现系统的无限扩展。
    在线维护、动态扩容维护时系统无需停止,可动态完成调整参数调整和报警设置。
    权限管理设定管理人员(用户)对系统进行操作前需经系统验证,后根据用户分配的操作权限和管理工作范围进行操作。
    查询功能通过把各监控单元数据存储到数据库,对数据进行分类归组,在查询数据时,过滤不相关数据,以实现查询功能。
    数据管理可实现较长时间的数据存储,可查询任意时刻监测到的任意对象的历史数据。
    报警功能通过所设阈值与采集数据的对比,判定是否产生报警;能够对报警信息进行分类统计。
    报表管理监控管理系统提供了丰富的管理报表,包括日报表、月报表、年报报表等,所有报表都可以由用户自定义,满足不同监控要求。
    日志管理通过对历史运行数据按时间进行分类,从而实现日志管理功能。
    个性化管理通过赋予操作者权限的不同限制系统、监控参数的配置权限。
    Web功能系统具有Web浏览功能,通过浏览器能实现设备的监视和控制功能,浏览器界面与监控软件保持一致。
    系统接口系统采用开放性设计,能够支持多类标准协议接口并具备接口定制开发能力,满足向下集成第三方系统和
    向其他系统平台开放接口数据。
    3D可视化展示管理人员可以通过3D方式浏览设备参数、查看报警、定时巡检、处理事件等。
    下载: 导出CSV
  • [1] 田绵石. 新一代数据中心架构及其智能监控系统的研究与探讨 [J]. 铁路计算机应用,2014,23(7):34-38.
    [2] 李 兢. 数据中心基础设施管理系统的研究与设计 [J]. 电信工程技术与标准化,2018,31(9):83-88.
    [3] 邵智良,易南昌. 基于DCIM的数据中心基础设施一体化监控管理解决方案 [J]. 中国有线电视,2016(S1):343-347.
    [4]

    Kosuke Sasakura, Takeshi Aoki, Takeshi Watanabe. Study on the Prediction Models of Temperature and Energy by using DCIM and Machine Learning to Support Optimal Management of Data Center [J]. ASHRAE Transactions, 2019(125): 488-495.

    [5] 郑 立. DCIM赋能数据中心智能化运维 [J]. 电信技术,2019(9):43-49.
    [6] 黄克胜. 基于DCIM理念的数据中心智能综合管理系统 [J]. 通信电源技术,2017,34(2):117-119.
    [7] 张继英. 信息中心机房监控系统的设计和实现 [J]. 电子技术与软件工程,2019(7):257.
    [8] 文 波,杨建军. 复杂事件处理技术研究及应用 [J]. 机械工程与自动化,2018(6):27-29.
    [9] 朱 雪. 基于Hadoop的离线数据分析平台设计与实现[D]. 邯郸: 河北工程大学, 2018.
    [10] 许国栋. 浅谈信息系统容量预测 [J]. 科技资讯,2018,16(15):32-33.
    [11] 吴 霜,张海清. 绿色数据中心节能创新实践方案 [J]. 数据通信,2018(1):12-15.
图(3)  /  表(2)
计量
  • 文章访问数:  256
  • HTML全文浏览量:  23
  • PDF下载量:  69
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-03-10
  • 刊出日期:  2020-10-25

目录

/

返回文章
返回