原创广电猎酷01-13 08:12
作者:广播与电视技术

摘要: 随着云计算大数据的不断发展,底层基础设施资源的整合将成为各个公司未来IT架构变化的主要趋势,本文对如何设计一套基于大数据的综合监控平台进行了详细的阐述,并分析了系统建设中涉及的关键技术。

点击标题下「广电猎酷」可免费下载行业标准


本文由《广播与电视技术》杂志独家授权。本文刊发于2017年第12期。


作者:贾兴华,白鹤,傅力军(中国广播电视网络有限公司)

【摘 要】

随着云计算大数据的不断发展,底层基础设施资源的整合将成为各个公司未来IT架构变化的主要趋势,多业务系统共享底层基础设施资源,传统综合监控系统已经无法满足现有需求,本文对如何设计一套基于大数据的综合监控平台进行了详细的阐述,并分析了系统建设中涉及的关键技术。

【关键词】大数据,综合监控




0 引言


目前各省广电网络公司均拥有相当数量的业务监控系统,配备一定数量的人员进行实时监视与维护,各公司均设有业务运行监控专职部门,同时也设置了运行维护岗,承担监视与维护职责。随着全国有线电视网络的逐步整合,业务职能的也会随之调整,随着现有业务垂直化管理趋势,当前的监控系统已经很难满足未来的业务需求。


因此,在基础资源、数据资源、业务应用集约化的同时,建立全流程、全要素、全过程的能进行统一监控和运维管理的系统已经成为保障实时业务正常运行的关键;而且统一运维监控也将降低场地环境、动力能耗和人力资源成本,提高运维效率。

1 系统设计目标


全国集中的综合监控系统的监控范围横向涵盖“数据产生、数据收集、数据加工处理、数据存储服务、数据分析应用”数据全流程监控;纵向涵盖“机房场地环境、IT基础资源、数据平台、业务系统”全业务范围和国、省两级IT基础资源、数据平台。融合“数据全流程、基础设施资源、高性能、信息系统安全、动力环境”的监控,实现集中监视和控制;在集中监控的基础上,把监视功能下沉一级,实现监控运维的全国联动。运维机制上,实现多个运维中心、业务单位的协同分工机制,其中信息化部门负责基础设施、数据运维及系统安全管理,业务单位负责应用系统运维及应用安全;实现基础设施资源社会化保障和核心业务自我保障协同机制。

2 系统整体架构


综合监控平台是支撑全国广电网络业务全流程、一体化、可视化运维管理的技术平台,基于统一运维技术标准和管理规范构建,由信息采集层、信息分析处理成、综合业务层和用户层组成,具备广电网络业务监控信息采集和处理分析、集中监控和运维管理、以及基础设施资源运营服务和业务展示等功能。


3 数据流程设计


综合监控平台的全流程监视能力依赖于两个主要的数据流程,即监视基础数据流程和控制数据流程。

图1 统一运维平台总体架构


3.1 监视基础数据流程


1. 采集:系统通过综合业务信息汇聚接口获取采集端采集的基础设施资源、数据收集存储加工环节、核心业务系统的运行状态、业务处理和告警信息。


2. 实时处理及存储:系统将需要实时分析处理的信息发送到相应的信息分析处理模块进行处理,并将原始信息和处理后信息存储在运维管理数据库中。


3. 批处理:根据各类监视信息的统计时间窗口,系统将定时调度信息分析处理模块对相应监视信息进行准实时、非实时批处理,生成业务统计信息并存储。


4. 展示:综合业务层通过访问运维管理数据库或消息方式获取所需的监视信息进行前台的业务展示、集中监视、运营服务界面展示。


3.2 控制数据流程


1. 发起:管理员发起的控制信息主要包括控制指令、配置信息、运营信息;其中控制指令主要是根据告警情况和故障分析进行可能的故障处理的指令;配置信息主要是实现对调度策略等各方面配置的更新;运营信息是提供基础设施资源和数据资源服务时所需新增和更新的运营信息。


2. 控制处理:发起的控制信息通过消息发送到相应控制信息处理模块执行,并反馈执行情况;如执行失败,需进行回滚操作;同时将控制信息存储到运维管理数据库。

4 系统功能设计


4.1 集中监视


集中监视基于监控信息数据库,按照由面到点的原则,分整体业务监视、类别监视和资源细节监视等三个层次,动态展示场地环境、网络系统、集约化资源池、数据环境、业务的关键性能指标、预警信息及异常和故障信息,多维度、精细化监视观测、传输、数据环境及数据应用等环节中关键业务数据的完整性、时效性及数据质量,提供异常自动报警及报警信息实时推送和发布。

图2 统一运维平台总体流程


1. 整体业务监视:整体业务监视根据资源范畴对云中心各层面进行归类整体状态集中监视,主要包括数据资源、国省两级业务应用系统、用户服务、计算存储(包括集约化资源)、网络资源、内容资源、视频流资源以及覆云中心的信息安全和用户行为监视等内容。并细分为各资源整体状态监视和用户关注关键内容集中监视。


各资源整体状态监视通过对每类资源监视点状态进行指标设定,根据状态指标分析机制,实时展示各类资源的总体状态。当某类资源任一监视点出现故障标识并对业务已造成重大影响时,对应整体监视状态显示故障指标类型及数据。当某类资源任一监视点出现异常标识并在未来一段时间将对业务已造成影响时,对应整体监视状态显示异常指标类型及数据。同时提供导航机制进入资源类别监视和资源内部细节监视中查询更为详细的监视信息。


2. 类别监视:类别监视的对象包括:内容资源监视、业务应用系统、硬件资源、场地资源、信息安全和用户行为。


内容资源监视根据业务特点,对内容在各个业务环节的合法性、时效性、完整性和数据质量等内容进行多维度监视,主要包括用户高关注度内容监视、内容分类监视、内容流流监视。用户高关注度内容监视提供视频服务、安全管控、信息网络等三个方面业务用户关心的监视。内容分类监视根据不同的内容类型提供内容合法性、安全性、时效性和完整性等监视。内容流监视主要提供一体化内容流中的采集、处理、存储、分发等业务环节的实时监视。


业务应用系统监视针对云中心有统一监视需求的国省两级业务应用系统,实现其系统运行总体状态的实时监视。涉及的业务应用系统包括观直播业务、点播业务、应用服务业务以及信息网络业务应用。


硬件资源监视实现对云中心计算、存储、网络等基础资源的监视以及对运行于基础资源上的数据库、中间件等平台环境的监视。主要包括:集约化计算存储资源与传统资源的设备状态、资源使用情况等监视;局域网络、广域宽带网络等各类网络带宽资源使用情况,业务及用户级流量的可视化监视;各个数据库、系统软件、基础软件、中间件状态监视,等等。


场地资源监视提供机房供配电、温湿度数值和空间分布、动力环境设备运行状态、机房运行情况等的监视。


信息安全监视采集各类网络设备、安全设备、服务器、应用系统的相关状态、日志、告警信息,对采集的各类信息进行综合分析,实现对云中心平台安全健康状态监视、安全事件监视、安全事件可追溯等的信息安全综合监视。


3. 集中告警管理:集中告警对云中心各层资源异常状态进行集中显示、提醒和管理,主要包括数据资源完整性、时效性、数据质量等异常告警;各个业务应用系统在运行过程中产生的错误告警;服务器、存储、网络等在运行过程中产生的异常告警;场地环境的异常告警;用户行为的异常告警;以及安全方面的告警等。并通过多种技术手段(诸如邮件、短信或即时通信工具)实现关键异常信息的快速发布和及时提醒。


当某类监视对象的任一监视点出现故障标识并对业务已造成重大影响时,集中告警将以页面显示、声音告警、邮件、短信或即时通讯工具通知和发布等方式提醒运维人员进行处理。当某类监视对象的任一监视点出现异常标识并在未来一段时间将会对业务已造成影响时,集中告警功能将以页面显示、声音告警、邮件、短信或即时通讯工具通知和发布等方式进行异常预警,运维人员可得以及时进行处理,以提前预防故障发生。


4.2 运维控制


运维控制基于配置管理数据库,构建基础设施资源、数据资源、应用系统、信息安全系统等的资源拓扑和运维流程;管理和维护网络系统、集约化资源池、数据环境、业务应用系统、信息安全系统的运行,包括事件、问题、变更、配置、发布以及知识管理等;根据业务服务模型生成统计报表,包括性能数据的日报、周报、月报、性能数据的对比分析报表、性能数据的趋势分析报表、以及告警分类报表、告警分时报表、告警来源报表等,提供报表定制及推送和发布。


运维控制从“运”的角度包括运行管理、统计分析和业务控制功能,从“维”的角度主要包括配置管理、变更管理、发布管理、事件管理、问题管理、知识管理等业务功能。


1. 运行管理:运行管理主要负责运维工作流的内容和节点设计,并面向业务管理人员提供统一运维的整体运行状态和各运维岗位工作情况统计信息,为运维质量和工作效能考评提供参考。


2. 业务控制:应用调度云中心运行的有统一控制需求的业务应用提供有限目标的应用软件级别控制能力和调度功能,主要包括业务应用人工控制、任务/ 作业调度控制、业务配置信息管理、配置信息及业务信息的调阅和发布控制等。


3. 统计分析:提供统计报表和在线分析功能。包括主题管理,实现对各类业务主题的定义;报表定制,实现基于主题的报表类型定义以及报表订阅;报表展示与发布,实现各种报表数据的展示与多手段发布;在线统计,实现基于多种统计条件的在线统计功能,实时输入统计条件实时生成统计数据。统计数据提供图表展示方式。


4. 运维管理:运维流程管理面向业务运维和管理人员,主要实现IT服务管理功能,参照ITIL最佳实践框架,建立起符合业务实际需求的事件管理、问题管理、变更管理、配置管理、发布管理和知识管理等运维流程并驱动流程的运转,提高业务运维的效率。


事件管理的主要目的是在最短的时间内恢复正常服务并将对业务运营的不利影响降至最低,从而确保维持协定的服务质量。


问题管理是对所有问题从最初识别到进一步调查、文档记录直至解决的整个生命周期进行管理。


变更管理主要是控制所有变更的生命周期,使得在最小化影响IT服务的情况下执行有益的变更。


配置管理主要规范配置活动,确保配置项正确地唯一标识并易于存取,保证基准配置项的更改受控,明确基线状态,在贯穿整个生命周期中建立和维护配置项内容的完整性和可追溯性。


发布管理主要是策划、制定时间表、控制构建、测试和部署发布的过程,交付业务需要的新功能并且保护现有服务的完整性。


知识管理主要为统一运维实现显性知识和隐形知识的共享提供途径,工作内容包括建立知识库、促进运维人员知识交流、建立尊重知识的内部环境、将知识作为资产来进行管理等等。


4.3 运营服务


运营服务提供对基础设施资源(计算、存储、网络)的申请、分配、调度和安全管理,提供对IT资源用户和数据用户的用户管理、数据服务及相应技术支持。为保障基础设施资源与数据资源的高效服务,依托业务内网、邮件、电话、传真、即时通讯工具等服务接口,统一运维平台建立服务台,统一受理用户请求,并提供资源调度、资产管理、数据服务、技术支持、安全管理和用户管理等各种服务。


1. 资源调度:的核心任务是实现计算资源、存储资源、网络资源、集约化资源池的弹性按需分配。计算存储资源管理调度功能包括资源创建、部署、分配、变更、回收。网络资源调度基于SDN技术,配合计算资源、存储资源的动态调度进行网络资源的动态调度,完成IP地址、VLAN、路由、带宽等的迁移调整。


2. 资产管理:主要管理提供运营服务的IT资产,包括硬件、软件及其之间所属关系,跟踪和管理资产的整个生命周期,并提供用户资产的分布及运行状况。


3. 技术支持:负责接受、记录、分级和追踪用户通过电话、邮件、短信、即时通信工具等方式提交的服务请求,提供一线的支持服务,协调二线和三线支持,及时通知用户其请求的当前状态和最新进展。


4. 安全管理:主要从安全事件管理、安全策略管理、安全权限管理、安全补丁管理等方面提供运营服务。特别是对于单类安全设备无法发现的APT、未知威胁的攻击进行综合分析和检测。


5. 用户管理:主要提供统一身份认证和用户信息统一维护功能,从而使得不同类别的用户可以通过单点访问获得一站式服务。

图3 监控信息存储组织


4.4 系统功能


1. 信息采集:提供对业务应用系统和基础设施资源的配置及状态信息的采集服务。主要通过布设信息采集探针,按照格式规范和接口协议获取观测系统、场地环境、网络资源、集约化计算资源、数据环境、业务应用系统的状态,并通过消息总线等接口将状态信息传送信息分析处理层,为业务应用系统和基础设施资源的运行监视、运维管理、安全管理及运营服务提供信息支撑。


2. 信息分析处理:通过综合业务信息汇聚接口获取或接收来自信息采集层的各种业务信息,通过集中处理和分析形成支撑业务监视、运维管理、综合展示和运营服务的各类信息,以及根据业务服务模型生成业务影响分析视图和告警信息等,并将这些信息存入监控信息数据库和配置管理数据库存储。综合业务信息汇聚接口实现统一运维平台与各个资源之间的原始监视信息的汇集,以及调度控制信息的交换。主要采用总线技术,通过消息、SNMP、Agent代理、Web service以及脚本等多种技术手段以及标准化的接口,实现对原始监视信息的采集,实现控制调度信息的交换和执行反馈结果的收集。


信息的预处理和分析汇集了统一运维平台各项应用中间处理逻辑功能,采用大数据处理技术、故障关联分析技术、KPI算法管理框架、业务应用调控引擎、资源管理调度引擎、工作流引擎等多种技术框架实现对实时监视、调度控制、分析评估、运维管理、综合展示、运营服务等应用的底层支撑。


监控信息和配置管理数据库实现统一运维平台所有业务信息的统一管理,包括数据资源处理详细信息、业务应用/任务/作业状态信息、业务应用异常事件信息、总体状态信息、系统资源状态信息、告警信息、统计分析产品、运维管理信息、公共配置信息、配置管理信息、配置参数信息、以及中间处理信息等。这些信息的存储管理将纳入统一数据资源管理框架,依据信息特点,采用多种数据资源管理模式,实现对统一运维平台信息的集中管理。


3. 信息存储:监控信息的存储组织主要包括三个方面:


1)实时缓存:主要采用Redis 和Kafka 消息系统缓冲实时的监控指标信息。


2)在线指标存储:主要采用Cassandra 和MPP 关系型数据库存储指标信息和配置及关联信息。


3)非结构化存储:主要指原始日志和历史数据的存储,采用分布式文件存储系统存储。如采用ElasticSearch存储日志文本信息,用于原始文本日志详情查询和分析;采用Hdfs文件存储系统配套HIVE等hadoop体系查询分析引擎进行查询分析。

5 系统涉及的主要关键技术


5.1 大规模监控采集


1. 主动上报优先


监控数据采集采用本地代理Agent上报为主、远程探针Probe采集为辅。以获得更深入的采集颗粒度,充分利用本地数据采集实时性;避免复杂的安全认证;可与虚机镜像或安装脚本绑定,开机自监控,减少人为配置。


对不提供Agent安装能力的设备,如网络设备、机房环境等,通过Probe就近采集方式,实现标准化的远程轮询采集上报。


2. 汇聚压力分摊


为避免监控服务端的海量数据接入压力,采用分布式汇聚技术,在服务端与Agent、Probe之间,按需增加汇聚代理(以下称为Proxy),完成数据预处理。


为实现异地采集、复杂网络安全环境采集,采用分布式采集汇聚,允许Agent、Probe通过Proxy间接上报数据连接。


3. 高吞吐量接入


服务端接入可实现水平扩展,通过多种负载均衡措施,充分利用集群扩展能力,让接入吞吐量不断增加,以满足监控规模的不断扩展。


5.2 数据实时高效流处理


1. 简化合并数据传输


在Agent到服务端的数据传输过程中,系统尽量的简化数据格式,避免传递重复无意义的内容,增加网络传递成本。同时Agent 与Proxy 可以合并多个指标数据到一个数据包中,进一步减少网络连接建立次数。


2. 队列并行消峰处理


当服务端接收到指标后,会首先存入高性能队列,并通过多个数据处理节点消费队列,来实现实时处理新数据。在高吞吐量的支持下,队列可支持水平扩展,数据处理节点可支持水平扩展,避免数据堆积。


在瞬间收到大量上报的数据时,高性能队列集群(如Kafka)将接收到的指标首先写入到队列中,再通过各个数据处理节点消费队列,可以有效的实现削峰。


3. 热点数据实时缓存


引入Redis内存缓存,对热点数据进行内存数据存储,实现高效的数据查询服务,在高并发的情况下,能大幅度减少数据库压力,提高数据处理时效性。


5.3 海量数据高性能存储


1. 指标数据库存储


采用基于列存储基础的Cassandra数据库或MPP并行关系数据库,基于Shared-nothing架构,存储海量指标数据,借助水平扩展能力,实现吞吐量的线性扩展。


2. 事务型关系数据库存储


采用关系型数据库存储对数据强一致性要求高的系统配置信息、功能策略、管理参数、管理任务等数据。


3. 图形数据库存储


采用了图形数据库来映射大量资源之间的错综复杂关系,实现高效的拓扑关系检索和分析。


5.4 任务调度引擎


1. 任务调度引擎架构


任务调度引擎采用管理网关(Proxy)和执行代理(Agent)两层架构,Proxy单向与管理服务端(Server)通过HTTP(或HTTPS)协议进行通讯,可适应不同安全域的网络环境,降低对网络稳定性的要求,分摊服务端的任务调度压力,支持统一管理。


2. 任务调度高效并行


调度引擎通过高速缓存、任务编排、制定执行目标等实现多环节串行和多主机并行调度执行,以保证大量主机批量执行时任务调度的实时性和顺序性。


3. 多种模式触发调度


按Crontab格式可设定定时调度策略,实现巡检、备份等任务的调度执行;通过手工可实时触发作业执行,跟踪作业任务的执行情况,执行出现异常时可人工干预修正;通过Open API可根据条件触发作业执行,实现配置变更自动实施等任务执行。

6 结论


通过以上的综合分析,广电网络行业要建设全国统一的综合监控系统既要遵循广电网络行业现有的特点,又必须要坚持以下原则,才能确保系统建设的安全可靠。


标准先行,用监控信息数据格式和收集协议规范打造监控信息汇聚接口,使系统的开放性具备标准基础。


功能设计,结合运维岗位职责,从整体到局部、从概况到细节,层层深入,构建一体化监控功能体系,实现运维工作服务台界面集约整合。


搭建模块化、开放技术架构,实现监视范围、内容、功能、规模的灵活扩充,支撑各类监视信息的接入,实现业务综合监控内容的集约整合。


集成与改造相结合,采用敏捷开发模式,从用户端使用效果着手,从数据流程核心业务开始,逐步集成或改造现有监控系统,合理有效分步推进业务综合监控进程。



作者简介

贾兴华,男,1982年12月出生。硕士,工程师。现任职中国广播是电视网络有限公司技术部,主要从事有线电视网络运营相关的IT平台研发工作。


好文共赏请转发  有话要说请留言