收藏 分享(赏)

电力信息系统全景监控研究与应用.pdf

上传人:爱文献爱资料 文档编号:21749912 上传时间:2024-04-21 格式:PDF 页数:3 大小:1.89MB
下载 相关 举报
电力信息系统全景监控研究与应用.pdf_第1页
第1页 / 共3页
电力信息系统全景监控研究与应用.pdf_第2页
第2页 / 共3页
电力信息系统全景监控研究与应用.pdf_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 TECHNOLOGY AND INFORMATIONIT技术科学与信息化2023年9月下 109电力信息系统全景监控研究与应用杨猛 邵月 张冰国家电网有限公司信息通信分公司 北京 100761摘 要 随着电力信息系统不断云化、微服务化改造,信息系统应用组件类型更多、调用链路更加复杂,云上应用租户无法掌握底层平台运行状态,在出现应用问题后更加难以定位。因此,有必要开展云上信息系统全景监控能力建设,实现系统全链路可视化跟踪分析,提高问题发现及定位能力。为此,本文结合实际运维需求,开展了云上电力信息系统全景监控的研究,设计了全景监控平台构建框架,对于后续全面开展全景监控能力建设具有重要指导意义。关

2、键词 全链路追踪;电力信息系统;微服务;全景监控能力Research and Application of Panoramic Monitoring of Electric Power Information SystemYang Meng,Shao Yue,Zhang BingStateGridInformationandCommunicationBranch,Beijing100761,ChinaAbstract Withthecontinuouscloudificationandmicro-servicetransformationofelectricpowerinformationsy

3、stem,therearemoretypesofinformationsystemapplicationcomponentsandmorecomplexcalllinks,andtenantsonthecloudapplicationcannotgrasptheoperationstatusoftheunderlyingplatform,whichismoredifficulttolocateapplicationproblemsoncesuchproblemsoccur.Therefore,itisnecessarytocarryoutthepanoramicmonitoringcapaci

4、tyofcloudinformationsystem,realizethevisualizedtrackingandanalysisofthewholelinkofthesystem,andimprovetheabilityofproblemdetectionandlocation.Therefore,thispapercombinestheactualoperationandmaintenancerequirementstocarryouttheresearchonpanoramicmonitoringofcloudelectricpowerinformationsystem,anddesi

5、gnsaframeworkfortheconstructionofpanoramicmonitoringplatform,whichhasimportantguidingsignificanceforthesubsequentcomprehensiveimplementationofpanoramicmonitoringcapacityconstruction.Key words full-linktracking;electricpowerinformationsystem;micro-service;panoramicsurveillancecapability引言近年来,随着国家电网有限

6、公司数字化转型快速发展,国网云平台、数据中台等基础支撑平台能力大幅增强,电力信息系统建设也朝着云上微服务架构快速演进,而云平台屏蔽底层逻辑、资源弹性伸缩与动态调配的能力在给信息系统部署应用带来便捷、灵活的同时,也给信息系统运行问题分析及定位引入了新的难题。一是云上应用租户无法感知云平台PaaS层、IaaS层以及相关云外主机、安全、网络等软硬件设备运行状态,跨专业、跨单位部门临时协同排查效率低、沟通成本高;二是上层业务与下层应用组件、基础平台组件关联关系不明晰;三是微服务数量大、跨省跨单位调用链路关系复杂;四是日志及告警数据量巨大,且冗余信息较多,这些都给系统故障分析定位处置增加了巨大难度1。因

7、此,有必要针对云上微服务架构电力信息系统覆盖业务、应用、云平台、基础软硬件设备的全景监控技术进行研究,将各层级监控能力进行整合关联,构建基于全链路追踪的全景监控能力,实现对业务异常的快速发现、精准告警能力。1 全景监控需求1.1 监控层级基于云上微服务架构的电力信息系统全景监控系统从上到下需监控的对象包含:业务层、应用层、PAAS层云组件及云外组件、IAAS层资源及云外硬件资源。业务层监控对象主要包含直接面向用户的各类业务功能;应用层监控对象主要包含后台支撑实现业务功能的各微服务、微应用;PAAS层云组件及云外组件层主要包括对应用层提供支撑的平台类组件,其中云上组件主要包括分布式应用服务EDA

8、S、全局事务服务GTS、Redis、容器服务K8S、消息队列MQ、负载均衡SLB、表格存储OTS、ES、云数据库RDS、分布式数据库DRDS、数据仓库、对象存储、云服务器、分布 TECHNOLOGY AND INFORMATIONIT技术110 科学与信息化2023年9月下式任务调度等各类云组件,云外相关组件主要包括:Oracle、Nginx、Tomcat等;IAAS层资源及云外硬件资源监控对象主要包含虚拟计算资源、虚拟存储资源、虚拟网络资源,以及它们所依赖的底层物理服务器、物理存储、物理网络等硬件设备。1.2 监控能力为保障云上微服务架构下电力信息系统业务稳定运行,有效支撑运维人员掌握系统整

9、体运行状态、快速定位异常根因,设计构建的全景监控系统应包含全景监控能力、智能分析能力及监控可视化能力。全景监控能力主要实现信息系统的全链路监控,包括业务层监控、应用层监控、Paas层监控、IaaS层等各层级纵向贯通监控,以及覆盖总部侧到省侧、系统本体到外部集成系统间的横向两级链路监控,形成全景监控能力。智能分析能力主要实现对监控运行状态及告警数据的统一汇聚、展示、处理能力,实现智能化分析应用,包括异常智能检测、告警智能收敛、故障原因分析、故障智能预警等能力,最终达到系统自描述、状态自监测、异常自诊断、故障自恢复的目的2。监控可视化能力主要实现信息系统运行状态及告警可视化展现能力,包括对业务应用

10、状态、系统健康状态、资源利用水位等进行统一可视化展示,结合监控大屏、监控报表能力,能够为管理层、业务运营人员、系统运维人员及研发单位等不同对象进行系统运维运营分析提供数据支撑。2 系统总体设计2.1 整体设计全景监控系统整体架构从下往上包含:监控工具层、智能运维中台层、全链路监控应用层。监控工具层:涵盖各类监控工具,用于日志、运行数据的监控采集,如:日志分析、应用性能监控、网络性能监控、基础设施监控采集,作为智能运维中台的数据源,可用于各类全链路监控场景。智能运维中台层:包含数据平台,配置管理数据库,算法中心等,完成数据汇聚、处理、存储等、赋能上层全链路监控;全链路监控应用层:主要完成全景全链

11、路监控,实现智能告警,工单管理大屏可视化展现。2.2 全链路监控设计全链路业务追踪整体以运维数据为基础。通过集中数据采集、数据处理、数据存储、规则模型、顶层场景的设计,从而形成运维场景各层级应用系统的调用关联,做到端到端覆盖,利用智能算法平台,形成业务场景全链路业务追踪、健康度、多维分析IT指标、业务层级拓扑的立体化监控。2.2.1 数据采集与处理。全链路追踪数据需要采集的运维数据类型主要包括指标数据,追踪数据,日志数据,整个数据流转经过数据采集、数据处理、数据存储、全链路数据应用3。同时,针对数据采集器实现集中统一管理。采集的整体技术方案架构如下:图1数据采集技术架构图 TECHNOLOGY

12、 AND INFORMATIONIT技术科学与信息化2023年9月下 111采集层支持Agent、OpenAPI、SDK等多种采集方式,针对云平台组件及应用监控,则可集成arms、cms及sunfire等成熟监控组件监控能力,实现对各类日志、应用全链路、IT基础设备等数据进行采集、清洗、转换、发送、监控和告警等操作,同时也对采集任务及行为进行统一规范的调度和管控,避免不规范操作导致宕机等异常情况的发生,全面保障业务的正常运行。2.2.2 配置数据管理。CMDB是构建自动化运维管理的基础,通过对Iaas、Paas到Saas层的运维元数据的全面管理,可以为运维监控、服务管理和自动化运维等场景提供完

13、整而准确的元数据支撑。CMDB平台的整体架构可分为数据层、数据采集层、数据存储层、服务层、数据应用及接口层、数据消费层,主要层级说明如下:数据层4:主要负责基础属性数据、配置关系数据的接收和存储,mysql负责存储模型的基础属性信息;arango负责存储模型与模型、配置项与配置项之间的包含、位于、连接等关系信息,构成业务拓扑和逻辑拓扑的关系基础;kafka则负责接收来自agent、api、snmp等方式和协议自动采集的数据,并通过建立不同的topic进行数据分类供数据消费和处理;redis的主要功能则是负责数据缓存。服务层:资产配置管理平台的核心能力层,通过其中包含的各类模块实现对各层级资产对

14、象的数据处理、数据标记、数据导入、模型设置、拓扑梳理,并通过校验规则设置、数据字典添加等手段和方式完成了数据的准确性检验和保障。接口层:通过相关接口的定义和开发,为资产配置管理数据的高级应用和二次消费提供管道支撑,结合双向的接口以及用户现有IT环境中各类系统可以完成、资产管理的流程贯通、故障的精确定位、配置优化等场景的应用落地。展示层:负责展示资源总数、资产类型、资产详细属性、配置关系、业务逻辑拓扑图,以及各维度的统计概览视图。3 监控告警及智能应用基于告警信息和指标、日志、追踪等数据,将海量的告警信息按照相似性整理为多个警报,并将具有一定相关性的多个警报整理为一个事件,方便运维人员选择与自己

15、相关的事件,被选择的事件中不包含的告警信息被过滤。支持基于语义相似度告警降噪类算法、树形搜索的告警降噪类算法、语义相似的告警关联类算法、NER的告警富集类算法,通过灵活智能告警,可实时将准确的告警推送给运维人员,以支撑运维人员及时发现异常。此外,基于数据平台存储的多维数据及CMDB维护的关联关系,依托MeTow、MeREx和Noran等算法,提取关联的指标序列,从时间的维度对指标相关性进行计算分析,以计算出可能的根因,同时算法可对运维人员的反馈进行方向学习,以保证下次计算的结果的可靠性。同时,结合数据立方搜索算法及AIOps场景特征,主动挖掘多维度指标隐含信息,快速定位KPI细分维度根因,进一

16、步提高平台智能化分析能力。4 结束语本文针对云上信息系统运维痛点分析了全景监控需求及功能,提出了一种覆盖全层级的全景全链路监控平台架构,研究了全景监控的数据采集、智能分析定位技术,有利于提高云上信息系统运行状态整体感知能力及故障定位效率,从而降低业务中断的时间,保证业务持续安全稳定运行。后续可以结合具体信息系统业务特征,针对性开展个性化应用场景设计,进一步提高全景监控精益化分析能力。参考文献1 邱鹏,尹泉,张亦琼,等.基于B/S架构的电力信息监控系统设计J.工业控制计算机,2020,33(12):125-126,129.2 张俊宇.电力营销采集与监控信息系统建设J.电子技术与软件工程,2019(21):247-248.3 温琪宇.基于电力营销采集与监控信息系统建设探讨J.中国新通信,2019,21(9):171.4 徐彬泰,周洁,江颖洁,等.电力信息通信网智能监控模型研究J.中国新通信,2019,21(5):39.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 综合论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报