收藏 分享(赏)

AIOps智能故障管理在阿里巴巴集团的成功实践.pdf

上传人:刘岱文 文档编号:29851 上传时间:2018-06-29 格式:PDF 页数:29 大小:3.95MB
下载 相关 举报
AIOps智能故障管理在阿里巴巴集团的成功实践.pdf_第1页
第1页 / 共29页
AIOps智能故障管理在阿里巴巴集团的成功实践.pdf_第2页
第2页 / 共29页
AIOps智能故障管理在阿里巴巴集团的成功实践.pdf_第3页
第3页 / 共29页
AIOps智能故障管理在阿里巴巴集团的成功实践.pdf_第4页
第4页 / 共29页
AIOps智能故障管理在阿里巴巴集团的成功实践.pdf_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、AIOps智能故障管理在阿里巴巴集团的成功实践高级 技术 专家 王肇刚 (梓弋 )企业研发云专场阿里巴巴故 障治理业务流程及挑战智能运维实战 之异常 检测和根因 推荐AIOps智能 运维解决 方案万笔 /秒订单量双 11背后的巨大稳定性 挑战32.5万笔 /秒支付量25.6阿里业务的多样和复杂给稳定性带来挑战业务数量巨大50+BU40000+ 应用程序业务形态差异较大电商、金融、云计算、物流、文娱、社交 业务关联复杂用户行为对业务的影响应用程序之间的链路复杂线上故障需要统一的治理 机制业务故障统一发现跨 BU故障协同 处理故障的影响面和根因需要统一收口和推送故障快速恢复需要统一的机制阿里巴巴全

2、局故障治理 流程故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练业务流程业务痛点传统监控系统误报漏报较多监控维护成本较大故障等级定义差异较大判断条件繁多千万级别的运维事件,哪些与业务故障相关?跨 BU的应用依赖复杂,如何梳理追溯快速恢复场景稍纵即逝,如何实时决策触发切换?我们引入了智能运维阿里巴巴全局故障治理 流程故障发现 故障定级 故障通告 故障辅助 定位 处理决策 故障快速 恢复 故障复盘 故障演练故障发现准确率 40% 80%故障通告耗时 1分钟5分钟根因推荐 依赖人的经 验 系统自动推荐可疑事件智能运维之时间序列异常检测业务指标异常检测的业务 背景“ 淘 宝交易量下跌%X是 Pn故障 ” “ Pn淘宝 淘宝交易创建下跌 X%”故障等级定义 业务指标监控项 (时间序列) 异常点 故障通告

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 网络技术 > 热门技术

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:文库网官方知乎号:文库网

经营许可证编号: 粤ICP备2021046453号世界地图

文库网官网©版权所有2025营业执照举报