智能驱动的云原生可观测平台徐彤阿里云可观测高级技术专家
Contents目录01云原生可观测智能落地前提02智能化数据处理03以人为本的事件处理04大模型时代下, 可观测智能化的新探索
云原生可观测智能落地前提Cloud native observable intelligent landing three elements01
全面的数据决定智能化的起点AIOpsMachineLearningBig DataPlatformLog日志数据Trace链路数据Metric指标数据Profiling剖析数据
优质的数据决定智能化的高度ARMS应用监控 eBPF 版ARMS应用监控云原生可观测可观测可视化Grafana 版可观测监控Prometheus 版ARMS业务监控ARMS用户体验监控PTS性能测
ARMS应用安全服务日志服务SLS应用生命周期集成EDASSAEACKFC智能告警告警收敛事件管理ChatOps 协同端到端可观测会话追踪全局拓扑持续剖析异构可观测数据源一站式全栈覆盖基础设施监控应用监控容器监控用户体验监控业务监控ARMS智能洞察ARMS云拨测云监控云服务监控多告警源集成应用实时监控服务 ARMS可观测链路OpenTelemetry 版智能洞察数据探索云服务监控
智能化数据处理Intelligent data processing02
相同告警合并告警降噪告警关联相同根因合并检测分析收敛智能阈值智能分级智能巡检根因触发关键维度定位异常节点定界代码级/SQL 级定位影响面分析可观测智能化场景落地三板斧
挑战1: 没有放之四海而皆准的“检测”算法
•统计算法: k-sigma、箱线图、天/周同比、环比等 •时序分析/解类算法: EWMA, STL、RobustSTL•预测类算法:Holt-winters、ARIMA, Prophet、LSTM等•机器学习分类算法:孤立森林、One-Class SVM、各类有监督模型– 环比:对比值的变化率•单点比较:!!−!!"#>threshold•多点比较:$%&'(∑$%#&!!−!!"$>(ℎ+,-ℎ%./ > count_num当前值是否过大或者过小–历史数据{!'|(= 1. . . '}–计算样本均值和样本标准差0=(!)(")⋯)(#&,2=#&"#∑$%#&(!$−0)+–异常检测!!>0+ 32or !!<0−32挑战1: 没有放之四海而皆准的“检测”算法–同比:对比同一个周期的值或多个周期的值•突增:!!>过去同一周期时刻的值* max_threshold•突降:!!<过去同一周期时刻的值* min_threshold适用于周期性强 & 周期固定不变的场景适合数据偏正态 / 均匀分布的场景图片来源: https://blog.csdn.net/weixin_35259908/article/details/112541970
多模型融合冷启动支持自适应等级正常/异常区间可解释性原因我们的思路:多模型融合的检测方案
云原生环境下,服务之间拓扑复杂,一个应用可能直接或间接地调用了 上百个微服
智能驱动的云原生可观测平台.pdf