构建观测数据全景打造端到端可观测体系周洋阿里云资深技术专家应用可观测团队负责人
Contents目录01端到端可观测概述02端到端可观测系统设计03阿里云可观测产品发布•可观测对 IT 数据的价值•端到端可观测体系建设的必要性•端到端可观测体系的技术挑战和技术目标•通用架构设计•前沿场景探讨04阿里云客户可观测最佳实践分享
微服务化DevOps/运维自动化业务中台化全面容器化/云化云原生微服务架构下的可观测基础设施技术中台下的稳定性运营中心云原生时代的标准化观测服务多元化场景下的端到端观测服务Serverless阿里云十年演进,可观测进入端到端时代
以上数据来源于真实客户授权数据上线效率60%迭代效率200%网站速度50%运维工作量30%问题定位时长60%故障恢复时长20%可观测助力企业实现 IT 数据最大化
超过63%的企业组织拥有超过10种 以上的工具,然而故障排查依然面临着困难可观测不是工具堆砌,端到端建设势在必行引用ESG调查和信通院《可观测性成熟度白皮书》
数据对象多,可观测工具分散浏览器、移动端、应用、服务、容器、物理机、网络设备、网络流量等,每一层都有各自的采集工具企业级需求多,生产关系复杂多环境可观测、压测 & 演练 & 发布场景视图、计量计费、权限划分、超大热点等企业级落地场景模型不一致,存在数据孤岛Trace、Metric、Log、Profile、Event、Exception、Metadata 等,不同模型数据缺少关联标准和最佳实践封闭与开源,面向云原生的运维架构如何平衡自研技术和开源技术的路线选择,如何提升可观测系统本身的运维效率和可用性构建端到端可观测的技术挑战
稳定99.95%性能5GB+/分钟*租户端到端观测平台既要提供端到端可观测应用能力,也需要有明确数据指标指导规模化落地。成本0.4元/GB端到端可观测体系的技术目标
处理网关缓冲统一数据处理(…)处理网关缓冲统一数据处理(Meta)端到端可观测系统架构容器监控智能告警持续剖析性能测
云拨测应用安全前端监控链路追踪应用监控可观测应用统一客户体验全局数据图谱处理网关缓冲统一数据处理(Trace)Metric StoreOpenTelemetry等主流开源eBPF 探针多语言探针ExportersAPIs 及其他统一数据存储处理网关缓冲统一数据处理(Metric)智能洞察统一模型(读/写)调用链/指标等模型收敛/告警/…计量/模型/…接入中心控制面板告警管理应用管理探针管理实体对象实体关系Schema数据汇聚场景算法专家分析账单管理统一数据采集端到端可观测体系的通用架构Trace StoreLog StoreMeta Store
构建观测数据全景,打造端到端可观测体系.pdf