实现海量数据的低成本高性能 ELK 实时管控分析
Elasticsearch 全观测解决方案
钉钉扫码关注更多产品信息
实时运维 —— 大数据管控分析
① 支撑各种场景需求的原子工具繁多,上手成本高;
② 工具之间的衔接困难, Monitoring( 管控 ) 、 Logging( 日志 ) 、
Tracing( 定位追踪 ) 无法互相依存发挥更大价值;
③ 在真实业务中能否获得最大收益,完全取决于使用者的架构能力
现有运维手段存在的问题
打破数据和工具的壁垒
指标管控
用户行为管控
交易性能管控
智能运维 AIOps
大数据 IT 运维的发展方向
Level 0
工具
• 具备多种 IT 运
维工具,能够
实现管控及日
常运维管理
Level 1
归档级
• 各级 运维数据
已实现归档及
持久存放
• 无法全局搜索
Level 2
检索级
• 通过一个平台
实现所有运维
数据全局搜索
• 无法关联分析
Level 3
分析级
• 关联所有运维
数据从而分析
解析原因并且
根据分析结果
自动化运维
• 无法事前预防
Level 5
预防级
• 根据历史所有
运维数据和回
归算法实现故
障预防
• 无法判断各种
指标和故障之
间的关系
Level 6
智能级
• 通过有监督的
机器学习或者
智能算法进行
预测
• 机器不断学习
经验积累
传统 ITOM 运维大数据分析 ITOA 智能运维 AIOps
运维管控的技术痛点
3 运维系统稳定性
• 因为业务 / 流量抖动,需要可快速伸缩分布式系统支撑
• 日志写入峰值往往会很高,旁路系统稳定性需要加强
5 日志分析和管控
• 借助时序系统可以很好的完成管控,但异常分析困难
• 使用日志分析工具时序管控和检索性能又会遇到瓶颈
4 系统成本
• 日志场景涉及海量数据, TB 级别起步,甚至 PB 级
• 部分场景 ( 如:审计 ) 长周期存储数据,存储成本压力极大
6 可扩展性
• 业务调整带来的技术演进一直在发生,技术组件更新快
• 原有运维框架 / 系统需要有强大的兼容性
1 日志 / 指标获取
• 机器、网络、操作 / 业务系统诸多指标及日志获取手段不一
• 尤其是基于 K8S 构架的系统,自动获取日志 / 指标成本极高
2 日志 / 指标规格化
• 上下游链路配合衔接,核心在于从海量日志中获取有效信息
• 格式化需要深入了解业务,对 IT 部门挑战大
全观测场景下痛点都是趋同的
什么是 Elasticsearch
基于 Lucene 的实时分布式的搜索与分析引擎
业内最主流的信息检索、分析引擎, DB - Engine 指数排行“全球热度 No.7 数据库,全球热度 No.1 检索引擎”
信息查询(查工商信息 / 订单 信息等
Elasticsearch全观测解决方案.pdf