文库 云计算 云服务器

通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf

ACK 自动化 运维 格式PDF   26页   下载0   2024-02-23   浏览86   收藏0   点赞0   评分-   免费文档
温馨提示:当前文档最多只能预览 6 页,若文档总页数超出了 6 页,请下载原文档以浏览全部内容。
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf 第1页
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf 第2页
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf 第3页
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf 第4页
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf 第5页
剩余20页未读, 下载浏览全部
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力姜继忠阿里云高级技术专家 Contents目录01Kubernetes和故障排查02使用AIOps套件诊断K8S故障03托管节点池 Kubernetes很简单一键部署应用kubectl apply –f nginx.yaml Kubernetes也很复杂架构复杂,概念多,学习曲线陡峭配置复杂,易出错生态庞大,涉及众多技术领域 Kubernetes运维挑战16.8%24.8%31.9%37.7%48.0%缺乏必要的技能和人才企业IT组织架构和文化遗留系统兼容性问题安全合规问题平台提供方支持力度有限Kubernetes and cloud native operations report2022 排查故障是Kubernetes用户难以绕过的坎 应用层异常和系统层异常业务内部异常K8S层面无异常需要开发人员排查分析应用日志、代码由于配置或其他原因所导致的K8S, OS等层面的异常由业务代码逻辑所导致的异常应用层异常系统层异常非业务代码问题K8S或者更底层的问题需要运维人员排查分析k8S配置、底层资源配置 典型的故障排查流程识别问题分析原因查看日志、监控、事件、配置修改配置,观察恢复情况Pod无法启动?节点状态异常?应用网络不通?根据问题,基于经验判断导致问题的可能原因,对于Pod持续Pending问题,可能的原因包括集群没有资源、部署约束不合理、镜像下载失败、网络分配失败等根据分析的可能原因,通过监控、日志进一步定位。定位到问题,修复后观测是否恢复 故障排查的挑战技能门槛经验沉淀排查耗时 通过AI实现自动化诊断Node云监控SLSKubernetes统一数据模型模块化采集采集数据源指标处理根因分析诊断类型接入Rule EngineKnowledge baseMachine Learning指标管理框架指标注册指标评估复杂指标预处理综合分析声明式规则外部接入持续优化ECS诊断vTrace用户评价知识沉淀诊断结果分析规则库维护问题排查标准流程Node诊断Pod诊断网络诊断容器智能运维CISOpenAPIIngress诊断内存诊断Service诊断LLM 容器服务AIOps套件Pod诊断节点诊断Ingress诊断网络诊断内存诊断Service诊断智能诊断云资源集群配置集群组件节点配置K8S API兼容性智能巡检资源配额资源水位组件版本证书集群风险分析集群检查专家知识+大模型容器服务ACK 使用AIOps套件诊断K8S故障 使用AIOps套件诊断K8S故障 使用AIOps套件诊断K8S故障 直接定位根因多种类型的检查项使用AIOps套件诊断K8S故障Pod诊断 使用AIOps套件诊断K8S故障节点诊断 使用AIOps套件诊断K8S故障内存诊断 使用AIOps套件诊断K8S故障网络诊断 已开源https://github.com/alibaba/kubeskoop/网络诊断Kubeskoop一键诊断网络链路•覆盖完整的Linux协议栈的配置错误场景•支持诊断多种云供应商的IaaS层网络错误配置深度网络监控•通过eBPF实现无侵入的Kernel Monitor•支持标准Prometheus接口暴露数据网络异常事件识别•数十种网络异常场景的自动分析识别•支持多种异常事件透出方式 防患于未然系统无法访问,因为证书过期了!业务扩容失败,交换机IP耗尽!集群容器不足,但是扩容失败,因为路由表满了!使用了新版本废弃的API,集群升级之后业务挂了! 智能巡检•定时自动运行•每周巡检报告,支持订阅•自动识别集群内潜在风险,防患于未然•包含5大类共40项检查,涵盖集群大部分故障类型 全托管节点池Self Managed NodepoolManaged Nodepool – ACK主动运维管理ACK管控•节点诊断和自愈•CVE安全问题自动修复•节点kubelet小版本自动升级•节点组件自动升级(containerd/systemd等) 全托管节点池为ACK节点池提供自动化运维能力,降低用户节点管理负担,提升用户节点环境安全水位和可靠性。•节点故障自愈。•CVE自动修复。•节点组件自动升级(规划中)。 全托管节点池•支持节点异常场景覆盖10+,包括DockerHung、ECS异常、kernel panic等。•自愈成功率99%+。•Node NotReady•DockerHung•NTPProblem•ECS异常/OS Panic…节点自愈•Restart kubelet•Restart docker/containerd•Restart ECS节点异常节点状态恢复正常(数据来源于阿里云容器服务测试结果) 全托管节点池•ACK自动修复托管节点池中节点CVE漏洞,提升集群节点安全水位。•对于紧急CVE漏洞,可最早在当日触发自动修复。ACK管控云安全漏洞管理中心获取CVE漏洞信息在集群运维时间窗口内分批修复节点 THANKS
通过 ACK 智能化运维体系获得集群自动化诊断和自愈能力.pdf
下载提示

欢迎下载文档

如有下载失败等问题,请邮件联系:duucloud # outlook.com