文库 云计算 云原生

ACK云上大规模Kubernetes集群高可靠性保障实战.pdf

ACK Kubernetes 高可靠 PDF   11页   下载25   2024-07-08   浏览27614   收藏97   点赞123   评分-   免费文档
温馨提示:当前文档最多只能预览 6 页,若文档总页数超出了 6 页,请下载原文档以浏览全部内容。
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf 第1页
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf 第2页
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf 第3页
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf 第4页
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf 第5页
剩余5页未读, 下载浏览全部
ACK云上大规模Kubernetes集群高可靠性保障实战刘佳旭阿里云智能技术专家 Contents目录01K8s集群稳定性和大规模场景的挑战02ACK稳定性治理和优化策略03ACK稳定性产品功能和最佳实践 K8s集群稳定性和大规模场景的挑战01Challenges of K8s cluster stability and large-scale scenarios Kubernetes 集群常见的稳定性痛点!在发布、弹性等高峰期,集群控制面服务时断时续,甚至完全不可用节点上kubelet并发拉取镜像遇到网络带宽限制,或者节点磁盘IO和CPU打满进而影响相同节点上的其他Pod业务集群节点批量 NotReady 导致雪崩,严重影响业务!部分节点出现NotReady,节点上Pod被驱逐调度到健康节点,健康节点由于压力过大也变为NotReady,加剧产生了更多NotReady的节点,业务持续重启需要大量的线上场景分析和优化、故障处理、规模压测等,来分析、整理并落地最佳实践和配置Kubernetes在提供丰富的技术功能之外,因架构和运维的高复杂性,产生诸多的痛点业务高峰期需快速弹性,节点上拉取Pod镜像耗时长达分钟级,影响业务Master节点/组件运维复杂度高,包含资源配置、参数调优、升级管理等面对大流量请求,如果控制面没有自动弹性扩容能力,会无法对负载自适应、导致控制面服务不可用。例如:客户端存在持续LIST大量资源,集群apiserver/etcd无法自动高弹性就会联动出现 OOM。 Kubernetes 集群架构控制面数据面节点(ECS/ECI)负载均衡kubernetes svc 系 统 组 件 ︵ 监 控 / 日 志 / 安 全 等 ︶ 用户业务等其他组件负责集群的API层、调度、资源管理、云资源管理等控制面功能K8s组件:apiserver/etcd/scheduler/kube-controller-manger/cloud-controller-manager控制面负责集群的节点管理、Pod生命周期管理、Service实现等数据面功能,承载业务Pod的主体K8s组件:kubelet/kube-proxy系统组件:日志、监控、安全等组件其他组件: 用户业务组件数据面负责为K8s集群提供节点、SLB等云资源,与云厂商的产品实现直接关联云资源:负载均衡SLB、云服务器ECS、弹性容器实例ECI、专有网络VPC、文件存储NAS、弹性公网IP EIP等云资源Cloud provider API控制面、数据面和云资源是有机结合的整体!集群的全链路中,有任何一个组件、子链路成为瓶颈,都可能影响到集群的整体稳定性 Kubernetes 稳定性体现服务可用性集群控制面组件和数据面组件提供稳定可靠的服务例如:无持续重启、OOM、资源泄露、IOHang请求QPS和流量吞吐系统对请求和流量吞吐的处理能力在预期范围内
ACK云上大规模Kubernetes集群高可靠性保障实战.pdf
下载提示

欢迎下载文档

如有下载失败等问题,请邮件联系:duucloud # outlook.com