EMR Platform Facilitates Big Data
EMR2.0 平台:让大数据更简单
李钰 (绝顶)
阿里云资深技术专家
EMR 平台技术团队负责人
EMR 平台 – 开源大数据的云原生运行环境
Elasticity – 算力按需申请释放,突破 IDC 物理限制
Stability – 故障节点自动替换补偿,关键事件自动告警
Intelligence – 智能探查资源浪费,预警集群潜在风险
Efficiency – 业务高效开发调试,作业一键调度上线
Big Data
Facilitation
Elasticity
Stability
Intelligence
Efficiency
Elasticity – 基于时间的弹性伸缩能力
• 定时增加或者减少 ECS 实例数量
弹性规则
• 业务 负载变化存在时间周期性
适用场景
• 如图中向下条纹所示
• 使用抢占式实例可进一步降低 成本
成本 节省
Elasticity – 基于指标的弹性伸缩能力
• 通过预设的基于负载指标的规则,
动态调整 ECS 实例数量
弹性规则
• 业务 负载 动态 变化 ,无固定周期性
适用场景
• 如图中向下条纹所示
• 使用抢占式实例可进一步降低 成本
成本 节省
Elasticity – 支持抢占式实例
• 支持实例规格筛选,单节点组最多选择 10 种不
同规格
• 成本优化策略支持自动选取低价实例规格出价
能力
• 生产实证可降低 80%+ 成本
• 典型客户案例支撑
效果
Elasticity – 性能大幅提升
• 单节点组内和多节点组间均支持并行扩容
• 支持缩容期间并行扩容,支持突发业务变化
高并行能力
• 更高的弹性速度, 100 节点扩容时间 <2 分钟
• 更快的感应速度,指标检测周期 <30 秒
快速响应能力
• 单次支持扩容节点数 >1000
大规模服务能力
3.4
5.7
8.2
10.3
1.2 1.3
1.5
1.8
0
2
4
6
8
10
12
5 20 50 100
弹性扩容速度(分钟)
单次扩容节点数
EMR 1.0
EMR 2.0
Stability – 支持节点故障容忍和补偿
core -1 节点组 task -1 节点组 master 节点组
EMR 集群
Resizing Resizing
core -1 节点组 task -1 节点组 master 节点组
故障 ECS 迁移 故障 ECS 迁移 故障计算节点
自动替换补偿
EMR 集群
• Core/Task 节点 CPU 打满不影响扩容
• Core/Task 节点 OS Hang 不影响扩容
• Core/Task 节点宕机不影响扩容
故障节点不影响扩容
• Task 节点 OS Hang 支持自动补偿
• Task 节点磁盘满支持自动补偿
• Task 节点网络问题支持自动补偿
计算节点故障自动替换补偿
✅ 集群全场景稳定性提升 1 个 9
Stability – 更加全面的服务巡检和事件通知
组件状态持续巡检,实时上报
集群服务
阿里云EMR2.0 平台:让大数据更简单.pdf