面向未来 构建新一代开源大数据基础设施
EMR 2.0 :重新定义新一代开源大数据平台
何源 ( 荆杭 )
阿里云高级产品专家
EMR 产品负责人
开源大数据的痛点以及 EMR 产品历程
2016 年 6 月
EMR 公有云商业化版
本发布上线
EMR 发布
EMR CloudSort 100
TB 竞赛打破世界纪录
Cloudsort 第一
EMR 开启国际化,累
计输出海外 10 余个
Region
国际化
EMR TPC -DS 10TB 成
绩登顶, TCO 比第二
名下降 50% ,是首个
通过 TPC 官方认证的公
有云产品
TPC - DS 第一
EMR JindoFS 发布,
升级云上大数据计算
存储分离架构
数据湖 1.0
数据湖构建 DLF 正式商
业化
元数据托管服务
EMR on ACK 版本上
线,为用户提供了全
新的构建大数据平台
的方式
K8S 形态发布
陆续推出 S tarrocks ,
Doris 等组件,丰富
数据分析的场景
数据分析
场景上线
新版控制
台上线
全新的架构升级和
产品体验
2016 年 9 月 2017 年 6 月 2019 年 3 月 2019 年 6 月 2020 年 12 月 2021 年 9 月 2022 年 3 月 2022 年 6 月
如何提升性能 ,降低成本 如何 降低运维成本 如何 保证数据和任务可靠性 如何管理数据开发和治理
EMR 2.0 新特性
全新平台体验
• 集群创建速度 2 倍 以上优化
• 集群扩容速度 3 倍 以上提升
• 弹性规模支持 千台 以上
• 故障节点迁移
• 集群诊断 工具
构建下一代开源大数据基础设施
• 全 托管 EMR
Notebook (Jupyter )
• Workflow (Dolphinscheduler )
• 数据开发治理平台 Dataworks
• on EMR
• EMR on ECS ,支
持 倚天 g8 ,性价比
提升超过 40%
• EMR on ACK(K8s)
• EMR Serverless
• 新版 数据湖
• 数据分析
• 数据服务
• 数据流
• 数据科学
全新数据开发 全新资源形态 全新分析场景
EMR 2.0 产品架构
硬件资源 ECS ( Intel, AMD, 倚天) / 神龙 /ECI
调度资源 EMR on ECS EMR on ACK EMR Serverless
存储资源 OSS - HDFS (Powered by JindoData )
分析场景
新版数据湖
Datalake
数据分析
OLAP
实时数据流
Dataflow
数据服务
DataServing
数据科学
DataScience
Spark/Hive/Yarn/Presto/
HudiDelta /RSS/ Kyuubi
Starrocks /Doris/ Clickhou
se /
Flink /Kafka Hbase /Phoenix Tensorflow /Pytorch
开发工具 开源解决方案 EMR Studio(Notebook, Workflow) 企业级开发平台 DataWorks on EMR
管控平台
弹性 调度 故障补偿 组件 管理
监控告警 集群诊断 权限 & 安全
DLF
元
数
据
阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf